OCR モデルを設定するには、次の 4 ステップを実行します。
メモ : カスタム OCR モデルと、すぐに利用できる OCR モデルの両方を作成できます。モデルタイプの詳細についてはこちらを参照してください。
メモ : モデル名は30 文字 以内である必要があります。
トレーニングデータは、モデルを学習させるために使用される主要なデータセットです。これにより、モデルは入力情報を正しく認識し、与えられた情報に基づいて正確な判断を行えるようになります。これによって、モデルが意図したとおりに動作することが保証されます。OCR モデルの場合、同じレイアウトの画像または PDF のセットを追加し、そこから抽出する値にタグ付けする必要があります。これにより、モデルは追加されたトレーニングデータからどの値を抽出する必要があるかを認識できます。詳細については、ガイドライン セクションを参照してください。
フィールドを追加し、必要な画像やPDFをアップロードしたら、アップロードした各トレーニングデータ内の該当する値に、追加したフィールドをタグ付けする必要があります。これにより、モデルはトレーニングデータからどの値を抽出すべきかを学習・識別できます。トレーニングデータから抽出可能なデータはすべてハイライト表示されます。ビジネス要件に応じて、抽出したい特定のテキスト部分を選択できます。
メモ:
- フィールドの追加を忘れた場合は、フィールドセクション(右側)で+ 新しい項目を追加をクリックすることで、フィールドを追加ページに戻らずに追加できます。
- 誤ってフィールドを追加した場合は、項目名の横にある三点リーダー(…)をクリックして、その項目を編集/削除したり、項目値を削除したりできます。
メモ : 追加したすべてのフィールドを、すべての画像でタグ付けしていない場合は、先に進むことはできません。
トレーニングデータを追加した後、モデル名、モデルタイプ、トレーニングデータの種類、および追加された トレーニングデータ数(画像またはPDF)など、モデルの詳細を確認できます。 変更が必要な場合は、戻って修正してください。問題なければ、そのままモデルの学習に進みます。
OCR モデルをアプリケーションで実際に使用する前に、目的どおりに動作するよう学習させる必要があります。
学習が完了すると、ユーザーはモデルのステータス(学習済み、失敗、下書き)、モデルタイプ、作成日と更新日、その他の詳細を、以下のとおり確認できます。
このセクションでは、現在のモデルのバージョン、学習データの種類、および値を抽出するフィールド名を確認できます。
このセクションでは、モデルのバージョン数、現在実行中のバージョン、モデルの作成日、追加されたフィールド数、および学習データ数を確認できます。
このセクションでは、モデルがデプロイされているアプリ名、フォーム名、およびフィールド名を確認できます。また、異なる環境を切り替えて、どの環境にモデルがデプロイされているかを確認できます。
学習後、アプリケーションにデプロイする前にモデルの信頼性をテストできます。これにより、モデルが必要な値を正しく識別して抽出できることを確認できます。
モデルを学習した後は、アプリケーションでデプロイできるように公開する必要があります。公開後、ユーザーはモデルを利用して画像から値を抽出できるようになります。
メモ: 一度公開したモデルは、非公開に戻すことはできません。ただし、モデルを変更して再度学習させることは可能です。
類似またはレイアウトが少し異なる追加の画像やPDFでモデルを再学習することで、必要な値をより正確に識別・抽出できるようになります。こうしたモデルの精度向上により、ビジネス要件に合わせてモデルを最適化できます。
メモ:
- いずれかのアプリケーションにデプロイされているモデルを削除すると、そのアプリケーションでのデプロイも削除されます。この操作は元に戻せません。
- 削除後も、追加されたフィールド(モデルの入力フィールドと出力フィールド)は、そのモデルがデプロイされているフォームに残ります。OCRモデルからの過去データは、該当フィールドをフォームから削除しない限り保持されます。
- 現在使用中のモデルバージョンは削除できません。代わりに、別のバージョンに切り替えてから、そのモデルバージョンを削除してください。
モデルを学習・テストしたら、公開してユーザーが利用できるようにし、必要な値の抽出を開始できます。公開後は、アプリケーション内でユーザーがモデルを利用できるようになります。ユーザーにモデルを使わせたくない場合は、モデルを削除できます。
メモ : 学習済みで選択したモデルは、[Select Model] セクションですでに選択された状態になっています。すぐに使える OCR モデル を作成する際に、モデルを選択できます。
メモ :
- 現在、ソースフィールドとして追加できるのは、画像フィールドとファイルアップロードフィールドのみです。そのため、フォーム内にある画像フィールドまたはファイルアップロードフィールドだけが、ソースフィールドの選択肢として表示されます。
- 選択したフォームに画像フィールドまたはファイルアップロードフィールドがない場合は、OCR モデルをデプロイする前に、まずいずれかのフィールドを作成する必要があります。
メモ :
- Extracted フィールドとは、アプリの本番モードで抽出された値が表示されるフィールドを指します。
- フィールドタイプに数値を選択した場合、小数、パーセンテージ、通貨の値も含まれます。
- フィールドタイプにテキストを選択した場合、1 行テキストと複数行テキストの値が含まれます。
- フィールドタイプに日付を選択した場合、選択した形式に従った日付値のみが表示されます。
これでアプリを本番環境で開き、ソース 項目で必要な画像や PDF をアップロードできます。OCR 項目がアップロードされた入力内容の認識を試行し、抽出された値は抽出結果 項目に表示されます。