その他
- クリアな画像をアップロードしてください。
- 異なるレイアウトの画像をアップロードする場合は、抽出値に正しくタグ付けしてください。
- 認識と抽出を正確に行うためには、同じレイアウトの画像を最小5枚アップロードする必要があります。
- 学習を成功させるには、各項目を最小5枚の画像で、それぞれ対応する値にタグ付けする必要があります。
- 1つのモデルにつき、最小1項目(項目種類付き)、最大10項目(それぞれの項目種類付き)まで抽出可能です。
- フォームにOCR項目を追加するには、画像項目をそのフォームのデータ元項目として持っている必要があります。データ元項目とは、モデルがテキストを識別・抽出するために入力された画像をアップロードする項目を指します。対応している項目種類がフォーム内に利用可能でない場合は、OCRモデルを導入するために、まず作成する必要があります。
Model 概要
トレーニングデータを追加した後、model 詳細でModel 名前、Model 種類、training data、追加した画像の番号などを確認できます。修正が必要な場合は戻って編集できます。修正が不要な場合は、そのままモデルのトレーニングに進みます。
モデルをトレーニング
OCRモデルを実際にアプリケーションで使用する前に、希望する動作をするようにトレーニングする必要があります。トレーニングデータを選択・確認したら、トレーニングをクリックしてモデルのトレーニングを開始します。
メモ : トレーニングには時間がかかる場合があります。 同じページでそのままお待ちいただくか、ページを閉じて後から戻ることも可能です。トレーニングの所要時間は、モデルのサイズやキュー内のトレーニングモデル数によって異なります。
モデル詳細の表示と管理
モデルのトレーニングが完了すると、モデルの詳細やバージョン、デプロイメントの詳細(存在する場合)を表示できます。モデルは公開やアプリへのデプロイが可能な状態です。
以下の方法でモデルを管理できます。
- 再トレーニング - 新しいデータが常に作成されるため、定期的にモデルを再トレーニングすることを推奨します。これにより、OCRモデルの信頼性や正確性が向上し、値の抽出精度が高まります。
- 「Re-train model」をクリックすると、モデルが再学習されます。
- 各再学習が完了するたびに、新規バージョンのモデルが作成されます。ニーズに応じて異なるバージョン間で切り替えることができます。
- 現在使用中のバージョンを削除したい場合は、削除する前に別のバージョンへ切り替える必要があります。
- モデルの学習が失敗した場合、「Model training has 失敗!」と表示されます。その間、前の動作中のモデルが予測に使用されます。
メモ:
- 再学習オプションは、フォーム項目からトレーニングデータを追加した場合のみ利用可能です。これは、新規データがアプリケーションに継続的に追加されるたびにモデルをトレーニングできるためです。
- CSVファイル経由でデータを追加する場合は、モデルを削除し、新規ファイルをアップロードしてから再度学習できます。
- 名前を変更する - 必要に応じて、モデルの名前を変更できます。
- 削除 - データが不整合または誤って追加された場合は、削除オプションを使用してモデルを削除できます。
テスト model
モデルをアプリケーションで公開・展開する前にテストすることを推奨します(必須ではありません)。
トレーニング後から公開前までの間に、モデルの動作やトレーニング結果が満足できるかを確認するためにテストを行うことができます。テストデータをアップロードし、テスト終了後には抽出された値が結果として取得されます。
- 期待通りの結果が得られない場合は、モデルを再トレーニングするか、詳細を編集して再度トレーニングしてください。再トレーニングとは、編集せずに再度トレーニングを実施することで、モデルが継続的に学習することを意味します。
- モデルのテスト時は、一度にアップロードできる画像は1つのみです。
- OCRモデルのガイドラインについては、こちらをクリックしてください。
モデルのトレーニング、テスト、評価が完了した後は、パフォーマンス向上のためにモデルを調整できます。以下は、モデルのパフォーマンスを高めるために試せるポイントです。
- 画像の収集やPDFの作成時には、文字がきちんと整列していることを確認し、モデルがテキストを認識しやすくしましょう。
- 高品質な画像やPDFを収集・アップロードするようにしてください。トレーニングデータの元の品質が高いほど文字の判別が容易になり、OCRモデルの精度も向上します。
- テキストと背景のコントラストを高めることで、出力の明瞭さをさらに向上させることができます。
- 印刷文字に対して使用する場合、OCRエンジンは非常に高い精度を発揮します。
- 画像やPDFページが逆さまになっていないことを確認してください。画像は正しい形式で取得し、テキストが水平に表示されていることを確認しましょう。
モデルのトレーニングが完了した後、公開してユーザーが利用できるようにし、予測を開始できます。
手順はこちら
モデルは一度だけ公開できます。ユーザーにモデルを使用させたくない場合は、モデルを削除できます。
OCRモデルを環境対応のCreatorアプリケーションで使用するには、そのアプリケーションのバージョンが少なくとも1つ、
本番環境で公開されている必要があります。アプリケーションにモデルをデプロイした後、
環境の各ステージ間でフィルターして、どのステージにデプロイされているかを確認できます。
詳細はこちら
モデルを公開した後、デプロイ先のアプリケーションとフォームを選択してください。選択したフォームにリダイレクトされ、
以前に定義した項目がフォームビルダーに一覧表示されます。項目は必須として選択または選択解除できます。選択解除された項目はそのフォームに追加されません。例えば、同じOCRモデルを2つのフォームで利用する場合、両方のフォームで同じ項目が必要とは限らないため、必要ないものは選択解除できます。
新しいOCR項目がフォームに追加され、お好きな画像をアップロードできます。OCRモデルが解析を行い、抽出した値を定義済みの項目に表示します。
メモ: トレーニング済みモデルを選択する前に、参照がない画像またはファイルアップロード用の項目をフォームに追加してください(つまり、その項目がどこでも使用されていない状態)。
開始する with sample data
OCRをすぐに使い始められるよう、Creatorアプリケーションですぐに利用できるサンプルデータをご用意しています。画面を下にスクロールして添付ファイルをダウンロードしてください。