Optical Character Recognition(OCR)モデルは、テキスト認識モデルであり、デジタル画像からテキスト(印刷されたものと手書きのもの)を識別して抽出します。 マシンラーニングを使用して、モデルをトレーニングして、デジタル画像をスキャンして必要な情報のみを抽出することができます。 これは、大量の非構造化データから構造化データを処理して取得したい場合に特に便利です。
この構造化されたデータは、必要なときにビジネスが保存および処理することができ、データ入力プロセスを簡素化および自動化するのに役立ちます。 例えば、構造化されたデータは、電子メールの日時であるのに対し、非構造化データは、電子メールの全体の内容自体です。
Creatorは2つのタイプのOCRモデルをサポートします:ビジネスニーズに合わせたカスタムモデルを構築できますか、または準備ができている(プリビルト)モデルを選択して、多くの一般的なビジネスシナリオでアプリケーションに展開できる準備ができています。
ユーザーはカスタムOCRモデルを構築することができます。このモデルは、必要な値のみを識別して抽出するように訓練することができます。カスタムOCRモデルは、業界をリードするテキスト認識技術のアンサンブルを利用して、カスタムOCRモデルの場合にテキストを識別して強調表示します。モデルによって識別された抽出可能なテキストは、タグ付けされていない値であることを示すために強調表示されます。ユーザーは、画像から値を抽出したいフィールドを追加してタグ付けすることができます。モデルは、画像内に見つかった必要なテキストを抽出して処理するように訓練することができます。
以下のGIFは、入力画像(請求書)から必要なテキスト値を抽出することを示しています:
独自のOCRモデルを構築して訓練し、ビジネスニーズに合わせることができます。さらに、当社の 準備完了-から-OCRモデルを利用することができ、それを直接アプリケーションに展開することができます。
例えば、ある一連の入力画像からテキストを抽出したいとします。その場合、カスタムOCRモデルがより適しています。場合によっては、入力画像から検出されたすべてのテキストを抽出したい場合もあります。そのような場合は、準備が整ったOCRモデルを使用することができます。
Zylkerの請求書処理アプリをCreatorを使用して構築したと仮定します。フォーム名は「請求書の詳細」で、請求書の詳細とデジタルコピーを追加します。請求書から、請求日、請求書番号、支払期日、請求先住所などのデータを抽出する必要があります。これは、支払いを処理し、口座を管理するために紙の請求書を頼ることで手動で行うことができます。しかし、複数のエントリが関係している場合、抽出プロセスを自動化することで、多くの時間と手動作業を節約できます。
このケースでOCRモデルを使用する方法を以下に示します。
訓練データは、モデルがデータパターンを分析し、解釈を行い、画像からテキストを認識するのに役立つ結論に到達するために使用される最初のデータセットです。 OCRモデルを訓練するには、十分な類似したレイアウトの画像を収集する必要があります。次に、収集した画像から抽出したい値を特定する必要があります。訓練データが最終決定したら、OCRモデルにフィールドを追加することができます。
Creator では、ユーザーが入力した値がフォームフィールドに格納されます。同様に、抽出したい値はそれぞれのフィールドに表示されます。フィールドの追加は、それらの定義を確立するために使用されます。そのため、モデルがCreatorアプリケーションに実装された場合、これらのフィールドがそのアプリケーションのフォームにリスト表示されます。必要に応じて、定義済みのフィールドを選択/非選択できます。トレーニングデータから抽出する値を特定したので、フィールドとその対応するデータ型を追加する必要があります。
以前採集した画像が今役立つことになります。これらの画像は、請求書、小切手、請求書、パスポート、領収書などを含む文書の画像です。これらの文書のテキストは、手書きまたは印刷されていますが、印刷テキストが好ましいです。
画像をアップロードしたら、アップロードされた画像の各テキストが強調表示されます。次に、先に追加したフィールドにタグ付けする値をすべてのアップロードされた画像に設定する必要があります。ここでのタグ付けとは、追加したフィールドを抽出して表示する必要がある値にマッピングまたは関連付けることを意味します。追加したフィールドのデータ型が数値の場合、画像内の請求書番号の値をタグ付けすることができます。これは、入力データからこれらのフィールド値を抽出する必要があることをOCRモデルが認識するようにするためです。
フォーマット
サイズ
言語 (印刷及び手書きテキスト用)
その他
訓練データを追加した後、モデルの詳細を確認できます: モデル名、 モデルタイプ訓練データ追加された画像の数などです。修正が必要な場合は、戻って修正を行うことができます。そうでない場合は、モデルを訓練することに進むことができます。
OCRモデルをアプリケーションで実際に使用する前に、必要な方法で動作させるようにトレーニングする必要があります。トレーニングデータを選択し、レビューした後、モデルをトレーニングするには「トレーニング」をクリックしてください。
トレーニングモデルが完了したら、モデルの詳細、モデルのバージョン、およびデプロイメントの詳細を表示できます(もしあれば)。モデルは現在、公開およびアプリへのデプロイの準備が整いました。
モデルを以下のような方法で管理することができます:
モデルを訓練し、テストし、評価した後、モデルを調整して性能を向上させることができます。以下に、モデルの性能を改善するために試すことができるいくつかのことを紹介します。
モデルをトレーニングした後、ユーザーに利用可能にして予測を開始するために公開することができます。方法を学ぶ
OCRモデルを環境対応のCreatorアプリケーションで使用するには、そのアプリケーションの最低1つのバージョンをプロダクション環境に公開する必要があります。モデルをアプリケーションにデプロイした後、異なる環境のステージをフィルタリングして、どのステージにモデルがデプロイされているかを確認できます。 モデルのデプロイ方法を学ぶ
モデルを公開した後、アプリケーションとデプロイするフォームを選択する必要があります。選択したフォームにリダイレクトされ、以前に定義したフィールドがフォームビルダーにリストされます。必要に応じてフィールドを選択/非選択できます。非選択されたフィールドはそのフォームに追加されません。例えば、同じOCRモデルを2つのフォームで使用する場合、2つのフォームに必要なフィールドが同じではない場合、必要なもの以外を非選択できます。
新しいOCRフィールドがフォームに追加されます。ここでは、好きな画像をアップロードできます。OCRモデルは、定義されたフィールドに抽出された値を分析して表示します。
OCRをすばやく開始するために、Creatorアプリケーションですぐに使用できるサンプルデータを提供しています。下をスクロールして添付ファイルをダウンロードできます。
「導入したばかりで基本操作や設定に不安がある」、「短期間で集中的に運用開始できる状態にしたい」、「運用を開始しているが再度学び直したい」 といった課題を抱えられているユーザーさまに向けた少人数制のオンライントレーニングです。
日々の営業活動を効率的に管理し、導入効果を高めるための方法を学びましょう。