お知らせ:当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の
英語版を参照してください。
Optical Character Recognition (OCR)モデルは、テキスト認識モデルであり、デジタル画像やPDFから印刷文字と手書き文字の両方を識別して抽出します。モデルに対して、デジタル画像またはPDFをスキャンし、機械学習を使用して必要な情報のみを抽出するようトレーニングできます。これは、大量の非構造化データから構造化データを処理・取得したい場合に特に有用です。このようにして得られた構造化データは、必要に応じて保存および処理できるため、データ入力プロセスの簡素化と自動化に役立ちます。たとえば、構造化データはメールの送信日時であり、非構造化データはメール本文全体にあたります。
Creator では 2 種類の OCR モデルをサポートしています。自社の業務ニーズに合わせたカスタムモデルを作成することも、一般的な業務シナリオ向けにすぐにアプリケーションへ導入できる、事前構築済み(ready-to-use)モデルを選択して利用することもできます。
必要な値のみを識別・抽出するようにトレーニングできるカスタム OCR モデルを作成できます。カスタム OCR モデルでは、業界をリードする複数のテキスト認識技術を組み合わせて、テキストを識別・ハイライトします。モデルによって抽出可能と判断されたすべてのテキストがハイライト表示され、タグ付けされていない値であることが示されます。その後、画像から抽出したい値に対応する項目を追加してタグ付けできます。モデルは、画像内の必要なテキストを抽出・処理するようにトレーニングされます。
- - OCR モデルは、フォントの種類に関係なく画像からテキストを抽出できます。
- - モデルは印刷文字と手書き文字の両方を検出できますが、印刷文字の使用を推奨します。手書き文字のばらつきが大きい場合、モデルが必要なテキストを正しく処理できない可能性があります。
OCR モデルの前提条件
ある特定の入力画像セットからテキストを抽出したいとします。この場合は、カスタム OCR モデルの利用が適しています。一方、入力画像から検出されたテキストをすべて抽出したいケースもあります。この場合には ready-to-use OCR モデルを使用できます。これは、PDF からテキストを抽出する場合にも同様で、カスタムモデルと ready-to-use OCR モデルの両方に当てはまります。
- 管理者は OCR モデルを作成・利用できますが、ユーザーは管理者が作成したモデルを利用することのみ可能です。
- モデルのトレーニングに使用するデータセットを決定するために、自社の業務要件を十分に把握している必要があります。
- Creator はローコードプラットフォームであるため、モデルの作成や予測結果の利用にあたり、ユーザーや管理者に事前のコーディングスキルや機械学習(ML) の知識は不要です。
- トレーニングデータとして、レイアウトが類似した画像を少なくとも 5 枚アップロードする必要があります。
- 抽出値を正しくタグ付けする限り、異なるレイアウトの画像を使用することもできます。
PDF ベースの OCR モデル
- カスタム OCR モデルの場合、必要なテキストを抽出するには、最大 2 ページまでの類似レイアウトを持つ PDF を5件以上用意する必要があります。
- AI モデルは、すべての有料プランのユーザーが利用できます。詳細は料金ページをご覧ください。
- カスタム AI モデルを作成するには Zoho Creator 6 (C6) を使用する必要があります。なお、ready-to-use AI モデルは C6 と C5 の両方で利用できます。
Creator を使用して Zylker 請求書処理アプリを作成したとします。請求書詳細というフォームがあり、そこに請求書の詳細と、その請求書のデジタルコピーを追加しています。請求書日付、請求書番号、支払期日、請求先住所など、請求書から特定のデータを抽出する必要があります。これは、紙の請求書をもとに支払い処理や取引先管理を行うことで手動でも対応できます。しかし、複数のレコードを扱う場合、抽出プロセスを自動化することで多くの時間と手作業を削減できます。
上記のケースで OCR モデルを使用する手順は次のとおりです。
- モデルを作成する:
- 抽出する値を特定し、それらの値を保存するための項目と項目タイプを選択します。この例では、請求書番号、請求書日付、支払期日、請求先住所が抽出対象の値になります。
- 類似または異なるレイアウトの十分なトレーニングデータをアップロードし、抽出対象として定義した項目に対応する値をタグ付けします。この例では、請求書の画像またはPDFをアップロードする必要があります。
- モデルをトレーニングする
- モデルをデプロイする:
- モデルへの入力を格納するため、フォーム内で画像項目またはファイルアップロード項目を選択します。
- 先ほど定義した項目を追加し、画像項目から抽出された値を保存します。この例では、請求書番号、請求書日付、支払期日、請求先住所が抽出された値を保存する項目になります(上記 GIF を参照)。
- 必要な値を取得するために画像またはPDFをアップロードします。この場合の入力は、請求書の画像または PDF になります。
OCR モデルのフロー
モデルの設定
トレーニングデータを追加する
トレーニングデータとは、モデルがデータパターンを分析し、解釈を行い、テキストを認識できるように結論を導き出すために使用される初期データセットです。OCR モデルをトレーニングするには、レイアウトが同一または異なる十分な数の画像や PDF を収集する必要があります。次に、収集した画像や作成した PDF から抽出したい値を特定します。トレーニングデータが確定したら、OCR モデルに項目を追加する作業に進みます。
- モデルの結果は常に正確であるとは限りません。これは他の AI と同様です。
- モデルの結果は動的です。同じ入力であっても、学習状況に応じて異なる結果が返される場合があります。つまり、再トレーニングを継続的に行うことで、モデルも継続的に学習していきます。
Creator では、フォーム項目にユーザーが入力した値が保存されます。同様に、抽出したい値も対応する項目に表示されます。項目を追加することで、その定義を確立し、モデルを Creator アプリケーションに実装した際に、そのアプリケーションのフォームにこれらの項目が表示されるようになります。必要に応じて、あらかじめ定義された項目を選択/選択解除できます。トレーニングデータから抽出する値を特定したら、その値に対応する項目と
データ型を追加する必要があります。
サポートされているデータ型は、テキスト、数値、日付です。
トレーニングデータを追加する
ここで、先ほど収集した画像や作成した PDF を使用します。画像や PDF には、請求書、チェック、インボイス、パスポート、領収書などの書類の写真やドキュメントを使用できます。これらのドキュメント内のテキストは、手書きと印刷のいずれでも構いませんが、印刷文字の方が望ましいです。
メモ : 手書き・印刷の両方の画像や PDF をアップロードできます。モデルが期待どおりに値を特定して抽出できるよう、すべての画像で抽出値に正しくタグ付けしてください。
項目へのタグ付け
追加したすべての項目にタグ付けしたあとで、必要に応じてここから新しい項目を直接追加することもできます。タグ項目ドロップダウンで新しい項目を追加をクリックするだけです。このオプションは、モデルあたりの追加済み項目数が 10 未満の場合にのみ表示されます。
必要なトレーニングデータをアップロードすると、それぞれのテキストがハイライト表示されます。次に、アップロードしたすべての画像/PDF で、前の手順で追加した項目に対する値にタグ付けする必要があります。ここでのタグ付けとは、追加した項目を、抽出して表示すべき値に対応付けることを指します。画像/PDF の各ページで、該当する値を選択してドラッグすることで値にタグ付けできます。たとえば、データ型が数値の請求書番号項目を追加している場合は、画像内の請求書番号の値にタグ付けする必要があります。これは、OCR モデルが入力データから抽出すべき項目値を認識できるようにするためです。

ガイドライン
形式
- 対応する画像形式は JPEG、PNG、BMP、TIF です。
- アップロードする各画像の最大サイズは 5 MB です。
- モデル全体のサイズは 150 MB を超えないようにしてください。
- アップロードする各 PDF ファイルの最大サイズは 5 MB です。
- カスタム OCR モデルの場合、PDF ごとに同一レイアウトのページが最大 2 ページ必要です。
- 現在サポートされている言語は日本語のみです。
その他
- 鮮明な画像をアップロードしてください。
- 異なるレイアウトの画像をアップロードする場合は、抽出値に正しくタグ付けされていることを確認してください。
- 正確に認識・抽出するには、同一レイアウトの画像を最低 5 枚アップロードする必要があります。
- トレーニングを成功させるには、各項目について、対応する値を最低 5 枚の画像でタグ付けする必要があります。
- モデルごとに、項目タイプ付きの項目は最小 1 項目、最大 10 項目まで抽出できます。
- フォームに OCR 項目を追加するには、そのフォーム内に 画像 項目をデータ元項目として用意しておく必要があります。ここでいうデータ元項目とは、モデルがテキストを特定・抽出するために入力画像をアップロードする項目を指します。フォーム内に対応する項目タイプが存在しない場合は、OCR モデルをデプロイする前に、その項目を作成する必要があります。
モデル概要
トレーニングデータを追加したら、モデルの詳細 (モデル名、モデルタイプ、トレーニングデータ、追加された画像数 など)を確認できます。変更が必要な場合は、前の画面に戻って修正してください。問題なければ、そのままモデルのトレーニングを続行できます。
モデルをトレーニングする
アプリケーションで OCR モデルを実際に使用する前に、期待どおりに動作するようトレーニングする必要があります。トレーニングデータを選択して確認したら、Train をクリックしてモデルをトレーニングします。
メモ : トレーニングには時間がかかる場合があります。同じページのまま待機することも、ページを閉じて後で戻ることもできます。トレーニング時間は、モデルサイズとキュー内のトレーニングモデル数によって異なります。
モデル詳細の表示と管理
モデルのトレーニングが完了すると、モデルの詳細、バージョン、および(存在する場合は)デプロイの詳細を表示できます。モデルは公開およびアプリへのデプロイを行う準備が整った状態になります。
モデルは、次の方法で管理できます。
- 再トレーニング - 新しいデータは常に作成されるため、定期的にモデルを再トレーニングすることをおすすめします。これにより、OCRモデルが値を抽出する際の信頼性と精度が向上します。
- モデルを再トレーニングするには、Re-train model をクリックします。
- 各再トレーニングが完了するたびに、新しいモデルバージョンが作成されます。必要に応じて、異なるバージョンを切り替えて使用できます。
- 現在使用中のバージョンを削除する場合は、削除を実行する前に、別のバージョンに切り替える必要があります。
- モデルのトレーニングに失敗した場合、「Model training has 失敗!」と表示されます。その間、直前まで正常に動作していたモデルが予測に使用されます。
メモ:
- 再トレーニングオプションは、フォーム項目からトレーニングデータを追加した場合にのみ利用できます。これは、新しいデータがアプリケーションに継続的に追加されるタイミングでモデルをトレーニングできるようにするためです。
- CSVファイルからデータを追加する場合は、モデルを削除し、新しいファイルをアップロードしてから、再度モデルをトレーニングできます。
- 名前を変更する - 必要に応じて、モデル名を変更できます。
- 削除 - 不整合なデータや誤って追加したデータが原因でモデルを削除したい場合は、削除 オプションを使用できます。
モデルのテスト
モデルをアプリケーションに公開してデプロイする前に、モデルをテストすることを推奨します(必須ではありません)。
トレーニング後、公開前に、モデルをテストして動作を確認し、トレーニング結果が十分かどうかを検証できます。そのうえでアプリケーションにデプロイしてください。テストデータをアップロードしてモデルをテストすると、抽出された値が結果として表示されます。
- 期待した結果が得られない場合は、モデルを再トレーニングするか、モデルの詳細を編集してから再度トレーニングできます。再トレーニングとは、編集を行わずに、継続的に学習しているモデルを再度トレーニングすることを指します。
- モデルをテストする際にアップロードできる画像は、1回につき1枚のみです。
- OCRモデルのガイドラインについては、こちらをクリックしてください。
モデルのトレーニング、テスト、評価が完了したら、パフォーマンス向上のためにモデルを調整できます。以下は、モデルのパフォーマンス向上に役立ついくつかのポイントです。
- 画像を収集したりPDFを作成したりする際は、文字が整列しているものを使用し、モデルがテキストを認識しやすいようにしてください。
- 高品質な画像やPDFを収集してアップロードするようにしてください。元のトレーニングデータの品質が高いほど、文字と背景を分離しやすくなり、OCRモデルの精度も高くなります。
- テキストと背景のコントラストを高めて、出力結果の視認性を向上させることもできます。
- 印刷されたテキストに対して使用した場合、OCRエンジンは非常に高い精度を発揮します。
- 画像やPDFページが逆さまになっていないことを確認してください。画像は正しい向きで取得し、テキストは傾いておらず、水平方向に表示されている必要があります。
モデルをトレーニングしたら、公開してユーザーが利用できるようにし、予測を開始できます。
手順はこちら
モデルを公開できるのは1回のみです。ユーザーにモデルを使用させたくない場合は、モデルを削除できます。
環境機能が有効なCreatorアプリケーションでOCRモデルを使用するには、そのアプリケーションの少なくとも1つのバージョンが
本番環境に公開されている必要があります。モデルをアプリケーションにデプロイした後、
各環境ステージを切り替えて、モデルがどのステージにデプロイされているかを確認できます。
手順はこちら
モデルを公開したら、デプロイ先のアプリケーションとフォームを選択する必要があります。選択したフォームにリダイレクトされ、フォームビルダーに、事前に定義した
項目が一覧表示されます。必要に応じて、項目を選択/選択解除できます。選択解除した項目は、そのフォームには追加されません。たとえば、同じOCRモデルを2つのフォームで使用している場合、両方のフォームで同じ項目セットが必要とは限らないため、不要な項目の選択を解除できます。
フォームには新しいOCR項目が追加され、任意の画像をアップロードできます。OCRモデルが画像を解析し、定義済みの項目に抽出された値を表示します。
メモ: トレーニング済みモデルを選択する前に、他の場所で参照されていない画像項目またはファイルアップロード項目をフォームに追加しておいてください。
サンプルデータで開始する
OCRをすぐに使い始められるように、Creatorアプリケーションですぐに利用できるサンプルデータを提供しています。ページをスクロールして、添付ファイルをダウンロードできます。