OCRモデルの構築と管理

お知らせ：当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。

AI Modelsはメジャーアップデートを受け、大幅に刷新され、新たにAI Modelerと名称が変更されました。これにより、モデルの作成、トレーニング、公開を行い、アプリ全体で使用できるようになりました。今回のアップデート前にモデルを作成した場合は、こちらをクリックして詳細をご確認ください。

目次：本ページでは以下について解説します。

OCRモデルの作成

追加する項目 - 抽出する必要がある項目の追加
追加する Training Data - 学習用データ（画像またはPDF）の追加
Tag 項目 - 画像やPDFページで項目の値にタグ付け
Model 概要

i) モデルのトレーニング - カスタムモデルをトレーニングするため

ii) テストモデル - モデルのパフォーマンスをテストするため

管理 OCR Model

i) 公開 Model

使用する Model - モデルをアプリケーションにデプロイするために利用します。

Optical Character Recognition (OCR) モデルは、digital 画像やPDFから情報を識別・抽出します。詳細は OCR モデルについてページをご参照ください。
法人のニーズに合わせて OCR モデルを作成 することも、ready-to-使用するモデルを選択して、アプリケーションに直接デプロイすることも可能です。

OCR モデルを設定するには、次の4つの手順に従ってください。

手順 1: OCR モデルの作成

手順 2: トレーニングデータの追加

手順 3: modelの概要を確認し、学習およびテストを行う

手順 4: modelを公開し、利用する

手順 1: OCRモデルを作成する

Creatorのホームページの「DEVELOP」セクションにあるMicroservicesへ移動します。マイクロサービスがすべて一覧表示されます。

OCRモデルを作成するには：

初めてAIモデルを作成する場合は、+ 新しく作成する ボタンをMicroservices ページ中央でクリックしてください。
すでにAIモデルを作成している場合は、+ 新しく作成する ボタンをMicroservices ページ右上でクリックしてください。

AI Modelsの下にある作成ボタンをクリックします。AI Models ホームページには2種類のモデルタイプが表示されます。カスタム モデルはユーザーのニーズに合わせて作成でき、Ready-To-使用する モデルはすぐにアプリケーションへデプロイできます。

メモ : カスタムとready-to-使用するの両方のOCRモデルを作成できます。モデルタイプの詳細については、こちらをご参照ください。

「OCR」カードを、作成-カスタム Modelsセクション内のAI Modelerページでクリックします。
Model 名前を入力し、種類を選択します（Training Data (受取請求書、小切手、Forms、請求書など) を、指定されたドロップダウンメニューからモデルの学習に使用します。「Other」オプションを選択した場合は、アップロードする画像の種類を指定してください。

メモ：Model 名前は30文字以内で入力してください。
「作成 Model」をクリックします。 追加する項目 画面が開きます。

手順 2: training data の追加

training dataはモデルを学習させるための主要なデータセットであり、入力情報を正しく解釈し、正確な判断を下すことを可能にします。これにより、モデルが意図した通りに動作することを保証します。OCR モデルでは、同じレイアウトの画像やPDFをセットで追加し、抽出対象の値にタグ付けを行う必要があります。これにより、モデルはtraining dataからどの値を抽出すべきかを認識できます。ガイドラインセクションで詳細をご確認いただけます。

追加する項目とデータ型

「追加する項目」画面で、抽出したい値の項目名前を入力し、該当するデータの種類（Text、番号、または日付）を選択します。

メモ:

項目の追加は、事前に項目を定義することを意味します。モデルがCreatorアプリケーションに実装されると、そのアプリケーションのフォームに項目が表示されます。
項目名前は30文字以内で設定してください。

その他の抽出項目とその項目タイプを同様に定義するには、+ 追加する項目をクリックします。必要なデータの追加が完了したら、下部の次をクリックしてください。

メモ: 1つ以上、最大10件までの項目を1つのOCRモデルに追加できます。

画像やPDFの追加

1. トレーニングデータとしてPDFまたは画像を選択します。

2. 選択したオプションに応じて、アップロードする PDFまたはアップロードする画像をクリックします。

メモ:

正確な画像認識を行うためには、同じレイアウトの5枚以上の画像をアップロードしてください。
カスタムOCRモデルの場合は、2ページずつの5つのPDFが最低限必要です。
トレーニングデータが画像ベースかPDFベースかにより、1つのモデルにつき最大20枚の画像または10個のPDFを追加できます。
対応画像形式はJPG、PNG、TIFです。
その他のガイドラインについては、こちらをクリックしてください。

1つ以上の画像やPDFをアップロードした後は、いずれかをクリックするとプレビューが表示されます。拡大、縮小、幅に合わせる、ページに合わせるが可能で、プレビューポップアップから前後の画像やPDFに移動できます。

3. 右上のトレーニングデータを追加をクリックして、さらに画像やPDFをアップロードできます。複数の画像やPDFを同時にアップロードすることも可能です。

4. アップロードしたトレーニングデータを削除するには、すべて選択を選んで削除をクリックするか、個別の画像/PDFを選択して削除をクリックしてください。

Tag 項目

項目を追加し、必須の画像やPDFをアップロードした後、アップロードした各トレーニングデータ内の該当する値に追加した項目をタグ付けする必要があります。これにより、モデルはどの値をトレーニングデータから抽出すべきかを参照・特定できるようになります。トレーニングデータから抽出可能なすべてのデータはハイライト表示されます。法人ニーズに合わせて、抽出したいテキスト部分を選択できます。

画像やPDFページ内の項目値をクリックし、該当する項目にタグ付けします。タグ付けが必要な値を完全にクリック＆ドラッグしてください。

クリックTag 次 を選択し、他のアップロード済み画像でも同様の手順を繰り返します。

メモ:

項目の追加を忘れてしまった場合は、項目セクション（右側）で + 追加する新しい項目 をクリックすることで、追加する項目 ページへ戻らずに項目を追加できます。

項目名の横にある 三点リーダー をクリックすると、項目の編集・削除や、誤って追加した値の削除が行えます。

「次」をクリックすると、マッピングが完了します。Model 概要ページが開きます。

メモ: すべての追加した項目をすべての画像にタグ付けしていない場合は、これ以上続行できません。。

手順 3: model 概要を確認し、モデルをトレーニングおよびテストする

トレーニングデータを追加した後、Model 名前、Model 種類、トレーニングデータの種類、追加したトレーニングデータの数（画像またはPDF）など、model の詳細を確認できます。修正が必要な場合は、戻って編集できます。問題がなければ、モデルのトレーニングに進んでください。

モデルのトレーニング

OCRモデルをアプリケーションで実際に使用する前に、希望する動作を行うようにトレーニングする必要があります。

モデルの概要ページでモデルの詳細を確認し、必要に応じて戻って修正します。モデル名やトレーニングデータの種類の変更、追加のトレーニングデータのアップロード、不要なデータの削除などが可能です。

必要な変更を加えたら、「Train Model」をクリックします。

メモ : モデルのトレーニングには時間がかかる場合があります。ページ上でそのまま待機するか、ページを閉じて後で戻ることも可能です。

モデル詳細の表示と管理

トレーニングが完了すると、モデルのステータス（trained、失敗、下書き）、モデル種別、作成・更新日、その他の詳細を下記の通り確認できます。

OCRモデルを作成し、トレーニング前にページを終了した場合、モデルのステータスは「下書き」に設定されます。
データ不足やネットワーク障害により、モデルのトレーニングが失敗する場合があります。

Model 詳細

このセクションでは、モデルの現在のバージョン、トレーニングデータの種類、抽出が必要な項目名を確認できます。

バージョン詳細

このセクションでは、モデルが持つバージョンの数、現在稼働しているバージョン、モデル作成日、追加された項目数、学習済みデータの件数を確認できます。

メモ: モデルの新規バージョンの作成方法については、こちらをクリックしてください。

Model Deployment

このセクションでは、できることとして、モデルがデプロイされているアプリ名、フォーム名、および項目名を表示できます。できることとして、さらにフィルターを使用して、異なる環境の中で、どの環境にモデルがデプロイされているかを確認できます。

テスト Model

トレーニングが完了した後、モデルを本番環境のアプリケーションにデプロイする前に、モデルの信頼性をテストできます。これにより、モデルが必須の値を正確に識別・抽出できることを確認できます。

モデルのトレーニングが正常に完了した画面の右上にあるテスト Modelをクリックします。

テスト Model 画面で画像またはPDFをアップロードします。モデルは抽出した値を右側のModel Outputの下に表示しようとします。

メモ :

値抽出時の重要な基準は、追加した項目の位置とそのタグ付けされた値です。詳細はこちらをクリックしてください こちら。
レイアウトが多少異なる画像でモデルをトレーニングしており、アップロードするテスト画像がそのレイアウトのいずれかに該当する場合、値は正しく抽出されます。
レイアウトが多少異なる画像でモデルをトレーニングしており、アップロードするテスト画像がそれらのレイアウトに該当しない場合、つまり異なる画像や、値を抽出したい項目の位置が異なる場合、値は正しく抽出されません。PDFでも同様です。
モデルの出力を改善するには、モデルを再トレーニングするか、モデル詳細を編集して再度トレーニングしてください。

OCR Modelの管理

モデルのトレーニングが完了したら、アプリケーションで利用できるよう公開する必要があります。ユーザーはモデルを利用し、画像から値の抽出を開始できます。

メモ : 一度モデルを公開済みにすると、非公開にはできません。ただし、モデルには引き続き変更を加え、再学習させることが可能です。

モデルの再学習

追加の画像やPDF（類似またはレイアウトがやや異なるもの）でモデルを再学習させることで、必須の値やその他の情報をより正確に特定・抽出できるようになります。このような再調整により、モデルの効率が向上し、法人のニーズに合わせて最適化できます。

メモモデルは定期的に再学習させることを推奨します。これにより、OCRモデルの信頼性と精度の向上につながります。

ページ右上の三点リーダーをクリックします。
モデルを再学習するには、Retrainをクリックします。新規バージョンが作成され、バージョン詳細に表示されます。
モデルを修正するには、編集をクリックします。モデル名の変更、項目やデータ型の修正、学習データの追加・削除、タグ付け値の修正などが可能です。これらの変更を反映させるには、再度学習を行う必要があります。
モデル名を編集するには、名前を変更するをクリックします。ポップアップが表示され、モデル名の編集が可能です。編集後、名前を変更するをクリックしてください。
モデルを削除するには、削除をクリックします。

メモ:

アプリケーションにデプロイされているモデルを削除すると、そのアプリケーションでのデプロイも削除されます。この操作は元に戻せません。

削除後も、追加された項目（model input および output 項目）は、該当モデルがデプロイされているフォーム内に残ります。OCRモデルからの過去データも、該当項目がフォームから削除されない限り保持されます。

現在使用中のモデルのバージョンは削除できません。代わりにバージョンを切り替えてから、そのバージョンを削除することができます。

手順 4: モデルを公開し、使用する

モデルのトレーニングおよびテストが完了したら、公開してユーザーが利用できるようにし、必要な値の抽出を開始できます。公開後は、アプリケーション内のユーザーがモデルを使用できるようになります。ユーザーにモデルを使用させたくない場合は、モデルを削除することも可能です。

画面右上の公開 Modelをクリックします。
画面に表示されるポップアップの公開をクリックします。

使用する Model

モデルが公開済みになると、ポップアップまたはページ右上の使用する Modelをクリックできます。
表示された使用する Modelのポップアップで、ドロップダウンリストからApplication名とフォーム名を選択し、使用する Modelをクリックします。

ユーザーは、選択したアプリケーションのフォームビルダー画面にリダイレクトされ、モデルがデプロイされます。OCRのポップアップが表示され、Model Input画面が開きます。

メモ : トレーニング済みで選択したモデルは、「選択する Model」セクションですでに選択されています。ready-to-使用する OCR modelを作成する際にもモデルを選択できます。

「Model Input 」セクションで、ドロップダウンメニューからデータ元項目を選択し、次をクリックします。

メモ :

現在、画像項目およびファイルアップロード項目のみをデータ元項目として追加できます。そのため、フォーム内で利用可能な画像またはファイルアップロードタイプの項目のみがデータ元項目の選択肢として表示されます。

選択したフォームに画像またはファイルアップロード項目がない場合は、OCRモデルを展開する前に作成する必要があります。

Extracted 項目および項目種類が正しく選択されていることを確認します。初期設定では、すべての定義済み項目が選択され、作成されます。必要に応じて選択を解除できます。

メモ :

Extracted 項目とは、抽出された値がアプリの有効な方法で表示される項目を指します。

項目種類に番号を選択した場合、小数、割合（%）、通貨項目の値が対象となります。

項目種類にテキストを選択した場合、単一折れ線グラフおよび複数折れ線グラフ項目の値が対象となります。

項目種類に日付を選択した場合、選択した形式に従った日付の値のみが表示されます。