PDF自動化

PDF自動化

お知らせ:当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。


PDF 自動化を使用すると、PDF ドキュメントを効率的に操作・管理できます。一般的にはデータ抽出やファイル結合などの機能を含みますが、現在はZoho RPA は主に PDF ファイルからのデータ抽出をサポートしています。この機能により、データ取得を自動化して手作業を大幅に削減し、プロセスやワークフローを効率化できます。
Notes対応 RPA エージェント プラットフォーム: Windows

PDF からのデータ抽出の主なユースケース

  1. 請求書処理
    受領した請求書から、請求書番号、日付、仕入先情報、明細行、合計金額などの主要情報を抽出し、経理処理や支払いプロセスを効率化します。
  2. レポートの分析
    財務レポートや売上レポートなどのビジネス文書から、特定のデータポイント、表、指標を抽出し、分析や意思決定に活用します。
  3. 法的文書からの情報抽出
    契約書などの法的文書から、主要な条項、日付、氏名、契約条件などを特定・抽出し、レビューやコンプライアンス対応に役立てます。
  4. 医療記録の管理
    医療文書から、患者情報、診療コード、検査結果、その他の関連情報を取得し、効率的なデータ管理と分析を行います。
  5. 銀行明細の処理
    PDF 形式の銀行明細から、取引明細、口座残高、その他の関連データを抽出し、財務照合や分析に利用します。
  6. 出荷書類の処理
    PDF の配送ラベルやマニフェストから、住所、商品情報、追跡番号などを抽出し、物流および在庫管理に活用します。
メモ : 「PDF からデータを抽出」機能は現在、PDF 内の印刷されたテキストの認識に対応しています。手書き文字には対応していません。

PDF ドキュメントからテキストを取得する

設定

変数名: 抽出したテキストを格納する出力変数の名前を指定します。この変数は、その後の自動化フローのステップで使用できます。
テンプレート ファイル パス:抽出したいデータがどこにあるかをボットが理解するための参照用 PDF のファイルパスです。これは OCR アクションの設定時にのみ使用されます。
テンプレート ファイル パスワード: テンプレート PDF ファイルがパスワード保護されている場合、そのパスワードを入力します。
実行ファイル パス:ワークフロー実行時に、ボットがテキスト抽出を行う実際の PDF のファイルパスです。ボットはテンプレート ファイルで設定した領域情報を使用して、この PDF からデータを読み取ります。
実行ファイル パスワード:処理対象の PDF ファイルがパスワード保護されている場合に、開くために必要なパスワードを入力します。

抽出対象のテキスト :
  1. PDF 全体
    PDF 内の印刷されたテキストをすべて 1 つの文字列として抽出します。

  2. PDF 内の特定エリア
    PDF 内の特定のテキスト部分のみを抽出します。


    エリア画像: PDF で選択した領域のプレビュー画像です。
    変数名: 選択した領域から抽出されたテキスト値を保持します。

  3. PDF 内のキーに対する相対エリア
    PDF 内で見つかった参照テキスト(キー テキスト)に基づいてテキストを抽出します。ボットはまず指定されたキー テキストを特定し、そのキーに対する相対位置に基づいて値を抽出します。データ要素の正確な位置が多少変動する場合でも、キーとの距離(相対位置)を指定することで柔軟に対応できます。
    キー テキスト: 抽出対象エリアを検索する際の基準となるテキストです。
    変数名: 選択した領域から抽出されたテキスト値を保持します。
    詳細設定:
    キーの一致パターン:
    完全一致: 画像内のテキストが、指定したキー テキストと完全に一致している必要があります。
    テキストを含む: 画像内のテキストに、指定したキー テキストがどこかに含まれている必要があります。
    テキストで始まる:画像内のテキストが、指定したキー テキストで始まっている必要があります。
    テキストで終わる: 画像内のテキストが、指定したキー テキストで終わっている必要があります。

    キーの出現回数: キー テキストが複数回出現する場合に、どの出現箇所を使用するかを指定します(例: 1 = 1 回目、2 = 2 回目)。
    アンカー テキスト:キー テキストの位置を特定するために使用する、画像内の特定のテキストです。キー テキストが複数回出現する場合や位置が変動する場合に、ボットが画像全体を検索せずに済むよう、検索開始位置の目印として使用します。
    たとえば、請求先住所を抽出したいが、それが「請求情報」と「配送情報」の 2 か所に表示されている場合を考えます。このとき、「請求情報」をアンカー テキストとして指定することで、最初の請求先住所のみを抽出できます。
    アンカーの出現回数: 抽出を開始する前に、アンカー テキストが出現する回数を指定します。
    データ抽出座標:
    抽出したいデータの位置とサイズを、キーに対する相対位置として正確に定義します。X(横方向)、Y(縦方向)、および抽出領域の幅と高さをピクセル単位で指定します。


    X: 画像の左端から、抽出したいデータの左上隅までの水平方向の距離(ピクセル単位)。
    Y: 画像の下端から、抽出したいデータの左上隅までの垂直方向の距離(ピクセル単位)。
    幅 (Width):抽出したいデータの横幅(ピクセル単位)。X 座標からの長さとして測定します。
    高さ (Height):抽出したいデータの高さ(ピクセル単位)。Y 座標からの長さとして測定します。

遅延設定

遅延設定を使用すると、アクションの前後に待機時間を挿入できます。これにより、ファイルのダウンロードなど必要な処理が完了するまでボットを待機させてから、次のステップに進めることができます。

アクション前の遅延 (ミリ秒):現在のアクションを実行する前に、ボットが待機する時間(ミリ秒)を指定します。必要な要素やファイルがすぐに利用できない場合のエラー防止に役立ちます。

アクション後の遅延 (ミリ秒): 現在のアクション完了後に、ボットが待機する時間(ミリ秒)を指定します。システムが更新・安定するまで待ってから、次のステップに進めたい場合に有効です。

データ抽出でサポートされている言語

アフリカーンス語
フィンランド語
キニヤルワンダ語 ソマリ語
アカン語
フランス語
マドゥラ語 スペイン語
アルバニア語
ドイツ語
モンゴル語 スワヒリ語
ベラルーシ語
ハウサ語
ノルウェー語 スウェーデン語
ブルガリア語
ハンガリー語
ポーランド語 タガログ語
セブアノ語
イボ語
ポルトガル語 タタール語
チェコ語
イロカノ語
ルーマニア語 ウクライナ語
デンマーク語
インドネシア語 ロシア語 ベトナム語
オランダ語
イタリア語 セルビア語 ヨルバ語
日本語
カザフ語 スロバキア語 ズールー語