お知らせ:当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の
英語版を参照してください。

増分データフェッチは、新規または更新済みのファイルをデータ元からインポートするための手法です。Zoho DataPrep では、Zoho Databridge を利用してローカルファイルから増分データをインポートできます。
DataPrep では、CSV、TSV、JSON、XML、TXT など様々なファイル形式を増分インポートすることが可能です。
メモ :
1. DataPrep では、拡張子がないファイルやプレーンテキスト形式のファイルもサポートしています。ただし、バイナリファイルはインポート時に解析できません。該当する場合は、上記の対応形式のいずれかに手動で変換してください。
2. インポート時にサポートされるローカルファイルの最大サイズは100MBです。その他の詳細な技術的制限についてはこちらをご参照ください。
インポートの開始方法
1. 既存のpipelineを開くか、パイプラインを作成します。「ホームページ」、「Pipelines」タブ、または「Workspaces」タブから、追加するdataオプションをクリックしてください。
情報: パイプラインビルダー上部にあるインポートするdata
アイコンをクリックして、複数のソースからパイプラインにデータを取り込むこともできます。
2. Filesオプションを選択する your data データ元から選んで、ローカルファイルをインポートします。また、左ペインのFilesカテゴリをクリックし、Filesオプションを選択することもできます。

増分データのインポート
3. ローカルネットワークからインポートトグルを有効にして、ローカルファイルを増分でインポートします。
情報: ローカルファイルをインポートするには、Zoho Databridgeをマシンにインストールしていることを確認してください。
こちらをクリックすると、Zoho Databridgeのダウンロードとインストール方法をご覧いただけます。
4. 有効なDatabridgeを選択し、以下の詳細情報を入力してください。
フォルダーパス: ファイルを検索したいフォルダーのパスを指定します。例:D:\\DataPrep\\Datasets
情報: フォルダーパスは大文字と小文字が区別されます。
含める subfolders: ファイルを検索する際に subfolders も含めたい場合は、このチェックボックスを選択してください。
File pattern: 指定した場所のファイル名を照合するために使用されるパターンです。regex 種類のマッチングをサポートしています。また、パターン「.*」を使用すると、指定したパス内のすべてのファイルに一致させることができます。
情報: File pattern は大文字と小文字を区別します。
メモ:ファイルパターンの照合には、シンプルなregex種類の照合が利用できます。例えば、Sales_2022.csv,Sales_2023.csv, Sales_2024.csvなどのファイルを取得したい場合、Sales_.* と入力してください。
同様に、PublicData1.csv , PublicData2.csv , PublicData3.csvなどのファイルを取得する場合は、公開する.*
1つのファイルのみをインポートする場合は、正確なファイル名でパターンを指定してください。
例:leads_jan_2022.*
ファイルパスワード: ファイルがパスワードで保護されている場合はパスワードを入力してください。
ファイルをマージしてインポートする- 指定したパターンに一致するすべてのファイルをマージし、1つのデータセットとしてインポートします。
情報: このオプションでは、一度に最大5ファイルまでマージできます。
メモ: このチェックボックスがオフの場合、一度に取得できるファイルは1つのみです。
例:ローカルパスにファイルが10個ある場合、最初の5つが1つのデータセットとしてまとめられインポートされます。次回の更新時に、残りの5つがまとめてインポートされます。
同様に、ローカルパスにファイルが8個ある場合は、最初の5つが先にまとめて取得され、続いて残りの3つが取得されます。
ファイルの種類: 必要なファイル形式を選択してください。利用可能な形式はCSV、TSV、JSON、XLS、XLSX、XML、TXTです。
Sheet pattern: このオプションはXLSおよびXLSX形式のみで利用可能です。パターンはファイル内のシート名を照合する際に使用します。正規表現による一致に対応しています。任意のシート名に照合する場合は、パターン「.*」も使用できます。
シートパターンの照合するも、シンプルな正規表現ベースの照合するです。例えば、Sales_2022、Sales_2023、Sales_2024 などの表計算シートを取得したい場合は、パターンとして Sales_.* を入力します。
同様に、PublicData1、PublicData2、PublicData3 などの表計算シートを取得する場合は、公開する.* を使用します。
単一のシートをインポートする場合は、正確なシート名でパターンを指定してください。
例: Leads_Jan_2022.*
情報: シートパターンは大文字と小文字が区別されます。
Sheet パスワード: このオプションはXLSおよびXLSX形式のみ利用可能です。シートがパスワード保護されている場合は、パスワードを入力してください。
表計算シートをマージしてインポートする: 指定されたパターンに一致するすべての表計算シートをマージし、1つのデータセットとしてインポートします。
インポート時にこのオプションを利用することで、インポート後にユニオン処理を行うことなく表計算シートをマージできます。
メモ: このチェックボックスがオフの場合、1度に取得できるシートは1枚のみとなります。
5. インポートするボタンをクリックします。データのインポートが完了すると、Visual Pipeline builderが開き、変換の適用を開始できます。また、ステージを右クリックしてデータの準備オプションを選択し、DataPrep Studioページでデータを準備することも可能です。変換について詳しくはこちらをご覧ください。
6. データフローの作成と各ステージで必要な変換の適用が完了したら、ステージを右クリックし、宛先を追加してデータフローを完了できます。
7. パイプラインに宛先を追加した後は、まず手動実行でパイプラインの動作を確認できます。手動実行が問題なく動作することを確認した後、自動化のためにスケジュールを設定できます。さまざまな実行タイプの詳細はこちらをご参照ください。
スケジュール、バックフィル、手動更新、Webhook、またはZoho Flowを設定する際、すべてのソースに対してインポートする設定が必須です。インポートする設定がされていない場合、実行を保存できません。こちらをクリックして、インポートする設定方法の詳細をご確認いただけます。
8. 実行を設定した後、指定の実行時間にパイプラインジョブが作成されます。ジョブの詳細なステータスは、ジョブ概要で確認できます。こちらをクリックして、ジョブ概要の詳細をご覧ください。
Databridgeを使用しないローカルファイルのインポートする設定
Zoho Databridgeを利用してローカルファイルからデータをインポートすることができます。インポートする設定の詳細は、以下のセクションをご参照ください。
バックフィル実行および手動更新を設定する際、すべてのソースに対してインポートする設定が必須です。インポートする設定を行わない場合は、実行を保存できません。
以下はバックフィル設定のスナップショットです。
データ元からデータをインポートする方法データ元ファイルを選択してインポートすることも、データ元ファイルをインポートしないことも選択できます。
データ元ファイルをインポートする
このオプションでは、頻度実行時にデータ元ファイルがインポートされます。
メモ: インポート構成が次の値と異なる場合、Schedule、Webhook、Zoho Flowのデータ元がファイルである場合は適用されません。ただし、Backfillや手動更新の場合は、ファイルのアップロード
オプションがインポート構成時に提供されます。不明なファイル形式の場合は、ファイルを次の形式で解析オプションを利用して解析できます。
データをインポートしない
データは1回のみインポートされます。2回目以降は、同じデータに対してルールが適用され、エクスポートされます。

Databridgeを使用したローカルファイルのインポート設定
ローカルネットワークからデータをインポートする場合は、以下のインポート設定を利用して、データのインポート方法や増分データの取得方法を設定できます。
「ここをクリック」リンクを選択して、インポート設定を行ってください。
以下はバックフィル設定のスナップショットです。
データ元からデータをインポートする方法
ドロップダウンからデータをインポートする方法を選択してください - すべてのデータをインポート、増分ファイルの取得、データをインポートしないから選択します。
すべてのデータをインポート
このオプションを選択すると、ファイルパターンに一致するすべての利用可能なデータがインポートされます。
File バッチ size: すべてのファイルをインポートする際に、バッチサイズを指定します。ファイルは最初の更新済み時間に基づいて、この数値ごとにグループ化されます。これらのファイルは1つのファイルとしてインポートされ、設定した頻度で宛先にエクスポートされます。
情報: File バッチ sizeは10を超えることはできません。このオプションはローカルネットワークからデータをインポートする場合のみ利用可能です。
増分ファイル取得
インポート設定オプションを使用して、ローカルネットワークから増分データをどのようにインポート・取得するかを設定できます。増分データインポートは、前回のデータ取得後に新規または更新されたデータを取り込む方法です。

新しいファイルが利用できない場合は、以前にインポートしたファイルを使用:
増分インポート時にデータ元に新しいファイルがない場合、
チェックボックスがオンの場合:最後に取得したファイルが再度インポートされます。
チェックボックスがオフの場合:インポートは失敗し、ファイルはインポートされません。
どのファイルをインポートするか?インポートするファイルとしてすべてのファイル、最新のファイル、または最も古いファイルをこのオプションで選択できます。
すべてのファイル
このオプションを使用すると、指定したファイルパターンに一致するすべてのファイルが、Fetch based オン項目に基づいて、特定のデータ区間内でインポートされます。
Fetch based オン: ファイルの並び順およびインポート方法を決定する基準となる時間を選択できます - 更新済み 時間
File バッチ size: すべてのファイルを段階的にインポートする場合のバッチサイズを指定します。ファイルは、特定のデータ区間内の更新済み時間に基づいて、この数値ごとにグループ化されます。グループ化されたファイルは一つのファイルとしてインポートされ、指定した頻度で宛先にエクスポートされます。
情報: File バッチ sizeは10を超える値に設定できません。このオプションはローカルネットワークからデータをインポートする場合のみ利用可能です。
最新のファイル
このオプションを選択すると、指定したファイルパターンに一致する最新のファイルが、Fetch based オン項目に基づいて特定のデータ区間内でインポートされます。
最も古いファイル
このオプションは、指定されたデータ間隔内で、指定したファイルパターンに一致する最も古いファイルをFetch based オン項目に基づいてインポートします。
データをインポートしない
データは1回のみインポートされます。2回目以降は、ルールが同じデータに対して取得され、エクスポートされます。

インクリメンタル同期の仕組み
インポート設定オプションを使用して、データ元からインクリメンタルデータをどのようにインポート・取得するかを設定できます。インクリメンタルデータインポートは、指定したデータ間隔で新規または更新済みデータをインポートする方法です。
インクリメンタルファイル取得では、パイプラインが実行されると新規または更新済みファイルが取得されます。頻度データ間隔中に、前回のデータ間隔以降に作成または更新されたファイルがインポートされます。ローカルファイルパスに新しいファイルがない場合はデータはインポートされず、またはインポート設定に従って以前にインポートしたデータが再取得されます。次回以降のデータ間隔では、その期間中に作成または更新されたファイルが取得されます。
スケジュール実行でのインクリメンタルフェッチ
インクリメンタルファイルフェッチでは、パイプラインがスケジュールされると、最初のスケジュールのデータ間隔は前へから現在までとなります。この間隔内に新規または更新済みのファイルがすべて取得済みとなります。2回目のスケジュールは現在の間隔から次の間隔まで延長され、その後も同様のパターンでスケジュールが続きます。
例として、スケジュールが1時間間隔に設定されていて、データ元に合計10ファイルがあり、そのうち5ファイルが1時間前にファイルパターンに照合してアップロードされたとします。インポートする設定はすべてのファイルをインクリメンタルでインポートするように設定されており、バッチサイズは10です。

最初のスケジュールが実行されると、直近1時間以内に作成または更新済みの5ファイルが取得済みとなり、1つのファイルとしてエクスポート済みとなります。
2回目のスケジュールでは、同じファイルパターンを持つ新規ファイルがデータ元に4つ追加された場合、この4ファイルのみが取得済みとなり、作成または更新済みの時間に基づいて1つのファイルとしてエクスポート済みとなります。
3回目のスケジュールでファイルパターンに照合する新規ファイルが13個データ元に追加された場合、バッチサイズが10に設定されているため、最初の10ファイルのみが取得済みとなり、作成または更新済みの時間に基づいて1つのファイルとしてエクスポート済みとなります。同じロジックが今後のスケジュールでのインクリメンタルフェッチにも申請済みとなります。
こちらをクリックしてスケジュール実行について詳しくご覧ください。
バックフィル実行でのインクリメンタルフェッチ
インクリメンタルファイルフェッチにおいて、パイプラインでバックフィル実行が設定されている場合、指定したデータ間隔内のインクリメンタルファイルがすべて取得済みとなります。
例えば、バックフィルが8月1日から3日まで、毎日ジョブ頻度で設定されています。8月1日には4ファイル、8月2日には7ファイル、8月3日には13ファイルがあります。インポートする設定は、すべてのファイルをインクリメンタルで取得し、バッチサイズは10に設定されています。
最初のバックフィルジョブでは、8月1日に作成または更新済みの4ファイルが取得され、1つのファイルとしてエクスポートされます。2回目のバックフィルジョブでは、8月2日の7ファイルが同様に処理およびエクスポートされます。3回目のバックフィルジョブでは、8月3日の最初の10ファイルが取得され、1つのファイルとしてエクスポートされます。
こちらをクリックしてバックフィル実行の詳細をご覧ください。
更新するデータのインクリメンタル取得
インクリメンタルファイル取得では、パイプラインに更新するが設定されている場合、指定したデータ間隔内のすべての新規または更新済みファイルが取得されます。

例えば、更新するが8月1日と2日の間で設定されています。
8月1日には3ファイル、8月2日には4ファイルがあります。インポートする設定は、すべてのファイルをインクリメンタルで取得し、バッチサイズは5、最も古い更新済み時間に基づいています。
更新するジョブでは、8月1日に作成された3ファイルと、8月2日に作成された最初の2ファイルが取得され、1つのファイルとしてエクスポートされます。
こちらをクリックして更新するの詳細をご確認ください。
関連情報
FTPサーバーからデータを段階的にインポートする方法