FTPサーバーからの増分データのインポート

FTPサーバーからの増分データのインポート

お知らせ:当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。



インクリメンタルデータフェッチは、データ元から新規ファイルをインポートする際に使用される方法です。Zoho DataPrepは、Zoho Databridgeを利用してFTPサーバーからインクリメンタルデータをインポートすることができます。DataPrepでは、FTPからCSV、TSV、JSON、XML、TXTなど様々なファイル形式をインクリメンタルにインポートできます。

インポートを開始するには    

1. 既存のパイプラインを開くか、新規作成する場合はこちらホームページ、Pipelinesタブ、またはWorkspacesタブから操作し、「データを追加」オプションをクリックしてください。

InfoInfo: できること または インポートするデータの アイコンをパイプラインビルダーの上部でクリックし、複数のソースからデータをパイプラインへ取り込むことができます。
 

  

 

2. FTP オプションを選択する your data データ元セクションから選択するか、左側のFilesカテゴリーから選択してください。

 

 

メモ: 以前にFTP接続を追加済みの場合は、FTP serversSaved 外部連携セクションで既存の接続を選択し、インポートを続行できます。Saved 外部連携の詳細は、クリック こちらをご覧ください。


インポートする増分データ

 

 

3. インポートする from local networkトグルを有効にすると、FTPサーバーからローカルファイルを増分インポートできます。

 

情報: FTPからファイルをインポートするには、マシンにZoho Databridgeをインストールしていることをご確認ください。Zoho Databridgeのダウンロードとインストール方法はこちらをクリックしてご確認いただけます。

 

3. 有効なDatabridgeを選択します。

 

4. サーバーに接続し、ファイルを取得するためのFTP接続を設定します。

 

5. FTP server 種類のドロップダウンから、以下のいずれかの設定を選択します。

  • FTP - ファイル転送

  • FTPS - 暗黙的 TLS/SSL 経由のファイル転送

  • FTPS - 明示的 TLS/SSL 経由のファイル転送

  • SFTP - SSH ファイル転送プロトコル

 

 

6. FTP server hostを入力します。また、サーバーのIPアドレスまたはFQDN(完全修飾ドメイン名)も入力できます。

 

7. 認証が必要な場合は、ユーザー名パスワードを入力します。


メモ: 接続設定は今後のデータインポートのために保存されます。認証情報は安全に暗号化されて保存されます。

 

SFTP-SSH ファイル転送プロトコル

7. SFTP(SSH ファイル転送プロトコル)サーバー種類を選択した場合、ユーザー名&パスワードもしくはキー ファイルを使用してログインできます。




8. キー ファイルオプションを選択してログインする場合は、キー ファイルをアップロードしてください。

重要: Zoho Databridge の旧バージョンをお使いの場合、このオプションは利用できません。キー ファイルによるログイン種別でローカルネットワークからデータをインポートするには、最新バージョンの Zoho Databridge がインストールされていることを確認してください。Zoho Databridge のダウンロードとインストール方法についてはこちらをクリックしてください。



 

9. 接続ボタンをクリックし、以下の詳細を入力してください。






フォルダパス: ファイルを検索したいフォルダのパスを指定します。例: /srv/ftp/filesfortest/

補足: フォルダパスは大文字と小文字が区別されます。

サブフォルダを含める: ファイル検索時にサブフォルダも対象にしたい場合は、このチェックボックスを選択できます。

ファイルパターン: 指定した場所でファイル名を照合する際に使用するパターンです。正規表現によるマッチングに対応しています。パス内のすべてのファイルに対して照合したい場合は、パターン「.*」も使用できます。

例えば、Sales_2022.csv , Sales_2023.csv , Sales_2024.csvといったファイルを取得したい場合、パターンとしてSales_.*を入力できます。

同様に、PublicData1.csv、PublicData2.csv、PublicData3.csvなどのファイルを取得する場合は、公開する.*

1つのファイルをインポートする場合は、正確なファイル名でパターンを指定してください
例:leads_jan_2022.*

情報: ファイルパターンは大文字・小文字が区別されます。

ファイルパスワード: ファイルがパスワード保護されている場合は、パスワードを入力してください。

ファイルを結合してインポートする- 指定したパターンに一致するすべてのファイルを結合し、1つのデータセットとしてインポートします。
情報: このオプションでは、1回につき最大5ファイルまで結合できます。
Notesメモ: このチェックボックスがオフの場合、1回につき1ファイルのみが取得されます。

例えば、FTPサーバーのパスに10ファイルある場合、最初の5ファイルが1つのデータセットに結合されてインポートされます。次回の更新時に、残りの5ファイルが結合されてインポートされます。

同様に、FTPサーバーのパスに8ファイルある場合は、最初の5ファイルが結合されて先に取得され、残りの3ファイルが次に取得されます。

シートパターン:このオプションはXLSおよびXLSX形式のみ利用可能です。パターンはファイル内のシート名と照合するために使用されます。正規表現タイプのマッチングに対応しています。任意のシートと照合したい場合は、パターン「.*」を使用することもできます。

シートパターン照合もシンプルな正規表現ベースの照合です。例えば、Sales_2022、Sales_2023、Sales_2024のような名前の表計算シートを取得したい場合、パターン「Sales_.*」を入力します。

同様に、PublicData1、PublicData2、PublicData3などの表計算シートを取得する場合は、「公開する.*」を使用してください。

特定のシートのみインポートしたい場合は、パターンに正確なシート名を指定してください。
例:Leads_Jan_2022.*
Info
情報:シートパターンは大文字と小文字を区別します。
シートパスワード:このオプションはXLSおよびXLSX形式のみ利用可能です。シートがパスワードで保護されている場合は、パスワードを入力してください。
表計算シートのマージとインポート:指定したパターンに一致するすべてのファイルをマージし、単一のデータセットとしてインポートします。


Idea
インポート時にこのオプションを使用すると、インポート後にユニオンを実行することなく、表計算シートをまとめてマージできます。
Notesメモ: このチェックボックスがオフの場合、1度に取得できるシートは1つのみとなります。

10. インポートするボタンをクリックします。データのインポートが完了すると、Visual Pipeline builderが開き、変換の適用を開始できます。また、ステージを右クリックしてデータの準備オプションを選択し、DataPrep Studioページでデータを準備することも可能です。変換の詳細についてはこちらをクリックしてください。



11. データフローの作成および必要な変換の適用が各ステージで完了したら、ステージを右クリックして宛先を追加して、データフローを完了させます。


12. パイプラインに宛先を追加した後、まず手動実行でパイプラインを実行してみてください。手動実行が正常に動作することを確認したら、スケジュールを設定し、パイプラインの自動化が可能です。各種実行タイプについてはこちらをご参照ください。

スケジュール、バックフィル、手動更新、Webhook、またはZoho Flowを設定する際は、すべてのソースに対してインポートする設定が必須です。インポートする設定を行わないと、実行を保存できません。インポートする設定方法についてはこちらをクリックしてください。

13. 実行を構成した後、指定した時刻にパイプラインジョブが作成されます。ジョブのステータスは、ジョブ概要で詳細情報とともに確認できます。こちらをクリックしてジョブ概要の詳細をご覧ください。

Databridgeを使用しない場合のFTPサーバー向けインポート設定

Backfill実行や手動更新を設定する際、すべてのデータソースに対してインポート設定を必ず行う必要があります。インポート設定を行わないと、実行内容を保存できません。

以下はBackfill設定画面のスナップショットです。


 

データ元からデータをインポートする方法データ元ファイルをインポートするか、データをインポートしないかを選択できます。

 

データ元ファイルをインポートする


このオプションを選択すると、指定した頻度でデータ元ファイルがインポートされます。




Notesメモ: インポート設定は、ファイルがSchedule、Webhook、Zoho Flowのデータ元の場合には適用されません。ただし、Backfillや手動更新の場合は、インポート設定で「ファイルアップロード」オプションが利用できます。

データをインポートしない  

データは一度だけインポートされます。2回目以降は、同じデータに対してルールが適用され、エクスポート済みとなります。  


Databridgeを利用したFTPサーバーのインポート設定

ローカルネットワークからデータをインポートする場合は、下記の設定を使用してインポート方法や増分データの取得方法を設定できます。インポート設定を行ってください。

こちらをクリック」リンクを選択してインポート設定を行います。

以下はバックフィル設定のスナップショットです。


 


データ元からデータをインポートする方法

ドロップダウンからデータをインポートする方法を選択してください - すべてのデータをインポート増分ファイルの取得データをインポートしないから選択できます。

 すべてのデータをインポート   

このオプションを選択すると、ファイルパターンに一致するすべての利用可能なデータがインポートされます。

 


 

ファイルバッチサイズ:すべてのファイルをインポートする際のバッチサイズを指定します。ファイルは最初の更新時間に基づいて、この番号ごとにグループ化されます。グループ化されたファイルは1つのファイルとしてインポートされ、実行頻度に従って宛先にエクスポートされます。

情報: ファイルバッチサイズは10を超える値に設定できません。このオプションはローカルネットワークからデータをインポートする場合のみ利用できます。

 インクリメンタルファイルフェッチ   

ローカルネットワークからインクリメンタルデータをどのようにインポート・取得するかは、インポート設定オプションで設定できます。インクリメンタルデータインポートは、前回のデータ取得間隔以降の新規または更新済みデータをインポートする方法です。


 



 

新規データが利用できない場合は以前インポートしたデータを使用: 

インクリメンタルインポート時に、

  1. チェックボックスがオンの場合:データ元に新規データがない場合、最後に取得したデータが再度インポートされます。
  2. チェックボックスがオフの場合:データ元に新規データがないとき、インポートは失敗し、ファイルがインポートされません。その結果、パイプラインジョブ全体が失敗します。

 

どのファイルをインポートするか?このオプションを使って、すべてのファイル最新ファイル、または最古ファイルをインポートするよう選択できます。

 すべてのファイル   

このオプションを選択すると、「Fetch based オン」項目に基づき、指定されたファイルパターンに一致するファイルのみが特定のデータ区間でインポートされます。


Fetch based オン: ファイルを並べ替えおよびインポートする際に基準となる時間を選択できます - 更新済み時間


File バッチ size: すべてのファイルを段階的にインポートする場合のバッチサイズを指定します。ファイルは、この数値ごとにグループ化され、特定のデータ区間内で最初に作成または更新された時間を基準としてまとめられます。まとめられたファイルは1つのファイルとしてインポートされ、頻度実行時に宛先へエクスポートされます。

Info情報: File バッチ sizeは10を超えることはできません。このオプションはローカルネットワークからデータをインポートする場合のみ利用できます
 

 最新ファイル   

このオプションを選択すると、「Fetch based オン」項目に基づき、指定されたファイルパターンに一致する最新のファイルが特定のデータ区間でインポートされます。



 最古ファイル   

このオプションを選択すると、「Fetch based オン」項目に基づき、指定されたファイルパターンに一致する最も古いファイルが特定のデータ区間でインポートされます。

 


 データをインポートしない   

データは一度だけインポートされます。2回目以降は、同じデータに対してルールが適用され、エクスポート済みとして取得されます。

 


インクリメンタル同期の仕組み

インポート設定を使用し、データ元からインクリメンタルデータをどのようにインポート・取得するかを設定できます。インクリメンタルデータインポートは、特定のデータ区間で新規または更新済みデータをインポートする方法です。

インクリメンタルファイル取得では、パイプラインの実行時に新規または更新済みファイルが取得されます。頻度データ区間の間、前回のデータ区間以降に作成または更新されたファイルがインポートされます。ローカルファイルパスに新規ファイルがない場合はデータはインポートされず、インポート設定に従い以前インポートしたデータが再取得されます。次回のデータ区間では、その区間内で作成または更新されたファイルが取得され、この処理が繰り返されます。

 

 


スケジュール実行時のインクリメンタル取得 

インクリメンタルファイル取得では、パイプラインがスケジュールされている場合、最初のスケジュールのデータ区間は前回から現在のデータ区間までとなります。この区間内で、すべての新規または更新済みファイルが取得されます。2回目のスケジュールでは現在の区間から次の区間へと延長され、以降も同様のパターンで処理されます。
 
例として、スケジュールが1時間間隔に設定されています。データ元には合計10ファイルがあり、そのうち5ファイルが1時間前にアップロードされ、ファイルパターンと照合しています。インポートする設定はすべてのファイルを増分でインポートするように設定されており、バッチサイズは10に設定されています。

 

 


最初のスケジュールが実行されると、直近1時間で作成または更新された5ファイルが取得され、1つのファイルとしてエクスポートされます。
 
2回目のスケジュールで、同じファイルパターンの新規ファイルが4つデータ元に追加された場合、作成/更新時間に基づき、その時間帯にデータ元で該当する4ファイルのみが取得され、1つのファイルとしてエクスポートされます。
 
3回目のスケジュールで、ファイルパターンと照合する新規ファイルが13個データ元に追加された場合、バッチサイズが10に設定されているため、作成/更新時間に基づき最初の10ファイルのみが取得され、1つのファイルとしてエクスポートされます。同様のロジックが今後のスケジュールでの増分取得時にも適用されます。

こちらをクリックしてスケジュール実行についてご確認ください。

バックフィル実行時の増分取得

 
増分ファイル取得において、パイプラインに対してバックフィル実行が設定されている場合、指定したデータ間隔内のすべての増分ファイルが取得されます。



例えば、バックフィルが8月1日から3日まで毎日ジョブで設定されているとします。8月1日は4ファイル、8月2日は7ファイル、8月3日は13ファイルとなっています。インポート設定はすべてのファイルを増分で取得、バッチサイズは10です。

最初のバックフィルジョブでは、8月1日に作成または更新済みの4つのファイルが取得され、1つのファイルとしてエクスポートされます。2回目のバックフィルジョブでは、8月2日の7つのファイルが同様に処理され、エクスポートされます。3回目のバックフィルジョブでは、8月3日の最初の10ファイルが取得され、1つのファイルとしてエクスポートされます。

こちらをクリックしてバックフィル実行についてご確認ください。
 

更新データのインクリメンタル取得

インクリメンタルファイル取得では、パイプラインに更新処理が設定されている場合、指定したデータ期間内のすべての新規または更新済みファイルが取得されます。


 
たとえば、更新処理が8月1日から2日までに設定されています。
8月1日には3つのファイル、8月2日には4つのファイルがあります。インポート設定はすべてのファイルをインクリメンタルに取得し、バッチサイズは最も古い更新済み時刻に基づき5に設定されています。
更新処理のジョブでは、8月1日に作成された3つのファイルと8月2日に作成された最初の2つのファイルが取得され、1つのファイルとしてエクスポートされます。

こちらをクリックして更新処理についてご確認ください。

関連情報

ローカルファイルからデータをインクリメンタルにインポートする方法

FTPサーバーへデータをエクスポートする方法