ローカルファイルから増分データをインポートする

ローカルファイルから増分データをインポートする

お知らせ:当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。






インクリメンタルデータフェッチは、前回の同期以降にデータ元から新しいファイルをインポートするための手法です。Zoho DataPrep では、Zoho Databridge を利用してローカルファイルからインクリメンタルデータをインポートできます。

DataPrep では、CSV、TSV、JSON、XML、TXT など、さまざまなファイル形式をインクリメンタルにインポートできます。

 

Notes

メモ :

1. DataPrep では拡張子がないファイルやプレーンテキスト形式のファイルにも対応しています。ただし、バイナリファイルはインポート時にパースできませんので、上記の対応形式のいずれかへ手動で変換してください。

2. インポート時に対応するローカルファイルの最大サイズは100MBです。その他の詳細な技術的制限についてはこちらをご参照ください。


 インクリメンタルデータをインポートするには

1. workspaceを作成するか、既存のworkspaceを開きます。こちらをクリックして、workspaceの作成方法をご確認ください。

 

2. Filesオプションをデータ元から選択し、ローカルファイルをインポートします。左側のペインでFilesカテゴリーをクリックし、Filesオプションを選択することもできます。

 

3. ローカルファイルを段階的にインポートしたい場合は、ローカルネットワークからのインポートトグルを有効にします。

Info
情報: ローカルファイルをインポートするには、ご利用のマシンにZoho Databridgeがインストールされていることを確認してください。こちらをクリックして、Zoho Databridgeのダウンロードおよびインストール方法をご覧ください。


4. 有効なDatabridgeを選択し、以下の詳細を入力してください。

フォルダパス: ファイルを検索するフォルダのパスを指定します。例:D:\\DataPrep\\Datasets

Info
情報: フォルダパスは大文字と小文字が区別されます。

サブフォルダを含める: ファイル検索時にサブフォルダも対象としたい場合は、このチェックボックスを選択できます。

ファイルパターン: 指定した場所のファイル名を照合するために使用中のパターンです。正規表現によるマッチングもサポートしています。パターン「.*」を使用すると、指定したパス内のすべてのファイルに照合できます。

Info
情報: ファイルパターンは大文字と小文字が区別されます。
Notes

メモ:ファイルパターン「照合する」はシンプルなregex種類の照合です。例えば、Sales_2022.csv、Sales_2023.csv、Sales_2024.csvのようなファイル名を取得したい場合は、Sales_.* 

同様に、PublicData1.csv、PublicData2.csv、PublicData3.csvなどのファイルを取得したい場合は、公開する.*

単一ファイルをインポートする場合は、パターンを正確なファイル名で指定してください
例:leads_jan_2022.*

ファイルのパース方法: ファイルをパースするために必要な拡張子を選択してください。ファイル形式が一般的に使用されているものと異なる場合、このオプションを使用し、インポート前にファイルを下記のいずれかの形式に変換できます。利用可能な形式はCSV、TSV、JSON、XML、およびTXTです。

更新済み時間を基準に新規ファイルを取得: 各スケジュールインポートまたは更新 (データ元からのデータ更新時)に、新規ファイルを増分で取得したい場合は、このチェックボックスを選択してください。DataPrepは、前回インポートしたファイルの更新済み時間以降に更新されたファイルパターンに一致するファイルを取得します。

Notesメモ: 増分インポート中にデータ元に新規ファイルがない場合:

チェックボックスがオフの場合:最後に取得したファイルが再度インポートされます。
チェックボックスがオンの場合:更新またはスケジュールがスキップされ、ファイルはインポートされません。

ファイルをマージしてインポート- 指定したパターンに一致するすべてのファイルをマージし、1つのデータセットとしてインポートします。

Info
情報: このオプションで一度にマージできるファイルは最大5件までです。
Notesメモ: チェックボックスがオフの場合、一度に取得できるファイルは1件のみとなります。

例:ローカルパスに10ファイルある場合、最初の5件が1つのデータセットとしてマージ・インポートされます。次回の更新時に、残りの5件がマージされてインポートされます。

同様に、ローカルパスにファイルが8つある場合、最初の5つが先にマージおよび取得済みとなり、その後、次の3つが処理されます。

5. インポートするボタンをクリックします。データのインポートが完了すると、データセットが開き、すぐにデータの準備を開始できます。 

 

6. データセットの準備ができたら、次回の更新前に必須の保存先へエクスポートします。

 

Notesメモ:Schedule インポートする」オプションを利用して、ワークスペース内のデータセットのインポートをスケジュールできます。または、DataPrep Studioページ上部のインポートするメニューからも設定可能です。こちらをクリックして詳細をご覧ください。
 

パイプラインの複雑さに応じてデータセットのスケジュールを設定してください。インポート、データ処理、エクスポートのために十分な時間を確保しましょう。

 

 増分同期の仕組み 

7. データセットのインポートがスケジュールされると、インポート時刻または前回のスケジュール時刻が記録されます。最初は最も古いファイルのみが取得済みとなります。各同期が正常に完了するたびに、最後の同期日時が新しい値で更新され、その時刻以降に作成または更新されたファイルがインポートされます。指定した場所に新規または更新済みのファイルがない場合は、データはインポートされません。データが同期されなかった場合でも、同期が試行されたため同期時刻は更新されます。次回はこの同期時刻以降に作成または更新されたファイルが取得されます。

Notesメモ: データセットのエクスポート先をスケジュールしてください。スケジュールしない場合、データは継続的にインポートされますが、エクスポートする操作を行わなければデータが失われる可能性があります。

8. ファイルから取得済みデータの番号をOperations 履歴パネルでSync ステータスページで確認できます。

各syncステータスの横にあるOperations 履歴アイコンをクリックすると、データセットに対して行われた変更や、過去の都道府県、インポートする・エクスポートするスケジュールをタイムラインで表示・追跡できます。

また、頻度syncの処理済みデータをProcessing 履歴パネルで確認できます。 オンクリックでProcessing 履歴オプションを選択すると、サイドパネルが開き、データセットで利用可能なすべての処理済みデータIDと作成時間が一覧で表示されます。

できることは、アイコンをデータ上でホバーすると表示され、クリックすることで、処理済みデータのダウンロードや認証が可能です。


 

 Manual 更新する 

9. 最後の同期日時の後にある次のファイルを手動で取得するには、データ元からデータを更新するオプションを使用してください。

DataPrep studioページから、上部バーのインポートメニューを選択し、データ元からデータを更新するをクリックします。このオプションを利用すると、データ元からデータを再読み込みして、最新のファイルでデータセットを更新できます。

手動による更新時には、最後の同期日時の後に新規追加または更新されたファイルのみがデータセットにインポートされます。

   

メモ: 新規追加または更新されたすべてのファイルは、グリニッジ標準時(GMT)/ UTCを基準に段階的に取得されます。

 Case1: 中間のファイルをスキップしたい場合

例えば、ローカルパスにファイルが合計13個あり、ユーザーが3から5までのファイルをスキップしたい場合、増分取得時にこれら特定のファイルをスキップする手順は以下の通りです。

 




インクリメンタルフェッチ中に途中のファイルをスキップするには、以下の手順に従ってください。

 

1) 汎用的なファイルパターンを使用してファイルをインポートします。例:mkFile.*




2) 最初は最も古いファイルのみが取得済みとなります。例:mkFile1.csv

同期が成功すると、最後の同期日時が新しい値で更新され、同期時刻以降に作成・更新されたファイルがインポートされます。



 

3) データをインポートした後、エクスポートする nowオプションをエクスポートするメニューからDataPrep Studioページでクリックし、再読み込み前に必須の保存先へエクスポートしてください。これを行わないとデータが失われる可能性があります。



4) DataPrep studioページの上部バーにあるインポートするメニューを選択し、更新する data 差出人 データ元をクリックします。 




 

5) 次のファイル(mkFile2.csv)は増分で取得されます。再度、エクスポート先に必ずエクスポートしてから再読み込みしてください。そうしないとデータを失う可能性があります。

6) 右上のルールセットアイコンをクリックすると、DataPrep Studioページでルールセットペインが表示されます。

 



7) ルールセットペインで、データ元設定アイコンをクリックし、Data データ元詳細ページを開きます。


8) Data データ元詳細ページで、次にインポートしたい特定のファイルパターンをFile pattern項目に入力し、クリック

更新する。例:mkFile6.*



9) DataPrep studioページに移動し、上部のインポートするメニューを選択し、更新する data 差出人 データ元をクリックします。

ファイル mkFile3、mkFile4、mkFile5 はスキップ済みとなり、mkFile6 は取得済みとなります。更新済み時間が記録されます。

このファイルを必須の宛先へエクスポートします。




10) 次に、再度 data データ元 詳細ページに移動し、ファイルパターンを汎用的な形式に変更します。例:mkFile.*



11) データのインポートおよびエクスポートをスケジュールしてパイプラインを設定します。

12) インポートのスケジュール方法:

a. Schedule インポートするリンクをクリックします。

b. Schedule configセクションで、繰り返し方法(頻度 'N' 時間、頻度 day、週1回、月1回)を選択します。設定したい時間を選択します。

Perform 頻度オプションを使って繰り返し(つまり頻度)を設定します。

タイムゾーンを選択してデータをエクスポートします。初期設定では、ローカルタイムゾーンが選択されています。

c. データ元データで新規に見つかったカラムをインポートする場合は、チェックボックスを選択します。

d. 保存をクリックして、データセットのインポートスケジュールを設定します。


13)インポートのスケジューリング後、エクスポート先をスケジューリングしてください。行わない場合、インポートは継続的に完了しますが、

エクスポートされないとデータが失われます。

14)スケジューリング後は、同じパターンの新規ファイルが、最後に同期された時間を基に増分で取得されます。例えば、mkFile7、mkFile8などは増分でインポートされ、通常の間隔でエクスポートされます。

 

 

 ケース2:ファイルを途中からインポートしたい場合 

例えば、ローカルフォルダーに合計13個のファイルがあるとします。ユーザーは6番目からファイルをインポートしたいと考えています。以下はインポート開始手順です。
増分取得時に特定のファイルから開始できます。



 

増分取得時に途中からファイルをインポートするには、下記手順を実行してください。

 

1)特定のファイルパターンを使用してインポートします。
例:mkFile6.*

 

 


2.最初は、指定したファイルのみが取得されます。つまり、mkFile6.csvです。




頻度が正常に同期されると、最後の同期日時が新しい値に更新され、ファイルの作成/更新日時が同期時間の後にインポートされます。

3. データのインポート後、エクスポートする nowオプションをエクスポートするメニューからDataPrep Studioページでクリックし、リロードする前に必須の保存先へエクスポートしてください。リロード前にエクスポートしないとデータが失われる可能性があります。



4. 右上のルールセットアイコンをクリックし、DataPrep StudioページでRulesetペインを表示します。

 



5. Rulesetペインで、データ元設定アイコンをクリックし、Data データ元 詳細ページを開きます。


6. データ元詳細ページで、次回インクリメンタルにインポートしたいファイルの汎用パターンをFile pattern欄に入力します。

項目。更新するをクリックします。例: mkFile.*


6. データ データ元 詳細ページで、次回インクリメンタルにインポートしたい汎用ファイルパターン差出人をFile patternに入力します。

項目。更新するをクリックします。例: mkFile.*



7. データのインポートおよびエクスポートをスケジュールし、パイプラインを設定します。

インポートをスケジュールするには、

a)Schedule インポートするリンクをクリックします。

b)Schedule configセクションで、繰り返し方法(頻度「N」時間、頻度 day、週1回、月1回)を選択します。Perform 頻度オプションを使って、繰り返しのための時間(すなわち頻度)を設定します。

タイムゾーンを選択してデータをエクスポートします。初期設定では、ローカルタイムゾーンが選択されています。

c)データ元データに新しいカラムが見つかった場合にインポートしたい場合は、チェックボックスを選択します。

d)保存をクリックして、データセットのインポートをスケジュールします。



8. インポートするのスケジューリングが完了したら、エクスポートするのスケジュールも設定してください。設定しない場合、インポートするは継続的に完了しますが、エクスポートするが行われないとデータは失われます。

9. スケジューリング後は、同じパターンに一致する新規ファイルが、最終同期時刻を利用して段階的に取得されます。例:mkFile7、mkFile8など。すべての新規ファイルは段階的にインポートされ、一定の間隔でエクスポートされます。

 

Notesメモ:データを変更すると、宛先に複製するデータが発生する可能性があります。そのため、データの変更は推奨しません。

関連情報

ローカルファイルからデータをインポートする方法

FTP サーバーから段階的にデータをインポートする方法

ローカルファイルへのデータのエクスポート方法

スケジュールインポートするの詳細はこちら

スケジュールエクスポートするの詳細はこちら