Amazon S3からの増分データのインポート

Amazon S3からの増分データのインポート

お知らせ:当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。




インクリメンタルデータフェッチは、新しいファイルをデータ元から前回の同期以降にインポートする方法です。Zoho DataPrepでは、詳細選択機能を利用してAmazon S3からインクリメンタルデータをインポートできます。

 インクリメンタルデータをインポートする方法

1. 左側のペインでCloud storageカテゴリーを選択し、Amazon S3を選びます。また、検索ボックスでAmazon S3を検索することも可能です。

 

Notesメモ: すでにAmazon S3連携を作成している場合は、左側のペインで「Saved 外部連携」カテゴリーをクリックし、インポートを続行してください。Saved 外部連携について詳しくは、こちらをクリックしてください。




2. 保存済みの外部連携口座を選択してください(すでに作成済みの場合)、または新しく追加するオプションを使用して新しい勘定を追加します。
  

 

4. Connection 名前、Access キー、およびシークレット キーの各項目に必要な詳細を入力してください。

 

5. Authenticate Amazon S3ボタンをクリックして、認証情報を使いアカウントを認証します。初めてデータをインポートする際は、S3の認証が必要です。



Notesメモ: 接続設定は今後Amazon S3のデータへアクセスするために保存されます。認証情報は安全に暗号化されて保存されます。

 

6. 詳細選択リンクをクリックします。


詳細選択では、正規表現を利用した動的なファイル選択が可能です。新規データや増分データをAmazon S3バケットから取得する際に使用します。ファイルパターンに一致する新規または更新済みのファイルは、前回の同期以降にS3バケットから取得されます。

 

詳細の必須項目は以下のとおりです:

  • Bucket 名前 : データをインポートしたいバケット名を指定します。

  • Folder path : ファイルを検索したいフォルダパスを入力します。例:2023/
    バケット内にフォルダがなく、ファイルが直接格納されている場合は、この項目を空欄のままにできます。
    Info情報: フォルダパスは大文字と小文字が区別されます。

  • File pattern : バケット内のファイル名と照合するために使用するパターンです。正規表現によるマッチングをサポートしています。また、任意のファイルと照合する場合は「.*」と指定できます。

Info情報: ファイルパターンは大文字と小文字を区別します。
Notes
メモ: ファイルパターン「照合する」はシンプルなregex種類「照合する」です。例えば、Sales_2022。csv、Sales_2023。csv、Sales_2024。csvのようなファイル名を取得する場合、パターンSales_.*を入力できます。

同様に、PublicData1。csv、PublicData2。csv、PublicData3。csvなどのファイルを取得したい場合は、公開する.*を使用してください。

単一ファイルをインポートする場合は、パターンとして正確なファイル名を指定します。
例: leads_jan_2022.*
  • サブフォルダーを含める : ファイル検索時にサブフォルダーも含めたい場合は、サブフォルダーを含めるチェックボックスを選択できます。

  • ファイルの解析形式 : ファイルの解析に必要な拡張子を選択してください。ファイル形式が一般的に使用されているものと異なる場合、このオプションを利用して、データを読み取り可能な形式へインポートする前に、CSV、TSV、JSON、XML、TXTのいずれかの形式に解析できます。

  • 更新済み時間を基準に新規ファイルを取得: このチェックボックスを使用すると、更新済み時間を基準に新規ファイルを段階的に取得できます。各スケジュールインポートまたは更新(データ元からデータを更新)時に利用できます。DataPrep は、ファイルパターンに一致し、前回インポートしたファイルの更新済み時間以降に更新されたファイルを取得します。
    Notesメモ: 増分インポート時にデータ元に新規ファイルがない場合:

    チェックボックスがオフの場合:最後に取得したファイルが再度インポートされます。
    チェックボックスがオンの場合:更新またはスケジュールはスキップされ、ファイルはインポートされません。

  • ファイルをマージしてインポートする - 指定したパターンに一致するすべてのファイルをマージし、1つのデータセットとしてインポートします。

    Info情報: このオプションでは、一度に最大5ファイルまでしかマージできません。
    Notesメモ: このチェックボックスがオフの場合、一度に取得されるファイルは1つのみです。

    例. S3アカウントにファイルが10個ある場合、最初の5つが1つのデータセットにマージされてインポートされます。次回の更新時に、残りの5つがマージされてインポートされます。

    同様に、S3アカウントにファイルが8個ある場合、最初の5つが先にマージ・取得され、その後残りの3つが取得されます。 


必須項目を入力し、 インポートする ボタンをクリックします。



Notesメモ:インクリメンタル取得で利用できるクラウドストレージのファイル形式は、CSV、TSV、JSON、XML、TXTのみサポートしています。

 

7. データのインポートが完了したら、データセットが開き、すぐにデータの準備を開始できます。

 

8. データセットの準備ができたら、必須の宛先へエクスポートし、次回の更新前に完了させてください。

 

Notes

メモ: 「Schedule インポートする」オプションを利用して、ワークスペース内のデータセットやDataPrep Studioページ上部の「インポートする」メニューから、インポートをスケジュール設定できます。 こちらをクリック して詳細をご確認ください。


パイプラインの複雑さに応じてデータセットのスケジュールを設定してください。インポート、データ処理、エクスポートに十分な時間を確保しましょう。

 

 インクリメンタル同期の仕組み 

 

9. データセットがインポート用にスケジュールされると、インポート時刻または最終スケジュール時刻が記録されます。初回は最も古いファイルのみが取得されます。以降、同期が正常に行われるたびに、最後の同期日時が新しい値に更新され、その同期時刻以降に作成または更新されたファイルがインポートされます。S3内に新規または更新済みファイルがない場合、データはインポートされません。データが同期されなかった場合も、試行が行われたため同期時刻は更新されます。次回以降は、この同期時刻以降に作成または更新されたファイルが取得されます。

 

Notesメモ: 必ず エクスポートするのスケジュール設定 をデータセットの送信先に対して行ってください。設定しない場合、データは継続的にインポートされますが、エクスポートするを行わないとデータが失われます。

S3から取得済みデータの番号を認証することができます。Operations 履歴パネルは Sync ステータスページでご確認いただけます。

 

各sync ステータスの横にあるOperations 履歴アイコンをクリックすると、データセットやその前の都道府県、インポートするおよびエクスポートするスケジュールに対して実施された変更内容をタイムラインで表示・追跡できます。 

 

できることは、頻度同期の処理済みデータを認証することも可能です。詳細はProcessing 履歴パネルをご覧ください。Processing 履歴」オプションをクリックすると、サイドパネルが開き、データセットで利用可能なすべての処理済みデータIDと作成日時が一覧表示されます。



 また、処理済みデータをダウンロードおよび認証することもできます。データ上にカーソルを合わせた際に表示されるアイコンをクリックしてください。

 


 手動での更新 

10. 最終同期日時の後に次のファイルを手動で取得したい場合は、データ元からのデータ更新オプションをご利用ください。

DataPrep studio ページから、上部の棒グラフにあるインポートするメニューを選択し、更新する data 差出人 データ元をクリックします。このオプションを利用すると、データ元からデータを再読み込みして、最新のファイルでデータセットを更新できます。



手動で更新する場合、最後の同期日時以降に新しく追加または更新されたファイルのみがデータセットにインポートされます。

   

Notesメモ: 新しく追加または更新されたファイルはすべて、グリニッジ標準時(GMT)/ UTCを基準に段階的に取得されます。

 ケース 1: 中間のファイルをスキップしたい場合:

例えば、Amazon S3 のバケットに合計 10 件のファイルがある場合、ユーザーが 3 から 5 番目のファイルをスキップしたいとします。増分取得時に特定のファイルをスキップする手順は以下の通りです。




以下の手順に従い、増分取得時に中間のファイルをスキップしてください。

 

1) 一般的なファイルパターンを使用してインポートするファイルを指定します。 例:見込み客.*




2) 最初は、最も古いファイルのみが取得済みとなります。例:leads1_2024-01-29_13-02-04.csv

同期が正常に完了すると、最後の同期日時が新しい値に更新され、同期時間以降に作成または更新されたファイルがインポートされます。



3) データをインポートした後、 エクスポートする now オプションを エクスポートする メニューから選択し、 DataPrep Studio ページ上でエクスポートします。必要な保存先にエクスポートしてから再読み込みを行ってください。そうしないと、データが失われる可能性があります。



4) DataPrep studio ページで、上部の棒グラフにあるインポートするメニューを選択し、 データ元からデータを更新するをクリックします。 





5)次のファイル、すなわち leads2_2024-01-29_13-10-20.csv は、インクリメンタルに取得されます。再度、 リロードの前に必須の保存先へエクスポートしてください。そうしないとデータが失われます。



6) 画面右上の   ルールセットアイコンをクリックし、DataPrep Studio ページで Ruleset パネルを表示します。



7)Ruleset パネルで、データ元設定アイコン  をクリックし、Data データ元詳細ページを開きます。



8) data データ元 詳細ページで、インポートしたい特定のファイルパターン差出人を File pattern項目に入力します。  更新する」をクリックします。  leads6_2024-02-21_12-32-51。csv.*



9) 移動先 DataPrep studioページで、上部の棒グラフにある インポートする メニューを選択し、「 更新する data 差出人 データ元」をクリックします。

leads3、leads4、leads5 のファイルはスキップ済み、leads6 のファイルは取得済みとなり、更新済み時間が記録されます。

このファイルを必須の宛先へエクスポートします。




10) 再度、data データ元 詳細ページへ移動し、ファイルパターンを汎用的な形式に変更します。例:見込み客.*



11) データのインポートおよびエクスポートをスケジュールし、パイプラインを設定します。

12) インポートをスケジュールするには、

a. Schedule インポートする リンク.

b.  スケジュール設定 セクションで、 繰り返し 方法(頻度「N」時間、頻度 day、週に1回、月に1回)を選択します。繰り返しの 時間(つまり、頻度)を実行頻度オプションで設定してください。

エクスポートするデータのタイムゾーンを選択します。初期設定では、ローカルタイムゾーンが選択されています。

c. データ元データで新たに見つかった新規カラムをインポートしたい場合は、チェックボックスを選択してください。

d. 保存 をクリックして、データセットのインポートをスケジュールします。




13) インポートをスケジューリングした後、エクスポートもスケジュール してください。そうしない場合、インポートは継続的に完了しますが、エクスポートされないためデータは失われます。

14) スケジューリング後、同じパターンの新規ファイルは、最終同期時刻を基準に段階的に取得されます(例:leads7、leads8 など)。これらは段階的にインポートされ、通常の間隔でエクスポートされます。

 ケース2:ファイルを途中からインポートしたい場合: 

例えば、Amazon S3のバケットに合計10個のファイルがあります。ユーザーは、6番目のファイルからファイルをインポートしたいと考えています。増分取得の際に特定のファイルからインポートを開始する手順は以下の通りです。



増分取得時に途中のファイルからインポートするには、以下の手順に従ってください。

 

1) 特定のファイルパターンを使用してファイルをインポートします。 
 leads6_2024-02-21_12-32-51。csv.*


 

2. 最初は、特定のファイルのみが取得済みとなります。例: leads6_2024-02-21_12-32-51.csv




頻度ごとの同期が成功すると、最後の同期日時が新しい値に更新され、同期時間以降に作成または更新されたファイルがインポートされます。

3. データをインポートした後、エクスポートする nowオプションをエクスポートするメニューからDataPrep Studioページ上でクリックし、再読み込みする前に必須の保存先へエクスポートしてください。そうしないとデータが失われる可能性があります。



4. 右上のルールセットアイコンをDataPrep Studioページでクリックして、Rulesetペインを表示します。



5. Ruleset ペインで、data データ元の設定アイコンをクリックします  続いて、Data データ元 詳細ページを開きます。


6. データ元詳細ページで、次にインポートするファイルのパターンをFile pattern項目に入力します。その後、更新するをクリックしてください。例:見込み客.*




7. データのインポートおよびエクスポートをスケジュールして、パイプラインを設定します。

インポートをスケジュールするには、

a) Schedule インポートするリンクをクリックします。

b) Schedule configセクションで、繰り返し方法(頻度 N 時間、頻度 day、週1回、月1回)を選択します。Perform 頻度オプションを使い、繰り返しの時間(頻度)を設定してください。

データのエクスポート用にタイムゾーンを選択します。初期設定では、ローカルタイムゾーンが選択されています。

c) データ元データで新たに見つかったカラムをインポートしたい場合は、チェックボックスを選択してください。

d) 保存をクリックして、データセットのインポートスケジュールを保存します。



8. インポートするのスケジューリング後、 エクスポートするのスケジュール設定 を行い、データセットの出力先を設定してください。設定しない場合、インポートは継続的に完了しますが、エクスポートが行われないとデータが失われます。

9. スケジューリング後は、同じパターンの新規ファイルが前回同期した時間を基準に増分で取得されます。例:leads7、leads8 など。すべての新規ファイルは増分でインポートされ、通常の間隔でエクスポートされます。

 

Notes

メモ: データを修正した場合、出力先でデータが複製される可能性があります。そのため、データの修正は推奨していません。