Dropboxからの増分データのインポート

Dropboxからの増分データのインポート

お知らせ:当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。


インクリメンタルデータ取得は、前回の同期以降にデータ元に追加された新規ファイルのみをインポートする手法です。Zoho DataPrep では、詳細選択機能を利用して Dropbox からインクリメンタルデータをインポートできます。

 

インクリメンタルデータをインポートする方法 

 

1. 左側のペインからCloud storageカテゴリを選択し、Dropboxをクリックします。また、 検索ボックスでDropboxを検索することもできます。

 

Notesメモ: 以前にDropbox接続を追加済みの場合は、左側のペインから保存済み外部連携カテゴリーをクリックし、インポートを続行してください。保存済み外部連携の詳細については、こちらをご覧ください。

 

2. 接続を追加済みの場合は、既存の接続をクリックしてデータのインポートを開始してください。

 

 

メモ: 新しく追加するリンクをクリックすると、新しいDropboxアカウントを追加できます。必要に応じて複数のDropbox外部連携を作成可能です。

 

3. Dropboxアカウントを認証してください。初めて操作する場合は、ファイルへのアクセスのためにDataPrepの認証が必要です。

Notesメモ: 接続設定は、今後データをDropboxからインポートする際に保存されます。認証情報は安全に暗号化され、保存されます。

4. データを段階的にインポートするには、詳細選択リンクをクリックします。

詳細選択は、正規表現に基づいて動的にファイルを選択できる機能です。Dropboxから新規または増分データを取得する際に利用できます。前回の同期後に追加または更新されたファイルで、ファイルパターンに一致するものがDropboxアカウントから取得されます。


詳細設定項目は以下の通りです:

  • フォルダーの選択: インポートしたいデータが保存されているフォルダーを選択します。

  • フォルダー パス: ファイルを検索したいフォルダーのパスを指定します。例:incr/
    ファイルがドライブのルート(フォルダーなし)に保存されている場合、この項目は空欄にできます。

情報:フォルダーパスは大文字と小文字を区別します。

  • サブフォルダーを含める : ファイルを検索する際にサブフォルダーも対象にしたい場合は、サブフォルダーを含める チェックボックスを選択してください。

  • ファイルパターン : Webサイト内のファイル名を照合する際に使用するパターンです。正規表現(regex)タイプのマッチングに対応しています。指定したパス内のすべてのファイルにマッチさせたい場合は、' .* ' パターンも使用できます。

    Info
    情報: ファイルパターンは大文字・小文字を区別します。
Notes

メモ:ファイルパターン照合はシンプルな正規表現タイプの照合です。例えば、以下のようなファイル名を取得したい場合Sales_2022。csv , Sales_2023。csv , Sales_2024。csv の場合、パターンSales_.* を入力できます。


同様に、PublicData1。csv , PublicData2。csv , PublicData3。csv のようなファイルを取得する場合は、公開する.*


1つのファイルのみをインポートする場合は、正確なファイル名でパターンを指定してください。
例:leads_jan_2022.*


  • ファイルを解析する形式: ファイルを解析するために必須の拡張子を選択してください。ファイル形式が一般的に使用されているものと異なる場合、このオプションを利用して、データを読み取り可能な形式にインポートする前に、CSV、TSV、JSON、XML、TXTのいずれかの形式に変換できます。

  • 更新日時に基づいて新規ファイルを取得: このチェックボックスを使用することで、各スケジュールインポート更新(データ元からデータを更新)時に、更新日時に基づいて新規ファイルのみを段階的に取得できます。DataPrepは、前回インポートされたファイルの更新日時以降に更新された、ファイルパターンと一致するファイルを取得します。 
    Notesメモ: インクリメンタルインポートの際、データ元に新規ファイルがない場合:

    チェックボックスがオフの場合:最後に取得されたファイルが再度インポートされます。
    チェックボックスがオンの場合:更新やスケジュールはスキップされ、ファイルはインポートされません。


  • ファイルをマージしてインポートする- 指定したパターンに一致するファイルすべてをマージし、1つのデータセットとしてインポートします。

    Info
    情報:このオプションで一度にマージできるファイルは最大5件までです。
    Notesメモ: このチェックボックスがオフの場合、一度に取得できるファイルは1件のみです。

    例:Dropboxアカウントにファイルが10件ある場合、最初の5件が1つのデータセットとしてマージされてインポートされます。次回の更新時に残りの5件がマージされてインポートされます。

    同様に、Dropboxアカウントにファイルが8件ある場合、最初の5件がマージされて先に取得され、その後に残りの3件が続けて取得されます。

必須詳細を入力し、インポートするボタンをクリックします。

Notesメモ: クラウドストレージからの増分取得に対応しているファイル形式はCSV、TSV、JSON、XML、TXTのみです。

5. データのインポートが完了すると、データセットが開き、すぐにデータの準備を開始できます。

 

6. データセットの準備ができたら、エクスポートする前に必須の宛先を指定し、次回の更新に備えてください。

 

Notesメモ: ワークスペース内のデータセットについては、Schedule インポートする オプションを利用するか、インポートする メニュー(DataPrep Studioページの上部バー)からインポートをスケジュールできます。こちらをクリックして詳細をご確認ください。

データセットのスケジュールはパイプラインの複雑さに応じて設定してください。インポート、データ処理、エクスポートに十分な時間を確保しましょう。

インクリメンタル同期の仕組み           

 

7. データセットのインポートがスケジュールされると、インポートされた時間または最終スケジュール時刻が記録されます。初回は最も古いファイルのみが取得されます。その後、同期が成功するたびに、最後の同期日時が新しい値で更新され、同期時刻以降に作成または更新されたファイルがインポートされます。Dropboxに新規または更新されたファイルがない場合は、データはインポートされません。データが同期されなかった場合でも、同期を試みたため同期時刻は更新されます。次回は、この同期時刻以降に作成または更新されたファイルが取得されます。

 

Notesメモ: 必ずエクスポートするのスケジュール設定を行ってください。設定しない場合、データは継続的にインポートされますが、エクスポートするを行わなければデータが失われます。

Dropboxから取得済みのデータ数を認証することができます。Operations 履歴パネルはSync ステータスページで確認できます。


 

各syncステータスの横にあるOperations 履歴アイコンをクリックすると、データセットへの変更履歴や、以前の状態、インポートする・エクスポートするのスケジュールをタイムラインで表示・追跡できます。


 

できることは、「Processing 履歴」パネルで頻度同期のための処理済みデータを認証することです。Processing 履歴パネルで行えます。Processing 履歴 」オプションをクリックすると、サイドパネルが開き、データセットで利用可能なすべての処理済みデータIDと作成日時が一覧表示されます。

 


 また、処理済みデータをダウンロードおよび認証することも可能です。データ上でホバーした際に表示されるアイコンをクリックしてください。

 

 

 Manual 更新する 

8. 最後の同期日時の後にある次のファイルを手動で取得するには、データ元からデータを更新するオプションを使用できます。

DataPrep studioページから、上部のインポートするメニューを選択し、更新する data 差出人 データ元をクリックします。このオプションを利用すると、データ データ元からデータを再読み込みすることで、最新のファイルにデータセットを更新できます。



手動で更新する場合、最後の同期日時以降に追加または更新されたファイルのみがデータセットにインポートされます。

   

Notesメモ: すべての新規追加または更新済みファイルは、Greenwich MeanTime (GMT) / UTCを基準にインクリメンタル取得されます。

 ケース1: 中間のファイルをスキップしたい場合 

 

  例えば、Dropbox内のフォルダーに合計10ファイルあるとします。ユーザーは3から5のファイルをスキップしたいと考えています。インクリメンタル取得中に特定のファイルをスキップする手順は以下の通りです。



インクリメンタル取得中に中間のファイルをスキップする手順は以下の通りです。

 

1) 一般的なファイルパターンを使用してファイルをインポートする(例:営業.*)




2) 最初は、最も古いファイルのみが取得済みとなります。例:Sales1.csv

定期的な同期が正常に完了すると、最後の同期日時が新しい値に更新され、同期時間以降に作成または更新されたファイルがインポートされます。


3) データのインポート後、エクスポートする nowオプションをエクスポートするメニューからDataPrep Studioページでクリックし、必要な保存先にエクスポートしてください。リロード前にエクスポートしないと、データが失われる可能性があります。



4) DataPrep studioページの上部バーにあるインポートするメニューから更新する data 差出人 データ元を選択してください。 

 


5)次のファイル、つまり Sales2.csv は段階的に取得されます。再度、エクスポートを必須の保存先に行い、リロード前に完了させてください。そうしないとデータが失われます。


6)右上のルールセットアイコンをクリックして、DataPrep StudioページでRulesetペインを表示します。



7)Rulesetペインで、データ元構成アイコンをクリックして、Data データ元 詳細ページを開きます。

 

 


8)Data データ元 詳細ページで、インポートしたいファイルパターンを差出人の欄に入力します。File pattern項目です。「更新する」をクリックしてください。例として、Sales6.*



9) DataPrep studioページに移動し、上部のインポートするメニューからデータ元からデータを更新するをクリックしてください。

Sales3、Sales4、Sales5ファイルはスキップ済みとなり、Sales6ファイルは取得済みとなります。更新済みの時間も記録されます。

このファイルを必須の保存先にエクスポートしてください。




7) 再度、dataデータ元詳細ページに移動し、ファイルパターンを汎用的な形式に変更します。例:営業.* 



8) データのインポートおよびエクスポートをスケジュールして、パイプラインを設定します。

9) インポートをスケジュールするには、

a. Schedule インポートする」リンクをクリックします。

b. Schedule config」セクションで、繰り返し方法(頻度「N」時間ごと、毎日、週1回、毎月1回)を選択します。繰り返しの時間(頻度の設定)を Perform 頻度オプション。

データのエクスポート用のタイムゾーンを選択します。初期設定では、ご利用中のローカルタイムゾーンが選択されています。

c. データ元データに新しく見つかった新規カラムをインポートする場合は、チェックボックスを選択してください。

d. 保存をクリックして、データセットのインポートをスケジュールします。



10) インポートのスケジュール後、エクスポート先のスケジュールを設定してください。設定しない場合、インポート処理は継続して完了しますが、エクスポートされないためデータが失われます。

11) スケジューリング後、同一パターンの新規ファイルは、最終同期時間を基準に増分で取得されます。例えば、Sales7、Sales8などが増分でインポートされ、通常の間隔でエクスポートされます。

 

 

 ケース2:ファイルを途中からインポートしたい場合 

例えば、Dropbox のフォルダに合計10件のファイルがあるとします。ユーザーは6件目のファイルからインポートを開始したい場合、増分取得中に特定のファイルからインポートを開始する手順は以下の通りです。

 

増分取得時に途中からファイルをインポートする場合は、以下の手順に従ってください。

 

1)特定のファイルパターンを使用してファイルをインポートする。
例えば、Sales6.*


 

2. 最初は、特定のファイルのみが取得済みとなります。つまり、 Sales6




定期的な同期が正常に行われると、最後の同期日時が新しい値に更新され、その同期時間以降に作成または更新されたファイルがインポートされます。

3. データをインポートした後、エクスポートする nowオプションをエクスポートするメニューからクリックし、DataPrep Studioページで必要な宛先にエクスポートしてください。再読み込みの前にエクスポートしないと、データが失われます。



4. 右上のルールセットアイコンをクリックし、DataPrep StudioページでRulesetペインを表示します。




5. Ruleset ペインで、データ元設定アイコンをクリックします をクリックし、Data データ元詳細ページを開きます。


6. データ元詳細ページで、次にインポートしたい汎用ファイルパターン差出人をFile pattern項目に入力します。「更新する」をクリックします。例えば、営業.*




7. データのインポートおよびエクスポートをスケジュールし、パイプラインを設定します。

インポートをスケジュールするには、

a) Schedule インポートする」リンクをクリックします。

b) Schedule config セクションで、繰り返し方法(「N」時間ごと、毎日、週1回、月1回)を選択します。繰り返しの時間(すなわち頻度)を Perform 頻度オプションで設定します。

データのエクスポート用にタイムゾーンを選択します。初期設定ではローカルタイムゾーンが選択されています。

c) データ元データで新しく見つかった列もインポートしたい場合は、チェックボックスを選択します。

d) 「保存」をクリックして、データセットのインポートスケジュールを設定します。



8. インポートするのスケジューリング後、エクスポートするのスケジュールを設定し、データセットの保存先を指定します。未設定の場合、インポートするは継続して完了しますが、エクスポートするが行われないとデータは失われます。

9. スケジューリング後は、同じパターンの新規ファイルが、最後に同期した時間を基準に増分で取得済みとなります。例えば、Sales7、Sales8 など、新規ファイルはすべて増分でインポートされ、通常の間隔でエクスポート済みとなります。

 

Notesメモ: データを修正した場合、保存先で複製するデータが発生する可能性があります。そのため、データの修正は推奨していません。

 

関連情報

Zoho DataPrepで利用可能な他のクラウドストレージ設定は?

新規データセットを追加する方法

インポートするのスケジューリング方法     

保存済みデータ外部連携からデータをインポートする方法

H

Dropboxへデータのエクスポート方法