Google ドライブからの増分データのインポート

Google ドライブからの増分データのインポート

お知らせ:当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。



インクリメンタルデータフェッチは、前回の同期以降にデータ元から新規ファイルをインポートする方法です。Zoho DataPrepでは、詳細選択機能を使用してGoogle Driveからインクリメンタルデータをインポートできます。

 

 インクリメンタルデータをインポートするには 

 

1. 左側のペインでCloud storageカテゴリーを選択し、Google Driveをクリックします。また、検索ボックスでGoogle Driveを検索することもできます。


 


Notes

メモ: 以前にGoogle Drive 連携を追加済みの場合は、 Saved 外部連携 カテゴリーを左側のペインからクリックし、インポートを続けてください。Saved 外部連携の詳細については、 こちらをクリックしてください。


2. 連携を追加済みの場合は、既存の連携をクリックしてデータのインポートを開始します。

 


Notes

メモ:  新しく追加する リンクをクリックして、新規Google Driveアカウントを追加してください。必要に応じて、Google Drive外部連携を複数作成できます。

 


3. Google Drive アカウントを認証します。初めて行う場合は、DataPrepへのファイルアクセス許可が必要です。



Notesメモ: 接続設定は、今後Google Driveからデータをインポートする際に保存されます。認証情報は安全に暗号化され、保存されます。

 

4. データを段階的にインポートするには、詳細選択リンクをクリックします。


詳細選択では、正規表現に基づき動的なファイル選択が可能です。これにより、Google Driveフォルダーから新規または段階的なデータを取得できます。前回の同期以降に追加または更新されたファイルで、指定したファイルパターンに一致するものがGoogle Driveフォルダーから取得されます。



詳細の必須項目は次の通りです:

  • フォルダーを選択: インポートしたいデータが含まれているフォルダーを選択します。

  • フォルダーパス: ファイルを検索したいフォルダーのパスを指定します。例: 2023/
    ファイルがフォルダーに入っておらずドライブ直下に保存されている場合は、この項目を空欄にできます。
    Info情報: フォルダーパスは大文字・小文字が区別されます。

  • 含める subfolders : ファイルを検索する際に subfolders も含めたい場合は、含める subfolders チェックボックスを選択できます。こちらをクリックすると、このオプションの制限事項について確認できます。

  • File pattern : フォルダ内のファイル名と照合する際に使用するパターンです。正規表現によるマッチングに対応しています。指定したパス内のすべてのファイルと照合する場合は、パターンとして '.*' を使用することも可能です。

    Info情報: File patternは大文字と小文字を区別します。

Notes

メモ: ファイルパターン「照合する」は、シンプルな正規表現種類の照合です。例えば、ファイル名がSales_2022。csv , Sales_2023。csv , Sales_2024。csv のようなファイルを取得するには、パターンとしてSales_.*を入力できます。


同様に、PublicData1。csv , PublicData2。csv , PublicData3。csv のようなファイルを取得したい場合は、公開する.*を使用します。


ひとつのファイルのみインポートする場合は、正確なファイル名でパターンを指定してください。
例: leads_jan_2022.*

  • ファイルをパースする形式: ファイルをパースする際に必要な拡張子を選択してください。ファイル形式が一般的によく使用されるものと一致しない場合は、このオプションを利用して、データを読み取り可能な形式へインポートする前に、CSV、TSV、JSON、XML、TXTのいずれかの形式に変換できます。

  • 更新済み時間に基づいて新規ファイルを取得 : このチェックボックスを使用すると、各 スケジュールインポート または 更新 (データ元からのデータを更新)時に、更新済み時間に基づいて新規ファイルを段階的に取得できます。DataPrepは、ファイルパターンに一致し、前回インポートしたファイルの更新済み時間以降に更新されたファイルを取得します。 
    Notesメモ: 増分インポート中にデータ元に新規ファイルがない場合:

    チェックボックスがオフの場合:最後に取得されたファイルが再度インポートされます。
    チェックボックスがオンの場合:更新やスケジュールはスキップされ、ファイルはインポートされません。

  • ファイルをマージしてインポートする - 指定したパターンに一致するすべてのファイルをマージし、1つのデータセットとしてインポートします。

    Info情報: このオプションでは、一度に最大5ファイルまでしかマージできません。
    Notesメモ: このチェックボックスがオフの場合、一度に1ファイルのみ取得されます。
    例: Google Drive アカウントにファイルが10個ある場合、最初の5つが1つのデータセットにマージされてインポートされます。次回の更新時に、残りの5つがマージされてインポートされます。

    同様に、Google Drive アカウントにファイルが8個ある場合、最初の5つがマージされて先に取得され、残りの3つが次に取得されます。 

 

必須詳細を入力し、 インポートする ボタンをクリックします。

Info

メモ:インクリメンタルフェッチでクラウドストレージから取得できるファイル形式は、CSV、TSV、JSON、XML、TXTのみサポートしています。

5. データのインポートが完了すると、データセットが開き、すぐにデータの準備を開始できます。

 

6. データセットの準備ができたら、次回の更新前に必須の宛先へエクスポートする必要があります。

 

Infoメモ: ワークスペース内のデータセットに対して、Schedule インポートするオプションを利用してインポートするスケジュールを設定するか、DataPrep Studioページ上部のインポートするメニューから実行できます。こちらをクリックして詳細をご覧ください。

 

パイプラインの複雑さに応じてデータセットのスケジュールを設定してください。インポート、データ処理、エクスポートに十分な時間を確保しましょう。 

増分同期の仕組み       

 

7. データセットがインポートするためにスケジュールされると、imported 時間またはlast scheduled 時間が記録されます。最初は最も古いファイルのみが取得済みとなります。その後、同期が成功するたびに最後の同期日時が新しい値で更新され、同期時間以降に作成または更新済みのファイルがインポートされます。Google Driveに新規または更新済みのファイルが存在しない場合、データはインポートされません。データが同期されなかった場合でも、試行が行われたため同期時間は更新されます。次回は、この同期時間以降に作成または更新済みのファイルが取得済みとなります。

 

Infoメモ: 必ず エクスポートするのスケジュールを設定 してください。そうしない場合、データは継続的にインポートされますが、エクスポートしなければデータを失うことになります。

 

Google Driveから取得したデータの件数を Operations 履歴 パネルの Sync ステータス ページで確認できます。


 

各syncステータスの横にあるOperations 履歴アイコンをクリックすると、データセットへの変更履歴や以前の状態、インポートおよびエクスポートのスケジュールをタイムラインで表示・追跡できます。 



 

できることは、 Processing 履歴 パネルで、頻度同期のために処理済みデータを認証することも可能です。  Processing 履歴 オプションをクリックすると、サイドパネルが開き、データセットで利用可能なすべての処理済みデータIDと作成日時が一覧表示されます。



 また、データにカーソルを合わせた際に表示される  アイコンをクリックすることで、処理済みデータのダウンロードや認証も可能です。

 

 

 Manual 更新する 

8. 最後の同期日時の後にある次のファイルを手動で取得するには、 更新する data 差出人 データ元 オプションを利用できます。

DataPrep studioページから、上部のインポートするメニューを選択し、更新する data 差出人 データ元をクリックします。このオプションを使用すると、データ元からデータを再読み込みして、最新のファイルでデータセットを更新できます。





手動で更新する場合、最後の同期日時以降に新しく追加または更新済みのファイルのみがデータセットにインポートされます。

   

Notes

メモ: 新しく追加または更新済みのファイルはすべて、グリニッジ標準時(GMT)/ UTCを基準に段階的に取得されます。

 制限事項

 
1) 含める subfolderオプションを利用すると、1つのサブフォルダーまたはMy drive全体や自分に共有フォルダー内のすべてのサブフォルダーからのみファイルを取得できます。特定のフォルダー内のすべてのサブフォルダーからファイルを取得することはできません。


 特定のサブフォルダーからファイルを取得する場合: フォルダーパスにサブフォルダーの正確なパスを入力してください。例:2024/jan/ . 必須項目を入力します。指定されたファイルパターンに一致するファイルが、指定したフォルダーから取得されます。

 

Google Drive のすべてのサブフォルダーからファイルを取得する場合:フォルダーパスは空欄のままにし、サブフォルダーを含める チェックボックスを選択します。必須項目を入力します。指定されたファイルパターンに一致するファイルが、My Drive または自分に共有フォルダー全体のすべてのサブフォルダーから取得されます。



 ケース1:途中のファイルをスキップしたい場合 

 

  例えば、Google Driveのフォルダーに合計10個のファイルがあるとします。ユーザーが、3番目から5番目のファイルをスキップしたい場合、増分取得時に特定のファイルをスキップする手順は以下の通りです。




増分取得中に中間のファイルをスキップするには、下記の手順に従ってください。

 

1)一般的なファイルパターンを使用してファイルをインポートします。例:見込み客.*



2)最初は最も古いファイルのみが取得されます。例:leads1_2024-01-29_13-02-04.csv

同期が正常に完了するたびに、最後の同期日時が新しい値で更新され、同期時刻以降に作成または更新されたファイルがインポートされます。


3) データのインポート後、 エクスポートする now オプションを エクスポートする メニューから選択し、 DataPrep Studio ページで実行してください。エクスポート先として必須の保存先を指定し、リロード前に必ずエクスポートしてください。そうしないと、データが失われる可能性があります。



4)  DataPrep studio ページで、 インポートする メニューを上部バーから選択し、 データ元からデータを更新するをクリックします。 




5) 次のファイル(例:leads2_2024-01-29_13-10-20.csv)は増分で取得されます。再度、 リロード前に必ずエクスポート先として必須の保存先にエクスポートしてください。エクスポートを行わない場合、データが失われてしまいます。


6) 右上の ruleset アイコンをクリックして、 DataPrep Studio ページでRulesetペインを表示します。




7) Rulesetペインで、data データ元の設定アイコン  をクリックして、Data データ元 詳細ページを開きます。



8) Data データ元 詳細ページで、次にインポートするファイルパターン差出人を File pattern 項目に入力します。「更新する」をクリックします。例:leads6_2024-02-21_12-32-51。csv.*



9) 移動先 DataPrep studio ページに移動し、 インポートする メニュー(画面上部の棒グラフ)を選択し、 更新する data 差出人 データ元をクリックします。

leads3、leads4、leads5 のファイルはスキップ済みとなり、leads6 は取得済みとなります。更新済み時間も記録されます。

このファイルを必須の保存先にエクスポートします。




10) 次に、再度 data データ元 詳細ページに移動し、ファイルパターンを汎用形式に変更します。例:見込み客.*



11) データのインポートおよびエクスポートをスケジューリングしてパイプラインを作成します。

12) インポートのスケジューリング方法:

a.  Schedule インポートする 」リンクをクリックします。

b.  Schedule config セクションで、 繰り返し 方法(頻度「N」時間、頻度日、週1回、月1回)を選択します。「Perform 頻度」オプションで繰り返しのタイミング(頻度)を設定します。

データのエクスポート用に タイムゾーン を選択します。初期設定では、ご利用中のローカルタイムゾーンが選択されています。

c. データ元データに新規カラムが見つかった場合、 インポートする 新規 columns found in the データ元 dataのチェックボックスを選択します。 

d.  保存 をクリックして、データセットのインポートをスケジューリングします。



13)インポートするのスケジューリング後、 エクスポートするのスケジュール をデータセットの保存先に設定してください。設定しない場合、インポートするは継続的に完了しますが、エクスポートするが行われない場合、データは失われます。

14)スケジューリング後は、同じパターンの新規ファイルが、最後に同期された時間を基準に増分で取得されます。例:leads7、leads8などが増分でインポートされ、通常の間隔でエクスポートされます。

 ケース2:ファイルを途中からインポートする場合: 

例えば、Google Drive内のフォルダに合計10個のファイルがあります。ユーザーは6番目のファイルからインポートを開始したいと考えています。増分取得中に特定のファイルからインポートを開始する手順は以下の通りです。

 

増分取得中に途中からファイルをインポートするには、以下の手順に従ってください。

 

1)特定のファイルパターンを使用してインポートするを実行します。 
 leads6_2024-02-21_12-32-51。csv.*

 

2. 最初は、特定のファイルのみが取得済みとなります。例:leads6_2024-02-21_12-32-51.csv。



頻度通りに同期が成功すると、最後の同期日時が新しい値に更新され、同期時刻以降に作成または更新されたファイルがインポートされます。

3. データのインポートが完了したら、 エクスポートする now オプションを エクスポートする メニューから DataPrep Studio ページでクリックし、必須の保存先へエクスポートしてください。再読み込みの前にエクスポートしないと、データが失われる可能性があります。



4. 画面右上の  ruleset アイコンをクリックして、 DataPrep Studio ページでRulesetペインを表示します。


5. Rulesetペイン内で、data データ元設定アイコン  をクリックし、Data データ元 詳細ページを開きます。


6. data データ元 詳細ページで、「File pattern」項目に、次回インポートしたい汎用ファイルパターン(例:見込み客.*)を入力し、更新するをクリックします。




7. データのインポートおよびエクスポートをスケジュールし、パイプラインを設定します。

インポートをスケジュールするには、

a) Schedule インポートするリンクをクリックします。

b) Schedule configセクションで、繰り返し方法(頻度 'N' 時間、頻度 day、週1回、月1回)を選択します。Perform 頻度オプションを使用して、繰り返し実行する時間(頻度)を設定します。

タイムゾーンを選択し、データのエクスポートを行います。初期設定ではローカルタイムゾーンが選択されています。

c) データ元に新しいカラムが見つかった場合にインポートしたい場合は、チェックボックスを選択します。

d) インポートをスケジュールするために保存をクリックします。



8. インポートするをスケジューリングした後、 エクスポートするもスケジューリング して、データセットの転送先を設定してください。エクスポートするを設定しない場合、インポートするは継続して完了しますが、エクスポートするがなければデータは失われます。

9. スケジューリング後は、同じパターンの新規ファイルが最後に同期された時間を基準にインクリメンタルに取得済みとなります。例:leads7、leads8 など。すべての新しいファイルはインクリメンタルにインポートされ、通常の間隔でエクスポート済みとなります。

Notesメモ: データを変更した場合、転送先に複製するデータが発生する可能性があります。そのため、データの変更は推奨していません。

 

関連情報

新規データセットを追加する方法

クラウドデータベースからデータをインポートする方法

保存済みデータ外部連携からデータをインポートする方法

インポートするのスケジューリング方法        

Zoho DataPrep で利用可能なその他のクラウドストレージ設定は?  

Google Drive からデータをインポートする方法


データをGoogle Driveへエクスポートする方法