OneDriveからの増分データのインポート

OneDriveからの増分データのインポート

お知らせ:当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。


インクリメンタルデータフェッチは、前回の同期以降にデータ元から新規ファイルをインポートする方法です。Zoho DataPrep では、詳細選択機能を利用して OneDrive からインクリメンタルデータをインポートできます。

 

 インクリメンタルデータをインポートする方法 

 

1. 左側のパネルからCloud storageカテゴリを選択し、OneDriveをクリックします。または、 検索ボックスでOneDriveを検索することもできます。

 

メモ: 以前にOneDrive連携を追加済みの場合は、左側のパネルからSaved 外部連携カテゴリをクリックし、インポートを続行してください。Saved 外部連携の詳細については、こちらをご覧ください。

 

2. 連携を追加済みの場合は、既存の連携をクリックして、データのインポートを開始します。

 

 

Notesメモ: 新しく追加するリンクをクリックして新規OneDriveアカウントを追加します。必要に応じて複数のOneDrive外部連携を作成できます。

 

3. OneDriveアカウントを認証します。初めて実行する際は、ファイルへアクセスするためにDataPrepを認証する必要があります。

 

Notes
メモ: 接続設定は今後OneDriveからデータをインポートする際に保存されます。認証情報は安全に暗号化され、保管されます。

 

4. インクリメンタルにデータをインポートするには、詳細選択リンクをクリックします。

詳細選択では、正規表現に基づいた動的なファイル選択が可能です。これにより、OneDrive アカウントから新規または増分データの取得が行えます。ファイルパターンに一致する新規追加または更新されたファイルは、前回の同期以降にOneDrive アカウントから取得されます。


詳細の必須項目は次の通りです:

  • 選択するフォルダー : データをインポートしたいフォルダーを選択します。

  • フォルダーパス : ファイルを検索したいフォルダーパスを指定します。例:Incremental_fetch/
    ファイルがドライブ直下に保存されている場合は、この項目を空欄にすることができます。
    Info情報:フォルダーパスは大文字・小文字を区別します。

  • サブフォルダーを含める : ファイル検索時にサブフォルダーも対象としたい場合は、サブフォルダーを含める のチェックボックスを選択できます。

  • ファイルパターン : ファイル名をアカウント内で照合するためのパターンです。正規表現タイプのマッチングに対応しています。また、任意のファイルを指定したパス内で照合する場合は '.*' パターンも利用できます。

    Info情報:ファイルパターンは大文字と小文字を区別します。


メモ:ファイルパターンの照合はシンプルな正規表現タイプのマッチングです。例えば、以下のようなファイル名を取得したい場合、 Sales_2022。csv , Sales_2023。csv , Sales_2024。csv のようなファイルを取得するには、Sales_.* と入力できます。


同様に、 PublicData1。csv , PublicData2。csv , PublicData3。csv のようなファイルを取得する場合は、公開する.*


単一のファイルをインポートしたい場合は、正確なファイル名をパターンとして指定してください。
例:leads_jan_2022.*

  • ファイルの解析形式 : ファイルを解析するために必要な拡張子を選択してください。ファイル形式が一般的に使用されているものと異なる場合は、このオプションを利用して、データを読み取り可能な形式にインポートする前に、CSV、TSV、JSON、XML、TXT のいずれかの形式にファイルを解析できます。

  • 更新済み時間を基準に新規ファイルを取得: このチェックボックスを使用することで、インクリメンタルに新規ファイルを取得できます(更新済み時間を基準)。各スケジュール済みインポートまたは更新 (データ元からデータを更新)時に利用可能です。DataPrepは、ファイルパターンに一致し、前回インポートしたファイルの更新済み時間以降に更新されたファイルを取得します。

    Notesメモ: インクリメンタルインポート時に、データ元に新規ファイルがない場合:

    チェックボックスがオフの場合:最後に取得したファイルが再度インポートされます。
    チェックボックスがオンの場合:更新またはスケジュールがスキップされ、ファイルはインポートされません。

  • ファイルをマージしてインポートする - 指定したパターンに一致するすべてのファイルをマージし、1つのデータセットとしてインポートします。

    Info情報:このオプションでは、一度に最大5ファイルまでしかマージできません。
    Notesメモ: このチェックボックスがオフの場合、一度に取得できるファイルは1つのみになります。

    例えば、OneDriveアカウントにファイルが10個ある場合、最初の5個が1つのデータセットにマージされてインポートされます。次回の更新時に、残りの5個がマージされてインポートされます。

    同様に、OneDriveアカウントに8個のファイルがある場合、最初の5個が最初にマージ・取得され、その後に残りの3個が取得されます。

必須の詳細を入力し、インポートするボタンをクリックします。

Info クラウドストレージからの増分取得では、CSV、TSV、JSON、XML、TXTファイル形式のみサポートしています。

5. データのインポートが完了すると、データセットが開き、すぐにデータの準備を開始できます。

 

6. データセットの準備ができたら、次回の更新前に必須の宛先にエクスポートしてください。

 

Notesメモ:「Schedule インポートする」オプションを利用すると、ワークスペース内のデータセットやDataPrep Studioページ上部のインポートするメニューから、インポートをスケジュールできます。こちらをクリックして詳細をご確認ください。

パイプラインの複雑さに応じてデータセットのスケジュールを設定してください。インポート、データ処理、エクスポートのために十分な時間を確保しましょう。

 
インクリメンタル同期の仕組み         

 

7. データセットのインポートがスケジュールされると、「imported 時間」または「last scheduled 時間」が記録されます。初回は最も古いファイルのみが取得されます。その後、同期が正常に完了するたびに「最後の同期日時」が新しい値で更新され、同期時間以降に作成または更新されたファイルがインポートされます。OneDriveに新規または更新済みファイルがない場合、データのインポートは行われません。データが同期されなかった場合でも、同期は試行されたため同期時間は更新されます。次回は、この同期時間以降に作成または更新されたファイルが取得されます。

 

Notesメモ:必ずエクスポートするスケジュールをデータセットの送信先に設定してください。設定しない場合、データは継続的にインポートされますが、エクスポートする操作を行わないとデータが失われます。
 

OneDriveから取得したデータの番号をOperations 履歴パネルやSync ステータスページで確認できます。

 

各syncステータスの横にあるOperations 履歴アイコンをクリックすると、データセット、以前の状態、インポート・エクスポートのスケジュールに対して実施された変更をタイムライン形式で表示・追跡できます。


 

できることは、Processing 履歴パネルで頻度同期のために処理済みデータを認証することです。Processing 履歴 」オプションをクリックすると、サイドパネルが開き、データセットで利用可能なすべての処理済みデータIDと作成日時が一覧表示されます。

 


 また、データ上にマウスを重ねた際に表示されるアイコンをクリックすることで、処理済みデータをダウンロードおよび認証することも可能です。

 

 

 手動更新 

8. 最終同期日時の後にある次のファイルを手動で取得するには、「データ元からデータを更新する」オプションを利用できます。


DataPrep studioページで、インポートするメニューを上部バーから選択し、更新するデータ元をクリックします。このオプションを使用すると、データ元からデータを再読み込みして、最新のファイルでデータセットを更新できます。



手動で更新する際は、最後の同期日時以降に追加または更新されたファイルのみがデータセットにインポートされます。

   


Notes

メモ: 新規追加や更新されたすべてのファイルは、グリニッジ標準時(GMT)/ UTCに基づいて段階的に取得されます。


 

 ケース1: 中間のファイルをスキップしたい場合 

 

たとえば、OneDrive内のフォルダーに合計10個のファイルがあるとします。ユーザーが3番目から5番目のファイルをスキップしたい場合、増分取得時に特定のファイルをスキップする手順は以下の通りです。



増分フェッチ中に途中のファイルをスキップするには、以下の手順に従ってください。

 

1) 一般的なファイルパターンを使用してファイルをインポートします。例:営業.*



2) 最初は、最も古いファイルのみが取得済みとなります。つまり、Sales1.csvです。

同期が正常に完了すると、最後の同期日時が新しい値に更新され、同期時間以降に作成または更新されたファイルがインポートされます。


3) データのインポート後、エクスポートする nowオプションをエクスポートするメニューからDataPrep Studioページでクリックし、必須の宛先にエクスポートしてください。リロード前にエクスポートしないと、データが失われる可能性があります。



4) DataPrep studioページで、上部のインポートするメニューを選択し、更新する data 差出人 データ元をクリックします。 

 


5)次のファイル(Sales2.csv)は、段階的に取得されます。再度、エクスポートする際は、必須の保存先に保存してから再読み込みを行ってください。そうしないと、データが失われます。


6)画面右上のルールセットアイコンをクリックして、DataPrep Studioページでルールセットペインを表示します。



7)ルールセットペインで、データ元設定アイコンをクリックしてData データ元 詳細ページを開きます。

 

 


8) data データ元 詳細ページで、インポートしたいファイルパターン差出人をFile pattern項目に入力します。「更新する」をクリックします。例:Sales6.*



9) DataPrep studioページに移動し、上部のインポートするメニューを選択し、更新する data 差出人 データ元をクリックします。

Sales3、Sales4、Sales5のファイルはスキップされ、Sales6のファイルのみが取得されます。更新済みの時間は記録されます。

このファイルを必須の宛先にエクスポートします。




7) 再度、data データ元 詳細ページに移動し、ファイルパターンをより汎用的な形式に変更します。例:営業.* 



8) パイプラインを設定するために、データのインポートおよびエクスポートをスケジュールします。

9) インポートのスケジュール設定方法:

a. インポートのスケジュール」リンクをクリックします。

b. スケジュール設定セクションで、繰り返し方法(頻度「N」時間ごと、毎日、週1回、毎月1回)を選択します。繰り返しの時間を選択し(つまり頻度を設定)、頻度を実行オプションで設定します。

データのエクスポート用にタイムゾーンを選択します。初期設定ではローカルのタイムゾーンが選択されています。

c. データ元データで見つかった新規カラムもインポートする場合は、チェックボックスを選択します。

d. データセットのインポートスケジュールを設定するには、保存をクリックします。



10) インポートのスケジュール設定後は、エクスポートのスケジュールもデータセットに対して設定してください。設定しない場合、インポートは継続的に実施されますが、エクスポートを設定しなければデータは失われます。

11) スケジュール設定後は、同じパターンの新しいファイルが、最後に同期された時間をもとに段階的に取得されます。たとえば、Sales7やSales8 などのファイルが順次インポートされ、通常間隔でエクスポートされます。

 


ケース2:ファイルを途中からインポートする場合

例えば、OneDrive内のフォルダーに合計10個のファイルがあります。ユーザーが6番目のファイルからインポートを開始したい場合、インクリメンタルフェッチ中に特定のファイルからインポートを開始する手順は以下の通りです。

 

インクリメンタルフェッチ中に途中からファイルをインポートするには、次の手順に従ってください。

 

1)特定のファイルパターンを使用してインポートします。
例:Sales6.*


 

2. 最初は、指定したファイルのみが取得されます。つまり、 Sales6

 





頻度の同期が正常に完了すると、最後の同期日時が新しい値に更新され、ファイルの作成/更新日時が同期時間の後にインポートされます。

3. データのインポート後、エクスポートする nowオプションをエクスポートするメニューからDataPrep Studioページでクリックし、エクスポートするデータを必須の保存先にエクスポートしてください。リロード前にエクスポートしないと、データが失われる可能性があります。



4. 右上のrulesetアイコンをクリックして、DataPrep StudioページでRulesetパネルを表示します。



5. Rulesetパネルで、データ元構成アイコンをクリックして、Data データ元詳細ページを開きます。


6. データ データ元 詳細ページで、次にインポートしたいファイルパターン差出人を、File pattern項目に入力します。更新するをクリックします。 例:営業.*

 




7. データのインポートおよびエクスポートをスケジュールして、パイプラインを設定します。

インポートのスケジュール方法:

a) Schedule インポートするリンクをクリックします。

b) Schedule configセクションで、繰り返し方法(頻度「N」時間、頻度 day、週1回、月1回)を選択します。Perform 頻度オプションで繰り返しの頻度(時間)を設定します。

データのエクスポートで使用するタイムゾーンを選択します。初期設定では、ローカルのタイムゾーンが選択されています。

c) データ元データで新しいカラムが検出された場合にインポートしたい場合は、チェックボックスを選択します。

d) 保存をクリックして、データセットのインポートをスケジュールします。



8. インポートするのスケジューリングが完了した後、エクスポートするのスケジュール先をデータセットに設定してください。設定しない場合、インポートするは継続的に完了しますが、エクスポートするが行われないとデータが失われます。

9. スケジューリングが完了すると、同じパターンの新規ファイルが最後に同期された時間を基準に増分で取得済みとなります。例として、Sales7、Sales8 などがあり、すべての新規ファイルは増分でインポートされ、通常の間隔でエクスポート済みとなります。

 

Notesメモ:データを修正すると、宛先に複製するデータが発生する可能性があります。したがって、データの修正は推奨しません。

関連情報

新規データセットを追加する方法

Zoho DataPrepで利用可能な他のクラウドストレージ設定は?

インポートするのスケジューリング方法     

保存済みデータ外部連携からデータをインポートする方法

OneDriveへデータのエクスポート方法