SharePointからのインクリメンタルデータのインポート [ベータ]

SharePointからのインクリメンタルデータのインポート [ベータ]

お知らせ:当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。




インクリメンタルデータフェッチは、前回の同期以降にデータ元に追加された新規ファイルをインポートする方法です。Zoho DataPrep では、詳細選択機能を利用して SharePoint からインクリメンタルデータをインポートできます。

 インクリメンタルデータをインポートする方法 

1. 左側のペインからCloud storageカテゴリを選択し、SharePointをクリックします。SharePointは検索ボックスで検索することもできます。



 
Notesメモ: 以前に SharePoint 接続を追加済みの場合は、左側のペインにあるSaved 外部連携カテゴリをクリックし、インポートを続行してください。Saved 外部連携の詳細については、こちらをご覧ください。
 

2. 接続を追加済みの場合は、既存の接続をクリックしてデータのインポートを開始します。

 

 

Notesメモ: 新しく追加するリンクをクリックして、新規SharePointアカウントを追加します。必要に応じて、複数のSharePoint外部連携を作成できます。 

3. SharePointアカウントを認証します。初めて行う場合は、ファイルへアクセスするためにDataPrepの認証が必要です。

 

Notesメモ: 接続設定は、今後SharePointからデータをインポートする際に保存されます。認証情報は安全に暗号化されて保存されます。


4. データを増分インポートするには、詳細選択リンクをクリックします。



詳細選択では、正規表現(regex)に基づき動的なファイル選択を行うことができます。これにより、SharePointサイトから新規または増分データの取得が可能です。新たに追加または更新され、ファイルパターンに一致するファイルは、前回の同期以降にSharePointサイトから取得されます。



詳細の必須項目は次の通りです:

  • サイトを選択: データをインポートしたいサイトを選択します。

  • ドライブを選択: サイト内でデータをインポートするドライブを選択します。

  • フォルダーパス: ファイルを検索したいフォルダーパスを指定します。例: 2023/

    ファイルがサイト内のどのフォルダーにも格納されていない場合は、この項目を空欄にできます。

Info情報:フォルダーパスは大文字と小文字が区別されます。
  • サブフォルダーを含める: ファイルを検索する際にサブフォルダーも含めたい場合は、サブフォルダーを含めるチェックボックスを選択できます。

  • ファイルパターン: サイト内のファイル名を照合する際に使用するパターンです。正規表現タイプのマッチングに対応しています。任意のファイルを照合したい場合は、' .* 'のパターンも利用できます。
    Info情報:ファイルパターンは大文字と小文字が区別されます。
メモ: ファイルパターン照合はシンプルな正規表現タイプの照合です。例えば、Sales_2022。csv、Sales_2023。csv、Sales_2024。csv のようなファイル名を取得したい場合は、パターンSales_.*を入力できます。

同様に、PublicData1。csv、PublicData2。csv、PublicData3。csvなどのファイルを取得したい場合は、公開する.*を使用してください。

単一ファイルをインポートしたい場合は、正確なファイル名でパターンを指定してください。
例: leads_jan_2022.*
  • ファイルの解析形式 : ファイルを解析するために必須の拡張子を選択してください。ファイル形式がよく使われるものと異なる場合は、このオプションを利用して、データを読み取り可能な形式へインポートする前に、次のいずれかの形式(CSV、TSV、JSON、XML、TXT)へ変換できます。

  • 更新日時に基づく新規ファイルの取得 : チェックボックスを使用すると、各スケジュールインポートデータの更新(データ元からの更新)時に、更新日時に基づいて新規ファイルを段階的に取得できます。DataPrepは、前回インポートされたファイルの更新日時以降に更新されたファイルパターンに一致するファイルを取得します。
    Notesメモ: 増分インポート時にデータ元に新規ファイルが存在しない場合:

    チェックボックスがオフの場合:最後に取得したファイルが再度インポートされます。
    チェックボックスがオンの場合:更新やスケジュールはスキップされ、ファイルのインポートは行われません。

  • ファイルを結合してインポートする- 指定されたパターンに一致するすべてのファイルを結合し、1つのデータセットとしてインポートします。
    Info情報:このオプションでは、一度に最大5ファイルまでしか結合できません。
    Notesメモ: このチェックボックスをオフにすると、一度に取得できるファイルは1つだけになります。

    例えば、SharePointアカウントに10ファイルある場合、最初の5つが1つのデータセットとして結合されてインポートされ、次回の更新時に残りの5つが結合されてインポートされます。

    同様に、SharePointアカウントに8ファイルある場合、最初の5つが先に結合・取得され、続いて残りの3つが取得されます。

必須項目を入力し、インポートするボタンをクリックします。
Infoメモ:サポートされているファイル形式はCSV、TSV、JSON、XML、TXTのみです。

5. データのインポートが完了すると、データセットが開き、すぐにデータの準備を開始できます。

 

6. データセットの準備ができたら、次回の更新前に必須の宛先へエクスポートしてください。

 

Notes

メモ:ワークスペース内のデータセットに対して、インポートするのスケジュールオプション、またはDataPrep Studioページ上部のインポートするメニューから、インポートのスケジュールを設定できます。こちらをクリックして詳細をご覧ください。


パイプラインの複雑さに応じてデータセットのスケジュールを設定してください。インポート、データ処理、およびエクスポートに十分な時間を確保しましょう。 

インクリメンタル同期の仕組み 

7. データセットがインポートするためにスケジュールされると、インポートした時間または最後にスケジュールされた時間が記録されます。最初は、最も古いファイルのみが取得されます。以降、同期が成功するたびに、最後の同期日時が新しい値で更新され、同期時間以降に作成または更新されたファイルがインポートされます。SharePointに新規または更新ファイルがない場合は、データはインポートされません。データが同期されなかった場合でも、試行されたため同期時間は更新されます。次回は、この同期時間以降に作成または更新されたファイルが取得されます。

 

Notesメモ:データセットのエクスポート先も必ずスケジュールしてください。設定しない場合、データは継続的にインポートされますが、エクスポートされなければデータを失う可能性があります。

SharePoint の差出人から取得済みデータの番号は、Operations 履歴パネルや Sync ステータスページで確認できます。

 

各 sync ステータスの横にあるOperations 履歴アイコンをクリックすると、データセットへの変更履歴や、過去の都道府県、インポート・エクスポートのスケジュールをタイムライン形式で表示・追跡できます。

 

また、Processing 履歴パネルで頻度同期の処理済みデータも確認できます。 Processing 履歴オプションをクリックすると、サイドパネルが開き、データセットに利用可能なすべての処理済みデータIDと作成時間が一覧表示されます。


 さらに、データにカーソルを合わせると表示されるアイコンをクリックすることで、処理済みデータのダウンロードや確認も行えます。

 

 

 Manual 更新する 

8. 最後の同期日時の後にある次のファイルを手動で取得するには、データ元からデータを更新するオプションを使用できます。

DataPrep studioページで、上部の棒グラフ内にあるインポートメニューを選択し、データ元からデータを更新するをクリックします。このオプションを利用することで、データ元からデータを再読み込みし、最新のファイルでデータセットを更新できます。


手動更新では、最後の同期日時以降に新規追加または更新されたファイルのみがデータセットにインポートされます。

Notes

メモ: 新規追加または更新されたすべてのファイルは、グリニッジ標準時(GMT)/ UTCに基づき段階的に取得されます。

 Case1: ファイルの一部をスキップしたい場合: 

 例えば、SharePoint内のフォルダに合計10件のファイルがある場合で、ユーザーが3から5のファイルをスキップしたい場合、インクリメンタル取得時にこれら特定のファイルをスキップする手順は以下の通りです。





増分フェッチの途中でファイルをスキップするには、以下の手順に従ってください。

 

1. 汎用ファイルパターンを使用してファイルをインポートします。例:見込み客.*




2. 最初は、最も古いファイルのみが取得済みとなります。例:leads1_2024-01-29_13-02-04.csv

同期が正常に行われるたびに、最後の同期日時が新しい値で更新され、その同期時間以降に作成または更新されたファイルがインポートされます。



3. データのインポート後、今すぐエクスポートするオプションをエクスポートするメニューからDataPrep Studioページでクリックし、再読み込みの前に必須の保存先へエクスポートしてください。これを行わないと、データが失われる可能性があります。



4. DataPrep studioページで、上部の棒グラフにあるインポートするメニューからデータ元からデータを更新するをクリックします。 



5. 次のファイル、すなわち leads2_2024-01-29_13-10-20.csv は段階的に取得済みとなります。再度、エクスポートする前に必須の保存先へ移動してください。リロードするとデータが失われます。


6. をクリックし、DataPrep Studio ページ右上のルールセットアイコンから Ruleset ペインを表示します。



7. Ruleset ペインで、データ元設定アイコンをクリックし、Data データ元 詳細ページを開きます。



8. Data データ元 詳細ページで、インポートする次のファイルパターンをFile pattern項目に入力し、更新するをクリックします。例:leads6_2024-02-21_12-32-51.csv.*


9. 移動先DataPrep studioページで、上部のインポートするメニューを選択し、更新する data 差出人 データ元をクリックします。

ファイル leads3、leads4、leads5 はスキップ済みとなり、leads6 は取得済みとなります。更新済み時間も記録されます。

このファイルを必須の保存先にエクスポートします。




10. 次に再度、data データ元詳細ページへ移動し、ファイルパターンを汎用形式に変更します。例:見込み客.*



11. データのインポートおよびエクスポートをスケジュールして、パイプラインを設定します。

12. インポートをスケジュールするには、

a. Schedule インポートするリンクをクリックします。

b. Schedule config セクションで、繰り返し方法(頻度「N」時間ごと、毎日、週1回、月1回)を選択します。Perform 頻度オプションで繰り返しの時間(すなわち頻度)を設定します。

タイムゾーンをデータのエクスポート用に選択します。初期設定では、ご利用中のローカルタイムゾーンが選択されています。

c. データ元のデータで新規に見つかったカラムをインポートする場合は、チェックボックスを選択します。

d. 保存をクリックして、データセットのインポートスケジュールを設定します。


13. インポートするをスケジュールした後、エクスポートするをスケジュールして、データセットの保存先を設定してください。設定しない場合、インポートするは継続的に完了しますが、エクスポートするがないとデータは失われます。

14. スケジューリング後は、同じパターンの新規ファイルが最後に同期された時間を基準に増分で取得済みとなります。例えば、leads7、leads8 などは増分でインポートされ、通常の間隔でエクスポート済みとなります。

 Case2: ファイルを途中からインポートする場合: 

例として、SharePoint内のフォルダーに合計10個のファイルがある場合、ユーザーは6番目からファイルをインポートしたいとします。以下は、増分取得時に特定のファイルからインポートを開始する手順です。


 

増分取得時に途中からファイルをインポートするには、下記の手順に従ってください。

 

1. 特定のファイルパターンを使ってインポートするを実施します。
例:leads6_2024-02-21_12-32-51.csv.*

 

2. 最初は、指定されたファイルのみが取得済みとなります。例:leads6_2024-02-21_12-32-51.csv




頻度の同期が成功すると、最後の同期日時が新しい値に更新され、同期時間以降に作成・更新されたファイルがインポートされます。

3. データのインポート後、エクスポートする nowオプションをエクスポートするメニューからDataPrep Studioページでクリックし、リロード前に必須の宛先へエクスポートしてください。そうしないとデータが失われます。



4. 右上のrulesetアイコンをDataPrep Studioページでクリックし、Rulesetペインを表示します。



5. Rulesetペインで、データ元設定アイコンをクリックして、Data データ元詳細ページを開きます。


6. データ データ元 詳細ページで、次回インポートしたい汎用ファイルパターン差出人をFile pattern項目に入力します。更新するをクリックします。例:見込み客.*




7. データのインポートとエクスポートをスケジュールして、パイプラインを設定します。

インポートをスケジュールするには、

a) Schedule インポートするリンクをクリックします。

b) Schedule configセクションで、繰り返し方法(頻度 'N' 時間、頻度 day、週1回、月1回)を選択します。Perform 頻度オプションで繰り返しの時間(頻度)を設定します。

タイムゾーンを選択し、データのエクスポートを行います。初期設定では、お使いのローカルタイムゾーンが選択されています。

c) データ元データで新規に見つかったカラムをインポートしたい場合は、チェックボックスを選択します。

d) 保存をクリックして、データセットのインポートをスケジュールします。



8. インポートのスケジューリングが完了したら、エクスポートのスケジュール先をデータセットに設定してください。エクスポートを設定しない場合、インポートは継続的に完了しますが、エクスポートを行わなければデータが失われます。

9. スケジューリング後、同じパターンの新規ファイルは、最後に同期された時間をもとに随時取得されます。例:leads7、leads8など。新規ファイルはすべて段階的にインポートされ、通常の間隔でエクスポートされます。

Notesメモ:データを変更すると、宛先に複製するデータが発生する可能性があります。そのため、データの変更は推奨していません。 


関連情報

新規datasetを追加する方法

cloud databasesからデータをインポートする方法

保存済みデータ外部連携からデータをインポートする方法

インポートのスケジュール方法        

Zoho DataPrepで利用可能な他のクラウドストレージ設定 

SharePointからデータをインポートする方法
SharePointへデータのエクスポート方法