1. 左側のペインでCloud storageカテゴリーを選択し、Amazon S3を選びます。また、検索ボックスでAmazon S3を検索することも可能です。
2. 保存済みの外部連携口座を選択してください(すでに作成済みの場合)、または新しく追加するオプションを使用して新しい勘定を追加します。
4. Connection 名前、Access キー、およびシークレット キーの各項目に必要な詳細を入力してください。
5. Authenticate Amazon S3ボタンをクリックして、認証情報を使いアカウントを認証します。初めてデータをインポートする際は、S3の認証が必要です。
6. 詳細選択リンクをクリックします。
詳細選択では、正規表現を利用した動的なファイル選択が可能です。新規データや増分データをAmazon S3バケットから取得する際に使用します。ファイルパターンに一致する新規または更新済みのファイルは、前回の同期以降にS3バケットから取得されます。
詳細の必須項目は以下のとおりです:
Bucket 名前 : データをインポートしたいバケット名を指定します。
File pattern : バケット内のファイル名と照合するために使用するパターンです。正規表現によるマッチングをサポートしています。また、任意のファイルと照合する場合は「.*」と指定できます。
情報: ファイルパターンは大文字と小文字を区別します。
メモ: ファイルパターン「照合する」はシンプルなregex種類「照合する」です。例えば、Sales_2022。csv、Sales_2023。csv、Sales_2024。csvのようなファイル名を取得する場合、パターンSales_.*を入力できます。
同様に、PublicData1。csv、PublicData2。csv、PublicData3。csvなどのファイルを取得したい場合は、公開する.*を使用してください。
単一ファイルをインポートする場合は、パターンとして正確なファイル名を指定します。
例: leads_jan_2022.*
サブフォルダーを含める : ファイル検索時にサブフォルダーも含めたい場合は、サブフォルダーを含めるチェックボックスを選択できます。
ファイルの解析形式 : ファイルの解析に必要な拡張子を選択してください。ファイル形式が一般的に使用されているものと異なる場合、このオプションを利用して、データを読み取り可能な形式へインポートする前に、CSV、TSV、JSON、XML、TXTのいずれかの形式に解析できます。
7. データのインポートが完了したら、データセットが開き、すぐにデータの準備を開始できます。
8. データセットの準備ができたら、必須の宛先へエクスポートし、次回の更新前に完了させてください。
メモ: 「Schedule インポートする」オプションを利用して、ワークスペース内のデータセットやDataPrep Studioページ上部の「インポートする」メニューから、インポートをスケジュール設定できます。 こちらをクリック して詳細をご確認ください。
パイプラインの複雑さに応じてデータセットのスケジュールを設定してください。インポート、データ処理、エクスポートに十分な時間を確保しましょう。
S3から取得済みデータの番号を認証することができます。Operations 履歴パネルは のSync ステータスページでご確認いただけます。
各sync ステータスの横にあるOperations 履歴アイコンをクリックすると、データセットやその前の都道府県、インポートするおよびエクスポートするスケジュールに対して実施された変更内容をタイムラインで表示・追跡できます。
できることは、頻度同期の処理済みデータを認証することも可能です。詳細はProcessing 履歴パネルをご覧ください。「Processing 履歴」オプションをクリックすると、サイドパネルが開き、データセットで利用可能なすべての処理済みデータIDと作成日時が一覧表示されます。
また、処理済みデータをダウンロードおよび認証することもできます。データ上にカーソルを合わせた際に表示されるアイコンをクリックしてください。
10. 最終同期日時の後に次のファイルを手動で取得したい場合は、データ元からのデータ更新オプションをご利用ください。
DataPrep studio ページから、上部の棒グラフにあるインポートするメニューを選択し、更新する data 差出人 データ元をクリックします。このオプションを利用すると、データ元からデータを再読み込みして、最新のファイルでデータセットを更新できます。
手動で更新する場合、最後の同期日時以降に新しく追加または更新されたファイルのみがデータセットにインポートされます。
例えば、Amazon S3 のバケットに合計 10 件のファイルがある場合、ユーザーが 3 から 5 番目のファイルをスキップしたいとします。増分取得時に特定のファイルをスキップする手順は以下の通りです。
以下の手順に従い、増分取得時に中間のファイルをスキップしてください。
1) 一般的なファイルパターンを使用してインポートするファイルを指定します。 例:見込み客.*
2) 最初は、最も古いファイルのみが取得済みとなります。例:leads1_2024-01-29_13-02-04.csv
同期が正常に完了すると、最後の同期日時が新しい値に更新され、同期時間以降に作成または更新されたファイルがインポートされます。
3) データをインポートした後、 エクスポートする now オプションを エクスポートする メニューから選択し、 DataPrep Studio ページ上でエクスポートします。必要な保存先にエクスポートしてから再読み込みを行ってください。そうしないと、データが失われる可能性があります。
4) DataPrep studio ページで、上部の棒グラフにあるインポートするメニューを選択し、 データ元からデータを更新するをクリックします。
5)次のファイル、すなわち leads2_2024-01-29_13-10-20.csv は、インクリメンタルに取得されます。再度、 リロードの前に必須の保存先へエクスポートしてください。そうしないとデータが失われます。
6) 画面右上の ルールセットアイコンをクリックし、DataPrep Studio ページで Ruleset パネルを表示します。
7)Ruleset パネルで、データ元設定アイコン をクリックし、Data データ元詳細ページを開きます。
8) data データ元 詳細ページで、インポートしたい特定のファイルパターン差出人を File pattern項目に入力します。 「 更新する」をクリックします。 例 leads6_2024-02-21_12-32-51。csv.*
9) 移動先 DataPrep studioページで、上部の棒グラフにある インポートする メニューを選択し、「 更新する data 差出人 データ元」をクリックします。
leads3、leads4、leads5 のファイルはスキップ済み、leads6 のファイルは取得済みとなり、更新済み時間が記録されます。
このファイルを必須の宛先へエクスポートします。
10) 再度、data データ元 詳細ページへ移動し、ファイルパターンを汎用的な形式に変更します。例:見込み客.*
11) データのインポートおよびエクスポートをスケジュールし、パイプラインを設定します。
12) インポートをスケジュールするには、
a. 「Schedule インポートする リンク.
b. スケジュール設定 セクションで、 繰り返し 方法(頻度「N」時間、頻度 day、週に1回、月に1回)を選択します。繰り返しの 時間(つまり、頻度)を実行頻度オプションで設定してください。
エクスポートするデータのタイムゾーンを選択します。初期設定では、ローカルタイムゾーンが選択されています。
c. データ元データで新たに見つかった新規カラムをインポートしたい場合は、チェックボックスを選択してください。
d. 保存 をクリックして、データセットのインポートをスケジュールします。
13) インポートをスケジューリングした後、エクスポートもスケジュール してください。そうしない場合、インポートは継続的に完了しますが、エクスポートされないためデータは失われます。
14) スケジューリング後、同じパターンの新規ファイルは、最終同期時刻を基準に段階的に取得されます(例:leads7、leads8 など)。これらは段階的にインポートされ、通常の間隔でエクスポートされます。
増分取得時に途中のファイルからインポートするには、以下の手順に従ってください。
1) 特定のファイルパターンを使用してファイルをインポートします。
例 leads6_2024-02-21_12-32-51。csv.*
2. 最初は、特定のファイルのみが取得済みとなります。例: leads6_2024-02-21_12-32-51.csv
頻度ごとの同期が成功すると、最後の同期日時が新しい値に更新され、同期時間以降に作成または更新されたファイルがインポートされます。
3. データをインポートした後、エクスポートする nowオプションをエクスポートするメニューからDataPrep Studioページ上でクリックし、再読み込みする前に必須の保存先へエクスポートしてください。そうしないとデータが失われる可能性があります。
4. 右上のルールセットアイコンをDataPrep Studioページでクリックして、Rulesetペインを表示します。
5. Ruleset ペインで、data データ元の設定アイコンをクリックします 続いて、Data データ元 詳細ページを開きます。
6. データ元詳細ページで、次にインポートするファイルのパターンをFile pattern項目に入力します。その後、更新するをクリックしてください。例:見込み客.*
7. データのインポートおよびエクスポートをスケジュールして、パイプラインを設定します。
インポートをスケジュールするには、
a) Schedule インポートするリンクをクリックします。
b) Schedule configセクションで、繰り返し方法(頻度 N 時間、頻度 day、週1回、月1回)を選択します。Perform 頻度オプションを使い、繰り返しの時間(頻度)を設定してください。
データのエクスポート用にタイムゾーンを選択します。初期設定では、ローカルタイムゾーンが選択されています。
c) データ元データで新たに見つかったカラムをインポートしたい場合は、チェックボックスを選択してください。
d) 保存をクリックして、データセットのインポートスケジュールを保存します。
8. インポートするのスケジューリング後、 エクスポートするのスケジュール設定 を行い、データセットの出力先を設定してください。設定しない場合、インポートは継続的に完了しますが、エクスポートが行われないとデータが失われます。
9. スケジューリング後は、同じパターンの新規ファイルが前回同期した時間を基準に増分で取得されます。例:leads7、leads8 など。すべての新規ファイルは増分でインポートされ、通常の間隔でエクスポートされます。
メモ: データを修正した場合、出力先でデータが複製される可能性があります。そのため、データの修正は推奨していません。
「導入したばかりで基本操作や設定に不安がある」、「短期間で集中的に運用開始できる状態にしたい」、「運用を開始しているが再度学び直したい」 といった課題を抱えられているユーザーさまに向けた少人数制のオンライントレーニングです。
日々の営業活動を効率的に管理し、導入効果を高めるための方法を学びましょう。