Zoho DataPrepは、クラウドデータベースであるSnowflakeへのデータエクスポートをサポートしています。Snowflakeは、データの保存、処理、分析が可能なクラウドデータ倉庫です。
Snowflakeへのデータエクスポート方法
1. 既存のパイプラインを開くか、
パイプラインを作成します。
ホームページ、
Pipelinesタブ、または
Workspacesタブから操作できます。
50種類以上のソースからデータを取り込むことが可能です。
2.
Pipeline Builderページで、データフローの作成と必要な
変換をステージに適用した後、ステージを右クリックして
宛先を追加オプションを選択します。
3. Cloud databasesカテゴリーからSnowflakeを選択するか、検索ボックスで検索できます。
メモ: 以前にSnowflake連携を追加済みの場合は、保存済み外部連携セクションの既存の連携を選択し、そのままエクスポートを続行できます。
4. データに個人情報を含む列がある場合、個人情報列セクションで一部またはすべてを含めるか除外するかを選択できます。
必要に応じて、以下のセキュリティ手法をデータ列に適用して保護することも可能です。
A. データマスキング
データマスキングは、個人情報を保護するために元のデータ内容を「x」で隠します。
B. データトークナイゼーション
データトークナイゼーションは、各異なる値をランダムな値で置き換えます。出力は元のデータと統計的に同一です。
C. なし
セキュリティ手法を使用しない場合は「なし」を選択できます。
5. 次をクリックし、Database サービス 名前のドロップダウンからSnowflakeを選択します。
6. Snowflakeデータベース用に、勘定名、ユーザー 役割、倉庫名、Database 名前、および必須のAuthentication 種類を入力します。
メモ: Snowflakeデータベースインスタンスが存在する倉庫を入力してください。倉庫が有効であり、指定したユーザーがデータベースへアクセスする権限を持っていることを確認してください。
以下の詳細を入力します:
ユーザー名 - データベース認証で使用するSnowflakeユーザー名を入力します。これはSnowflakeアカウントへログインする際に利用するユーザー名と同じです。
非公開鍵パスフレーズ - 非公開鍵がパスフレーズで暗号化されている場合、キー ペア生成時に使用したパスフレーズを入力します。非公開鍵にパスフレーズがない場合、この項目は空欄のままで構いません。
非公開鍵 - Snowflakeユーザーアカウントに登録された公開鍵に対応する、RSA非公開鍵ファイル(PEM形式)の内容を貼り付けます。非公開鍵はキーペア認証を用いてSnowflakeへ安全に認証するための機密性の高い暗号資格情報です。
RSA非公開鍵の作成方法はこちら
メモ: Privacy Enhanced メール(PEM)形式の非公開-公開鍵ペアはOpenSSLで生成できます。Zoho DataPrepとの接続を確立する前に、必ず非公開鍵を作成してください。
以下の詳細を入力してください。
クライアントID - 登録済みアプリケーションの公開識別子です。アプリケーション登録後に提供されます。
Client シークレット - アプリケーションの認証を確立するために利用者により提供されるキーです。アプリケーション登録後に取得できます。
Scope(任意) - アクセストークンによるアクセス範囲を制限する場合に指定します。
Token URL - アクセストークンのURLアドレスです。アクセストークンは保護されたリソースへアクセスする際に使用されます。
Authorization URL - 認可サーバーのURLアドレスです。
Callback URL - OAuth2.0がリダイレクトするURLです。認可を正常に実行するために、このURLをアプリケーションにコピー&ペーストしてください。Snowflake接続をDataPrepで作成した際に自動生成されます。
7. 接続名に接続の一意な名前を入力し、接続をクリックします。
メモ: 今後のデータエクスポートのために接続設定が保存されます。認証情報は安全に暗号化・保存されます。
8. クラウドデータベースへの接続が正常に完了したら、データのエクスポート方法およびエクスポート先を選択できます。
メモ: データベースへの接続に問題が発生した場合は、クラウドデータベースへのデータエクスポートを行うため、アプリケーションでZoho DataPrepのIPアドレスがホワイトリストに登録されていることをご確認ください。こちらをクリックすると、Zoho DataPrepのIPアドレスについてご確認いただけます。
10. 既存テーブルを選択すると、既存のテーブルにデータをエクスポートでき、データベース内の利用可能なテーブルから選択します。既存テーブルオプションを選択した場合、新しい行をテーブルに追加する方法は2通りあります。
- 新しい行をテーブルに追加する場合は、追加を選択します。
- 新しい行で既存の行を上書きする場合は、ドロップダウンから上書きを選択します。
11. 新しいテーブルを作成してデータをエクスポートしたい場合は、新規 tableオプションを選択し、Schema 名前とTable 名前を入力し、新しい行をテーブルに追加する方法を選択します。
メモ: Schema 名前は必須項目ではありません。
- 新しい行をテーブルに追加する場合は、Appendを選択します。
- 新しく追加された行で既存の行を置き換える場合は、ドロップダウンからOverwriteを選択します。
メモ:
スケジュールや
バックフィル実行の場合、最初のエクスポートは新規テーブルに完了し、その後のエクスポートは既存テーブルに完了します。このオプションは新しい行を既存テーブルに追加する際に使用されます。
12.
保存をクリックします。宛先を追加したら、まず手動実行でパイプラインの動作を確認することをおすすめします。手動実行が正常に動作することを確認後、スケジュールを設定してパイプラインを自動化できます。様々な実行タイプについては
こちらを参照してください。
情報: 各実行はジョブとして保存されます。パイプラインが実行されると、データソースから取得済みのデータは各ステージで申請済みの一連の変換処理を経て準備され、その後データが宛先へエクスポート済みとなります。この完了プロセスは
ジョブページに記録されます。
13. 手動実行がエラーなく成功した場合、データは正常にエクスポート済みとなります。クラウドデータベースの既存テーブルにデータをエクスポートする際、手動実行で下記のターゲット照合エラーが発生した場合は、ターゲット照合ステップを完了させて修正できます。
ターゲット照合は、データモデルの不一致によるエクスポート失敗を防ぐDataPrepの便利な機能です。
メモ:
スケジュール実行オプションを使用して、データを新規テーブルにエクスポートし、パイプラインを自動化した場合でも、ターゲットマッチングは申請済みとして扱われます。最初のスケジュール実行時のみ新規テーブルとして扱われますが、その後のエクスポートでは新規テーブルは既存テーブルとして扱われ、ターゲットマッチングは申請済みとなります。
クラウドデータベースへのエクスポート時のターゲットマッチング
ターゲットマッチングは、データが宛先にエクスポートされる前に行われます。DataPrep のターゲットマッチング機能は、データモデルの不一致によるエクスポート失敗を防ぎます。ターゲットマッチングを使用することで、必要なクラウドデータベーステーブルをターゲットとして設定し、データ元のデータセット列をターゲットテーブルに合わせて整列できます。これにより、クラウドデータベースへ高品質なデータをシームレスにエクスポートできます。
メモ: ターゲットマッチングの失敗はエクスポートの失敗とは異なります。ターゲットマッチングは、データが宛先にエクスポートされる前に実行されます。この仕組みにより、エクスポート時に発生しうるスキーマやデータモデルのエラーを事前に検出し、エクスポート失敗を未然に防ぎます。
ターゲット照合チェックが失敗した場合
1. エクスポート中にターゲット照合チェックが失敗した場合、
DataPrep Studioページに移動し、右上のターゲットマッチングアイコン

をクリックし、
ターゲットを表示オプションを選択します。ターゲットのデータモデルが既存のデータ元データセットの上部に表示されます。データ元データセットの列は、該当する場合は自動的にターゲットデータセットの列に照合されます。
ターゲットマッチングでは、照合済み列と未照合列に異なるアイコンや提案が表示されます。これらの提案をクリックすることで、既存の列とターゲット列の照合をすばやく変更できます。エラーの修正を簡単にするために、クラウドデータベースのターゲットタブがデータに紐付けられています。DataPrep Studioページでは、データとテーブルのマッピングや不一致のある箇所のエラーも確認可能です。エラーアイコンにカーソルを合わせて内容を確認し、クリックしてエラーごとに解決できます。
メモ: すべての列は初期設定でグリッドに表示されます。ただし、すべての列リンクをクリックして、必須オプションでフィルター出力することも可能です。
2. 概要を表示リンクをクリックして、ターゲット照合エラーの概要を表示します。概要では、さまざまなモデル照合エラーと各エラーに関連付けられている列数が表示されます。必要なエラー列をクリックし、適用をクリックして特定のエラー列をフィルター出力できます。
ターゲット照合エラー概要
- ターゲット照合エラーセクションには、エラー内容と各エラーに関連付けられている列数が表示されます。
- 画面上部のセクションには、エラーカテゴリーごとのエラー数が一覧表示されます。
- 各カテゴリーをクリックして、パネル内でそのカテゴリーに関するエラーのみをフィルターできます。
- 初期設定表示では、すべての列が表示されますが、任意のエラーカテゴリーをクリックして該当列のみを詳しく確認したり、エラーのみ表示チェックボックスを選択してエラー列だけを表示したりできます。
- ターゲット照合エラー概要で選択したフィルターは、DataPrep Studioページのグリッドにも適用されます。
ターゲットマッチングエラー
ターゲットマッチングにおけるエラー内容は以下の通りです。
-
未照合の列:このオプションでは、データ元とターゲットで未照合の列がすべて表示されます。
メモ:
- ターゲット側で必須ではない列は、利用可能な場合はデータ元の列と照合するか、無視することができます。
- データ元に存在し、ターゲットにない列は、照合するか、削除してエクスポートを続行してください。
未照合の列オプション使用時は、必須列のみ表示オプションを切り替えて、ターゲット側で必須に設定されている列があるかどうかを確認し、含めることができます。また、必須列のみ修正してエクスポートを続行することも可能です。
- データの種類の不一致:このオプションでは、データ元に存在し、ターゲットの列のデータ型と一致しない列が表示されます。
- Data 形式の不一致:このオプションでは、データ元に存在し、日付・datetime・時間の形式がターゲットと異なる列が表示されます。
- 制約の不一致:このオプションでは、ターゲットの列のデータ型制約と一致しない列が表示されます。列に制約を追加する方法については、こちらをクリックしてください。
-
必須列の不一致:このオプションでは、ターゲットで必須に設定されているが、データ元で必須になっていない列が表示されます。
メモ: 必須列は、照合されて必須に設定されていない限り、宛先へエクスポートできません。上記の

アイコンをクリックして、列を必須に設定できます。また、
必須として設定(null不可)チェックボックスを
データ型の変更トランスフォームの下で使用して、列を必須に設定できます。
- データサイズ超過警告:このオプションでは、ターゲットで許可されている最大サイズを超えているデータを持つ列をフィルターします。
3. エラーを修正した後、
Pipeline builderページに移動し、パイプラインを実行してデータをエクスポートします。
手動実行が正常に動作することを確認したら、パイプラインの自動化スケジュールを設定できます。さまざまな実行タイプについてはこちらをご参照ください。