Zoho DataPrepは、クラウドデータベースであるAmazon Redshiftからのデータインポートに対応しています。これは、クラウド上で完全に管理されたペタバイト規模のデータウェアハウスサービスです。
Amazon Redshiftへのデータエクスポート
1.
既存のパイプラインを開くか、パイプラインを作成することができます。「ホーム」ページ、パイプライン」タブ、または「ワークスペース」タブからも操作できます。データは50以上のソースから取り込むことが可能です。
2.
パイプラインビルダーページで、データフローの作成および必要な
変換処理を各ステージに適用した後、ステージを右クリックし、
宛先を追加オプションを選択できます。
3. Cloud databasesカテゴリーからOracle Cloudを選択するか、検索ボックスで検索して選択できます。
メモ: 以前にAmazon Redshift接続を追加している場合は、保存済み外部連携セクションから既存の接続を選択し、そのままエクスポートを続行できます。
4. データに個人情報を含む列がある場合、個人情報列セクションで一部またはすべての列を含めるか除外することができます。
必要に応じて、下記のセキュリティ方法を列に適用し、データを保護できます。
A. データマスキング
データマスキングは、個人情報を保護するため、データの元の内容を「x」で隠します。
B. データトークナイゼーション
データトークナイゼーションは、データ内の各異なる値をランダムな値に置き換えます。そのため、出力は元の内容と統計的に同一になります。
C. なし
セキュリティ方法を使用しない場合は「なし」を選択できます。
5. 次をクリックし、Database サービス 名前ドロップダウンでAmazon Redshiftを選択します。
6. データベース接続を認証するために、Endpoint、Port、Database 名前、ユーザー名、パスワードを入力します。
7. データベースサーバーがSSL経由で暗号化データを提供するように設定されている場合は、使用する SSLチェックボックスも選択できます。
8. Connection 名前欄に接続用の一意の名前を入力し、接続をクリックします。
メモ: この接続設定は今後のデータエクスポートに利用するため保存されます。認証情報は安全に暗号化され、保存されます。
メモ: データベースへの接続に問題が発生した場合は、クラウドデータベースへのデータエクスポートのために、Zoho DataPrepのIPアドレスがご利用のアプリケーションでホワイトリスト登録されているかご確認ください。Zoho DataPrepのIPアドレスについては
こちらをクリックしてください。
9. Amazon Redshiftアカウントへの接続が完了したら、データのエクスポート方法やエクスポート先を選択できます。
10. 既存のテーブルにデータをエクスポートしたい場合は、既存 tableを選択し、データベース内にある利用可能なテーブル一覧から一つ選択します。既存テーブルへエクスポートする場合、新しい行をテーブルに追加する方法を2通りから選択できます。
- 新しい行をテーブルに追加する場合は、Appendを選択します。
- 新しく追加される行で既存の行を置き換える場合は、ドロップダウンからOverwriteを選択します。
11. 新しいテーブルを作成してデータをエクスポートしたい場合は、新規 tableオプションを選択し、Schema 名前とTable 名前を入力し、新しい行をテーブルに追加する方法を選択します。
- 新しい行をテーブルに追加する場合は、Appendを選択します。
- 新しく追加した行で既存の行を置き換える場合は、ドロップダウンからOverwriteを選択します。
メモ:
スケジュールや
バックフィル実行の場合、最初のエクスポートは新規テーブルに完了し、その後のエクスポートは既存テーブルに完了します。このオプションは新しい行を既存テーブルに追加する際に使用されます。
12.
保存をクリックします。宛先を追加したので、まず手動実行でパイプラインを実行してみてください。手動実行が正しく動作することを確認したら、スケジュールを設定してパイプラインを自動化できます。さまざまな実行タイプについては
こちらをご参照ください。
情報: 各実行はジョブとして保存されます。パイプライン実行時、データソースから取得したデータは各ステージで申請済みの変換処理が適用され、その後、宛先へエクスポートされます。この一連の処理は
ジョブページで確認できます。
13. 手動実行がエラーなく成功した場合、データは正常にエクスポートされます。クラウドデータベース内の既存テーブルにデータをエクスポートしている際、手動実行で下記のターゲット照合エラーが発生した場合は、ターゲットマッチング手順を完了することで修正できます。
ターゲットマッチングは、データモデルの不一致によるエクスポート失敗を防止するためのDataPrepの便利な機能です。
メモ: ターゲットマッチングは、新規テーブルへのデータエクスポートや
スケジュール実行オプションでパイプラインを自動化した場合にも申請済みとなります。最初のスケジュール実行時のみ新規テーブルとして扱われ、その後のエクスポートでは新規テーブルが既存テーブルとして扱われ、ターゲットマッチングが申請済みとなります。
クラウドデータベースへのエクスポート時のターゲット照合
ターゲット照合は、データが宛先にエクスポートされる前に実行されます。ターゲット照合は、データモデルの不一致によるエクスポート失敗を防ぐ、DataPrepの便利な機能です。ターゲット照合を利用することで、必要なクラウドデータベーステーブルをターゲットとして設定し、元データセットの列をターゲットテーブルに合わせて調整できます。これにより、高品質なデータをクラウドデータベースへスムーズにエクスポートできます。
メモ: ターゲット照合の失敗は、エクスポート失敗と同じではありません。ターゲット照合は、データが実際に宛先へエクスポートされる前に行われます。この仕組みにより、スキーマやデータモデルのエラーが事前に検出され、エクスポート失敗を未然に防ぐことができます。
ターゲット照合チェックが失敗した場合
1. エクスポート中にターゲット照合チェックが失敗した場合、
DataPrep Studioページに移動し、右上のターゲット照合アイコン

をクリックして
ターゲットを表示オプションを選択します。ターゲットのデータモデルが、既存の元データセットの上部に表示されます。元データセット内の列は、ターゲットデータセット内の列と一致するものがあれば自動的に照合されます。
ターゲット照合では、照合済み列および未照合列に異なるアイコンや提案が表示されます。これらの提案をクリックすることで、既存列とターゲット列を迅速に一致させるための変更ができます。エラー修正を容易にするため、クラウドデータベース内のターゲットタブがデータのターゲットとして関連付けられます。DataPrep Studioページで、データとテーブルのマッピングや不一致がある箇所のエラーも確認できます。エラーアイコンにカーソルを合わせると問題内容が表示され、クリックすることで各エラーを解決できます。
メモ: すべての列は初期設定でグリッドに表示されます。ただし、すべての列リンクをクリックすることで、必須オプションでフィルターできます。
2. 概要を表示リンクをクリックして、ターゲット照合エラーの概要を確認します。概要には、さまざまなモデル照合エラーと、それぞれのエラーに関連する列数が表示されます。必要なエラー列をクリックし、適用をクリックすることで、特定のエラー列のみを抽出できます。
Target 照合する エラー 概要
- Target 照合する エラー セクションでは、エラーと各エラーに関連付けられた列の番号が表示されます。
- 上部のセクションには、エラーカテゴリーごとのエラー数が一覧表示されます。
- 各カテゴリーをクリックすることで、そのカテゴリーに関連するエラーのみをパネルでフィルターできます。
- 初期表示ではすべての列が表示されますが、任意のエラーカテゴリーをクリックして列を詳細表示したり、エラーのみ表示チェックボックスを選択してエラーが発生している列だけを表示することも可能です。
- Target 照合する エラー 概要で選択したフィルターは、DataPrep Studioページのグリッドにも適用されます。
Target matching errors
ターゲットマッチング時のエラーについて、以下に説明します。
-
未照合の列: このオプションでは、データ元およびターゲットにおける未照合の列がすべて表示されます。
メモ:
- ターゲットの必須でない列は、利用可能な場合はデータ元の列と照合するか、無視できます。
- ターゲットに存在しないデータ元の列は、照合するか削除して、エクスポートを続行してください。
未照合の列オプションを使用する際は、必須列のみ表示オプションを切り替えて、ターゲットで必須に設定されている列があるか確認し、含めることができます。必須列のみ修正してエクスポートを続行することも可能です。
- データの種類の不一致: このオプションでは、データ元の列で、ターゲットの列とデータの種類が一致しないものが表示されます。
- データ形式の不一致: このオプションでは、データ元の列で、日付・日時・時間の形式がターゲットの列と異なるものが表示されます。
- 制約の不一致: このオプションでは、ターゲットの列で設定されたデータの種類の制約に一致しない列が表示されます。列に制約を追加する方法については、こちらをご参照ください。
-
必須列の不一致: このオプションでは、ターゲットで必須に設定されているが、データ元で必須に設定されていない列が表示されます。
メモ: 必須列は、照合され必須に設定されていない限り、宛先にエクスポートできません。アイコン

をクリックして、その列を必須に設定できます。また、
必須として設定(NULL不可)チェックボックスを
データの種類変更トランスフォーム内で利用して、列を必須に設定することも可能です。
- データサイズ超過警告: このオプションでは、ターゲットで許容されている最大サイズを超えるデータを含む列がフィルタリングされます。
3. エラーを修正した後、
Pipeline builderページに移動し、パイプラインを実行してデータをエクスポートします。
手動実行が正常に動作することを確認したら、パイプラインの自動化のためにスケジュールを設定できます。さまざまな実行タイプの詳細はこちらをご覧ください。