Zoho DataPrep は、クラウドデータベースである Amazon RDS へのデータエクスポートをサポートしています。Amazon RDS(Amazon Relational Database Service)は、データベースのセットアップ、運用、スケールを支援します。
Amazon RDS - Amazon Aurora MySQL にデータをエクスポートする手順
1. 既存のパイプラインを開くか、
パイプラインを作成し、ホームページ、Pipelinesタブ、またはWorkspacesタブから操作します。データは50 以上のソースから取り込むことができます。
2.
Pipeline Builderページで、データフローの作成と各ステージで必要な
変換の適用が完了したら、ステージを右クリックして
送信先を追加オプションを選択します。
3. クラウドデータベースカテゴリからAmazon RDSを選択するか、検索ボックスで検索します。
メモ: すでに Amazon RDS 接続を追加済みの場合は、保存済み接続セクションから既存の接続を選択し、そのままエクスポートを続行できます。
4. データに個人データを含む列がある場合、PII 列セクションで、それらの一部またはすべてを含めるか除外するかを選択できます。
また、以下のセキュリティ方法を適用して、データ列を保護することもできます。
A. データマスキング
データマスキングは、元のデータを「x」で隠し、個人情報を保護します。
B. データトークナイゼーション
データトークナイゼーションは、データ内の各固有値をランダムな値に置き換えます。そのため、出力は統計的には元のデータと同一になります。
C. なし
セキュリティ方法を使用しない場合は、「なし」を選択します。
5. 次へをクリックし、データベースサービス名ドロップダウンでAmazon Aurora MySQLを選択します。
6. データベース接続を認証するために、エンドポイント、ポート、データベース名、ユーザー名、パスワードを入力します。
7. データベースサーバーが SSL による暗号化データ配信に対応している場合は、SSL を使用チェックボックスを選択することもできます。
8. 接続名に一意の名前を入力し、接続をクリックします。
メモ: 接続設定は、今後のデータエクスポート用に保存されます。認証情報は安全に暗号化されて保存されます。
メモ: データベースへの接続で問題が発生する場合は、クラウドデータベースにデータをエクスポートできるよう、アプリケーションで Zoho DataPrep の IP アドレスがホワイトリストに登録されていることを確認してください。Zoho DataPrep の IP アドレスについては
こちらをクリックして確認できます。
9. Amazon RDS アカウントへの接続に成功したら、データのエクスポート方法とエクスポート先を選択できます。
10. 既存のテーブルにデータをエクスポートする場合は、既存のテーブルを選択し、データベース内のテーブル一覧から 1 つ選択します。既存テーブルオプションを選択した場合、新しい行をテーブルに追加する方法は 2 通りあります。
- 新しい行をテーブルに追加する場合は、追加を選択します。
- 新しい行で既存の行を置き換える場合は、ドロップダウンから上書きを選択します。
11. 新しいテーブルを作成してデータをエクスポートする場合は、新しいテーブルオプションを選択し、スキーマ名とテーブル名を入力し、新しい行をテーブルに追加する方法を選択します。
- 新しい行をテーブルに追加する場合は、追加を選択します。
- 新しい行で既存の行を置き換える場合は、ドロップダウンから上書きを選択します。
メモ:
スケジュール実行および
バックフィル実行では、最初のエクスポートは新しいテーブルに対して行われ、その後のエクスポートは既存テーブルに対して行われます。このオプションは、既存テーブルに新しい行を追加する際に使用されます。
12.
保存をクリックします。送信先を追加したら、まずは手動実行でパイプラインを実行してみることをお勧めします。手動実行が問題なく動作することを確認したら、スケジュールを設定してパイプラインを自動化できます。さまざまな実行タイプについては
こちらをご覧ください。
情報: 各実行はジョブとして保存されます。パイプライン実行が行われると、データソースから取得されたデータに対して、各ステージで適用した一連の変換が実行され、その後データが送信先にエクスポートされます。この一連の処理は、
ジョブページに記録されます。
13. 手動実行がエラーなく成功すると、データは正常にエクスポートされます。クラウドデータベース内の既存テーブルにデータをエクスポートしている場合に、以下のターゲットマッチエラーが発生して手動実行が失敗した場合は、ターゲットマッチング手順を完了することで修正できます。
ターゲットマッチングは、データモデルの不一致によるエクスポート失敗を防ぐための、DataPrep の便利な機能です。
メモ:
スケジュール実行オプションを使用して新しいテーブルにデータをエクスポートし、パイプラインを自動化する場合でも、ターゲットマッチングは適用されます。最初のスケジュール実行時のみ新しいテーブルとして扱われますが、その後のエクスポートでは、そのテーブルは既存テーブルとして扱われ、ターゲットマッチングが適用されます。
クラウドデータベースへのエクスポート時のターゲットマッチング
ターゲットマッチングは、データが宛先にエクスポートされる前に実行されます。ターゲットマッチングは、データモデルの不一致によるエラーが原因で発生するエクスポート失敗を防ぐ、DataPrep の便利な機能です。ターゲットマッチングを使用すると、必要なクラウドデータベースのテーブルをターゲットとして設定し、ソースデータセットの列をターゲットテーブルに合わせて揃えることができます。これにより、高品質なデータをクラウドデータベースへシームレスにエクスポートできます。
メモ: ターゲットマッチングの失敗は、エクスポートの失敗ではありません。ターゲットマッチングは、データが実際に宛先へエクスポートされる前に行われます。この段階で、エクスポート失敗の原因となり得るスキーマやデータモデルのエラーを事前に検出し、エクスポートの失敗を防ぎます。
ターゲットマッチチェックが失敗した場合
1. エクスポート中にターゲットマッチチェックが失敗した場合は、
DataPrep Studioページに移動し、右上のターゲットマッチングアイコン

をクリックして、
ターゲットを表示オプションを選択します。ターゲットのデータモデルが、既存のソースデータセットの上部に表示されます。ソースデータセット内の列は、該当する場合、自動的にターゲットデータセットの列に合わせて整列されます。
ターゲットマッチングでは、一致している列と一致していない列に対して、さまざまなアイコンや提案が表示されます。これらの提案をクリックすることで、既存の列をターゲット列に合わせるための変更をすばやく行えます。エラーの修正を容易にするため、クラウドデータベース内のターゲットタブが、データのターゲットとして関連付けられます。DataPrep Studioページでは、テーブルとのマッピングと、不一致がある箇所のエラーをあわせて確認できます。エラーアイコンにカーソルを合わせて内容を確認し、クリックして各エラーを解消できます。
メモ: すべての列は、デフォルトでグリッドに表示されます。ただし、すべての列リンクをクリックして、必要なオプションに絞り込むことができます。
2. サマリーを表示リンクをクリックすると、ターゲットマッチエラーのサマリーを確認できます。サマリーには、さまざまなモデルマッチエラーと、それぞれのエラーに関連付けられている列数が表示されます。必要なエラー列をクリックし、適用をクリックすると、特定のエラー列だけを絞り込めます。
ターゲットマッチエラーのサマリー
- [ターゲットマッチエラー]セクションには、エラーの種類と、それぞれのエラーに関連付けられている列数が表示されます。
- 上部のセクションには、エラーカテゴリーと、各カテゴリー内のエラー数が一覧表示されます。
- 各カテゴリーをクリックすると、そのカテゴリーに関連するエラーだけをパネル内に絞り込めます。
- デフォルトビューでは、すべての列が表示されますが、任意のエラーカテゴリーをクリックして列を詳しく確認したり、エラーのみを表示チェックボックスを選択してエラー列のみを表示したりできます。
- ターゲットマッチエラーのサマリーで行ったフィルターの選択内容は、DataPrep Studioページのグリッドにも適用されます。
ターゲットマッチングのエラー
ターゲットマッチングで発生するエラーは、次のとおりです。
-
未マッチ列: このオプションでは、ソースとターゲットの両方で一致していないすべての列が表示されます。
メモ:
- ターゲット側で必須ではない列は、利用可能なソース列にマッチさせることも、無視することもできます。
- ソースに存在し、ターゲットに存在しない列は、エクスポートを続行するには、マッチさせるか削除する必要があります。
未マッチ列オプションを使用する場合は、必須列のみを表示オプションを切り替えて、必須列(ターゲット側で必須に設定されている列)があるかどうかを確認し、含めることができます。必須列のみを修正して、そのままエクスポートを続行することも可能です。
- データ型の不一致: このオプションでは、ソース側のデータ型がターゲット側の列と一致していない列が表示されます。
- データ形式の不一致: このオプションでは、ソース側の列のうち、ターゲットと異なる日付、日時、時刻の形式を持つ列が表示されます。
- 制約の不一致: このオプションでは、ターゲット側の列に設定されているデータ型の制約と一致しない列が表示されます。列に制約を追加する方法については、こちらをクリックしてください。
-
必須列の不一致: このオプションでは、ターゲット側で必須に設定されているものの、ソース側では必須に設定されていない列が表示されます。
メモ: 必須列は、マッチさせて必須に設定しない限り、宛先にエクスポートできません。列の上部にある

アイコンをクリックして、その列を必須に設定できます。また、
データ型の変更変換内の
必須(null 不可)として設定チェックボックスを使用して、列を必須に設定することもできます。
- データサイズ超過の警告: このオプションでは、ターゲットで許可されている最大サイズを超えるデータを含む列が絞り込まれます。
3. エラーを修正したら、
パイプラインビルダーページに移動し、パイプラインを実行してデータをエクスポートします。
手動実行で問題なく動作することを確認したら、スケジュールを設定してパイプラインを自動化できます。各種実行タイプの詳細はこちらをご覧ください。