参加する

参加する

お知らせ:当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。




共通の列を使用して、2つのデータセットを参加する変換で結合できます。

例えば、店舗の購買データを含むデータセットと顧客情報を含む別のデータセットがあるとします。これらのデータセットは、顧客IDなどの共通の列を使って結合し、両方のデータセットからデータを特定・照合することができます。

DataPrep では、inner参加する、left参加する、right参加する、outer参加するの4種類の結合タイプを提供しています。参加する変換の使い方を紹介する短い動画をご覧ください。



参加する変換を実行するには

1. DataPrep Studioページで、変換メニューをクリックし、結合をクリックして参加するを選択します。

情報: アイコンをクリックするか、パイプラインビルダーのステージを右クリックして参加する変換を選択することもできます。



2. 参加するデータセットダイアログで、現在のデータセットと結合したいデータセットおよび参加する種類を選択できます。

3. 結合するデータセットを選択のドロップダウンから、現在のデータセットと結合したいデータセットを選択します。

参加する変換の結果として新しいデータセットが作成されます。



DataPrepは現在のデータセットとワークスペース内の他のデータセット間の参加する可能性を自動的に計算して表示します。参加する可能性は割合(%)で表示され、どのデータセットを参加する変換に利用するかを簡単に選択できます。この値は、列内の一致するデータの量やデータセット間の一致する列名など、さまざまな要素に基づいて計算されます。

4. 参加する種類オプションで参加する種類を選択します。また、Transformパネルの参加する種類メニューからも参加する種類を変更できます。



5. Transformパネルの新規 dataset 名前ボックスに新しいデータセットの名前を入力してください。

6. 照合済み columnsセクションで、2つのデータセットを結合する際に利用するカラムを選択します。

重複した列名の解決


7. プレビューするボタンをクリックします。もし両方のデータセットに同じ名前のカラムが存在する場合、重複した列名の解決ダイアログが表示されます。カラム名を変更または削除してから続行できます。

8. プレビュー画面で、列ヘッダーのチェックボックスを使って含めたくないカラムの選択を解除できます。

9. 参加するをクリックして2つのデータセットを結合します。



10. 2つのデータセットが正常に結合されたら、開くをクリックして結合後のデータセットを表示できます。

 

11. 参加設定を表示したい場合は、結合後のデータセットのRulesetペインからData データ元 configurationを開くことで確認できます。


12. また、編集 参加するをクリックして参加設定を更新することもできます。




Info
重要:参加処理を実行する際は、結合条件が有効であり、結合に使用するカラムに極端に多くの重複値が含まれていないことを必ずご確認ください。結合カラムに多数の重複が含まれていると、結果のデータセットが指数関数的に増大し、エラーやパフォーマンスの問題につながる場合があります。
これを避けるために、変換を適用する前に参加条件を確認するか、結合カラムを重複排除してください。


参加は通常、共通項目を基に2つの異なるデータセットを結合する際に利用されます。各参加種類の例を見てみましょう。

Inner 参加

Inner 参加は、共通のカラムを使って2つのデータセットを結合し、一致しない行はすべて破棄します。

Inner 参加は以下のように表されます:



次のデータセットの例を考えてみましょう。

注文データセット



顧客データセット



順番IDが共通の列です。Inner参加するでは、順番ID列で値が一致する2つのデータセットの行を結合し、一致しない値は注文および顧客データセットの両方から除外されます。



Left参加する


Left参加するは、現在のデータセットと他のデータセットを共通列で結合し、他のデータセットで一致しないすべての行を除外します。

Left参加するは次のように表せます:



次のデータセットを用いた例です:

注文データセット



顧客データセット



Left参加するは、順番ID列で値を共有する2つのデータセットの行を結合します。一致しない値は顧客データセットからのみ除外されます。



Right参加する


Right参加するは、現在のデータセットと他のデータセットを共通列で結合し、現在のデータセットで一致しないすべての行を除外します。
Right参加するは次のように表せます:



次のデータセットを用いた例です:

注文データセット



顧客データセット



Right参加するは、2つのデータセットの順番ID列で共通する値を持つ行を結合します。一致しない値は注文データセットからのみ除外されます。


Outer参加する

Outer参加するは、共通の列を使用して2つのデータセットを結合し、一致しない行も両方のデータセットから含めます。Outer参加するのイメージは以下の通りです。



以下のデータセットの例を示します。

注文データセット



顧客データセット



Outer参加するは、2つのデータセットの順番ID列で共通する値を持つ行を結合します。一致しない値も注文と顧客の両データセットから保持されます。



関連情報