データセットの変換

お知らせ：当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。

データセット変換は、データセットを組み合わせたり変換したりして、ニーズに合わせて調整することです。データセットでは、以下の変換を適用できます。

重複排除

行単位
列単位

結合
追加
ピボット
アンピボット
計算列
データセットの派生
個人データとして設定

すべてのデータセット変換は、上部の棒グラフ変換メニューにあります。

重複排除

重複排除変換を使用して、データ内の重複データを削除できます。これは「行単位」と「列単位」の2通りの方法で実行可能です。

行単位

この方法では、重複データを含む行を削除し、一意の行のみをデータセットに残します。

行単位の重複排除を適用するには：

1. 変換メニューをクリックし、重複排除をクリックして、行単位を選択します。

2. 重複行を削除する際、大文字小文字や空白を無視するかどうかを選択できます。

メモ: サンプルデータセットでは重複が見つからない場合もありますが、エクスポート時に全体のデータセットを処理する際には、ルールを適用して重複行を削除できます。

3. プレビューが表示され、重複行は赤色でハイライトされます。

4. 重複を削除をクリックします。

列単位

列を単独または複数選択し、重複排除を実行することもできます。この変換は、選択した列に存在する重複値に基づいて行を削除します。

列単位の重複排除を適用するには：

1. 変換メニューをクリックし、重複排除をクリックして、列単位を選択します。

2. 大文字小文字や空白を無視して重複を検出するかどうかを選択できます。

3. 選択した列に基づき、データセットの重複排除方法として自動重複排除または手動条件のいずれかを選択できます。

4. 自動重複排除を選択した場合、DataPrepが選択した列に基づいて自動的に重複排除を行います。

5. 手動条件を選択した場合は、条件式や式を入力して「if」明細を作成します。そのうえで、各重複クラスター内で保持する行または削除する行を条件が真である場合に選択可能です。

6. 次の表は、すべてのデータ型で利用可能なIf条件を一覧で示しています。データ型の詳細については、こちらをクリックしてください。

テキスト	数値	日付時刻	期間	ブール値	リスト	マップ
を含む	=次の値と等しい	= 次の値と等しい	最小である	真である	値を持つ	キーを持つ
含まれていない	!= not 次の値と等しい	!= not 次の値と等しい	最大である	is 無効	is 空である list	is 空である map
で始まる	> その他 than	最も早い	= 次の値と等しい	を含む	が次の値と等しくない空である list	が次の値と等しくない空である map
で終わる	< 次の値より小さい	最新である	!= not 次の値と等しい	含まれていない	セルが空である	セルが空である
である	>= その他以上	が次の後	cell が空である	で始まる	cell が空ではない	cell が空ではない
が次の値と等しくない	<= 次の値以下	が次の前	セルが空でない	で終わる	regexを使用	regexを使用
セルが空である	最小である	オンまたは次の後	regex を使用	である	patterns を使用	patterns を使用
セルが空でない	最大である	オンまたは次の前	パターンを使用	次の値と等しくない
使用するregex	is cell 空である	is cell 空である		is cell 空である
使用するパターン	is cell not 空である	is cell not 空である		is cell not 空である
	使用する regex	使用する regex		使用する regex
	使用する patterns	使用する patterns		使用する patterns

7. ANDやOR演算子を組み合わせて、条件を追加しながら重複排除の適用条件を柔軟に設定できます。

例として、次のような条件を設定できます：「メール列にZoho.comが含まれている場合、その行を保持する」。
137:: 条件を入力して、対象を選択します。
138:: 「メール」が「Zoho.com」を含む場合

139:: 8. 140:: 詳細141:: オプションでは、関数の挿入や重複を削除するための条件設定が可能です。

142:: 9. 143:: プレビューする144:: ボタンをクリックすると、変換時に削除される行を確認できます。

145:: 10. 146:: Columns to de-複製する147:: の(+)を使い、複数の列を指定して重複排除を実行することも可能です。

148:: 参加する

149:: 共通の列を利用して2つのデータセットを統合する場合は、参加する変換を使用します。150:: こちら151:: から「参加する」変換のクイック動画をご覧いただけます。

例として、店舗の購買データを含むデータセットと、その顧客情報を含む別のデータセットを考えてみましょう。これらのデータセットは、顧客IDのような共通列を使用して結合し、両方のデータセット間のデータを特定・照合できます。

DataPrep では、インナー参加、レフト参加、ライト参加、アウター参加の4種類の参加が利用できます。

参加変換を実行するには：

1. 変換メニューをクリックし、結合をクリックして、参加を選択します。

補足：

アイコンをクリックするか、パイプラインビルダーページのステージを右クリックして、参加変換を選択することもできます。

2. 参加するデータセット ダイアログで、現在のデータセットと参加するデータセットおよび参加の種類を選択します。

3. 参加するデータセットを選択 ドロップダウンから、現在のデータセットと結合したいデータセットを選択します。

参加変換の結果として新しいデータセットが作成されます。

DataPrep は、現在のデータセットとワークスペース内の他のデータセット間の参加可能性を自動的に計算して表示します。参加可能性はパーセンテージ（%）で表示されるため、参加変換用のデータセットが選択しやすくなります。これは、列内の一致データの量や、データセット間の一致する列名など、さまざまな要素を基に計算されます。

4. 参加の種類 オプションから参加の種類を選択します。また、変換パネルの 参加の種類 メニューからも参加の種類を変更できます。

180:: 5. 181:: 新しいデータセットの名前を 182:: 新規データセット名 183:: ボックス（変換パネル内）に入力してください。

184:: 6. 2つのデータセットを結合するために使用したい列を185:: 186:: 一致した列 187:: セクションで選択します。

188:: 重複した列名の解決

189:: 7. 190:: プレビュー 191:: ボタンをクリックします。 192:: 重複した列名の解決 193:: ダイアログが表示されます（同じ名前の列が存在する場合）。重複している列を解決するには名前を変更するか削除する必要があります。

194:: 8. プレビュー画面で、結果データセットに含めたくない列は、列ヘッダーのチェックボックスを使って選択解除できます。

195:: 9. 196:: 結合 197:: をクリックして2つのデータセットを結合します。

198:: 10. 2つのデータセットを正常に結合したら、199:: 開く 200:: をクリックして結合済みデータセットを開けます。

201:: 11. 結合設定を表示したい場合は、202:: データ元設定 203:: を204:: ルールセット 205:: ペイン（結合済みデータセット内）から開くことができます。

206:: 12. 207:: 結合の編集 208:: をクリックして、結合設定を更新することもできます。

209:: 結合は一般的に、共通の商品に基づいて2つの異なるデータセットを組み合わせる際に使用されます。各種の結合について例を見ていきましょう。

210:: 内部結合

211:: 内部結合は共通の列を使って2つのデータセットを結合し、一致しない行はすべて破棄されます。

212:: 内部結合のイメージは以下の通りです。

213:: 次のデータセット例を見てみましょう。

214:: 注文データセット

215:: 顧客 dataset

216:: 順番 ID 217:: は共通の列です。218:: Inner 参加する 219:: は、順番ID列で値が一致した2つのデータセットの行を結合し、一致しなかった値は220:: 注文 221:: および 222:: 顧客 223:: データセットの両方から削除しました。

224:: Left 参加する

Left 参加するは、現在のデータセットと他のデータセットを共通の列で結合し、他方のデータセットで一致しない行をすべて削除します。

Left 参加するは次のように表せます:

以下のデータセットを例に見てみましょう:

注文 dataset

顧客 dataset

Left 参加する では、順番ID列で値が一致した2つのデータセットの行が結合され、一致しなかった値は顧客データセットからのみ削除されました。

Right 参加する

Right 参加するは、現在のデータセットと他のデータセットを共通の列で結合し、現在のデータセットで一致しない行をすべて削除します。

Right 参加するは次のように表せます:

以下のデータセットを例に見てみましょう:

注文 dataset

顧客 dataset

右参加するでは、2つのデータセットの順番ID列で一致する値を持つ行が結合されます。一致しない値は注文データセットからのみ破棄されます。

外部参加する

外部参加するは、共通の列を使って2つのデータセットを結合し、両方のデータセットからすべての行を含めます。一致しない行もすべて含まれます。外部参加するは、次のように表せます。

次のデータセットを例に見てみましょう。

注文データセット

顧客データセット

外部参加するでは、2つのデータセットの順番ID列で一致する値を持つ行が結合されます。一致しない値も、注文と顧客の両方のデータセットに保持されます。

追加

DataPrepでは、Append変換を使用して、1つのデータセットを別のデータセットに追加し、新規データセットを作成できます。Append変換のクイックビデオはこちらをクリックしてご覧ください。

データセットを追加するには

1. Transformメニューをクリックし、Combineをクリックして、Appendを選択します。

情報: できることまたはをクリックしてください

アイコン、またはパイプラインビルダー画面でステージを右クリックし、Append 変換を選択してください。

2. Append dataset ダイアログで、できること追加したいデータセットを現在のデータセットに選択できます。

Append変換の結果として新規データセットが作成されます。

3. 新規データセットの名前を新規データセット名ボックスに入力してください（変換パネル内）。

4. DataPrepは2つのデータセットの列名を比較し、一致しない列を表示しますので、含めるか除外するかを選択できます。一致した列については、受信データが該当列の直下に追加されます。

5. プレビューするボタンをクリックすると、DataPrepがAppend変換の有効なプレビューを表示します。

6. Appendをクリックして変換を適用します。2つのデータセットの行を結合できたら、開くをクリックして結合されたデータセットを表示します。

7. Append設定を編集したい場合は、できること Data データ元設定を新しく作成されたデータセットのRulesetパネルから開いて、設定を編集できます。

ピボット

ピボットテーブルは、データの把握を容易にするために、データを分配します。カテゴリを列に変換することで、長く複雑なテーブルのデータを整理して表示します。ピボットは、列、行、データ項目を選択することで作成できます。ピボット変換のクイックビデオはこちらをクリックしてご覧ください。

ピボット変換を適用するには

1. Transform メニューをクリックし、Pivotオプションを選択します。Pivotペインがスライドして開き、表示されます。

情報: アイコンをクリックするか、パイプラインビルダーページのステージ上で右クリックし、Pivot変換を選択することもできます。

2. 変換したい項目を Columnsセクションで列として選択します。行として表示したい項目をRowsセクションで選択し、データとして表示する項目をDataセクションで選択します。関数についての詳細は

メモ: Dataセクションでは数値データを含む項目のみ選択できます。

3. 必要に応じてフィルタータブを選択し、フィルターを適用できます。フィルターを使用することで、指定した条件に基づいて一部の列やその他の列に対してデータを絞り込めます。フィルターについて詳しく知りたい場合はこちらをクリックしてください。

4. 並べ替えるタブを選択すると、列や行の順序を変更できます。Pivotタブで追加した項目も並べ替えるタブに表示されます。By rowsおよびBy columnsセクションを使って、行や列ごとにデータを並べ替えられます。

データは昇順や降順で並べ替えることができ、またBy columnsやBy rowsセクションで設定を選択してカスタム並べ替えも行えます。

プレビューするボタンをクリックするとテーブルのプレビューを表示できます。リセットするをクリックすると、初期設定（昇順）に戻ります。

例として、By columnsセクションの「商品カテゴリー」と「Region」項目でAscendingおよびDescending設定を選択し、By rowsセクションの顧客名フィルターでAscendingオプションを選択して営業データを並べ替えることができます。並べ替え後のデータは下記のプレビューのようになります。

カスタムオプションを選択して並び順をカスタマイズすることもできます。ドラッグ＆ドロップや上下の矢印を使用して、行や列の順序を調整できます。

メモ: フィルター機能や並べ替え機能は任意で使用できます。

5. Dataセクションに項目を追加し、集計関数のいずれかを選択できます。関数は、追加した項目のデータの種類に応じて合計、件数、平均などを取得できます。各データの種類で利用可能な関数の一覧は下表をご参照ください。

データ型	関数
番号	合計最大最小平均標準偏差中央値最頻値パーセンタイル分散件数 Distinct 件数
テキスト	件数 Distinct 件数
日付	件数 Distinct 件数最大日付最小日付
リスト	件数 Distinct 件数
マップ	件数 Distinct 件数

メモ: list データの種類の関数は値に対して件数を算出し、 map データの種類の関数はキーに対して件数を算出します。

6. 「 プレビューする 」ボタンをクリックすると、DataPrepでピボット変換の有効なプレビューが表示されます。

7. Columns ボックスで2つ以上の項目が選択されている場合、列名はダッシュまたはハイフン（-）で結合されます。

8. 新しいデータセットでは、ルールセット ペインからデータソース設定を開き、ピボット設定を編集できます。

9. Pivot をクリックして、ピボット設定をデータセットに適用します。

アンピボット

アンピボットは、列を行に変換します。アンピボット変換はデータを集約するのに便利で、しばしば分析ソフトウェアへエクスポートされ、レポートやダッシュボードの作成に利用されます。変換が適用されると、結果は新規データセットとして保存されます。

アンピボット変換を適用するには:

1. Transform メニューをクリックし、Unpivot オプションを選択します。

情報: できることは、

アイコンをクリック、またはPipelineビルダーページでステージを右クリックし、Unpivot 変換を選択します。

2. 新規データセットの名前を新規データセット名項目に入力します。

3. Columns to 適用するボックスでアンピボットする列を選択します。これらの列が行に変換されます。

4. 選択した列の列ヘッダーを使用して新しい列が作成されます。その新しい列の名前を 列名 for ヘッダー項目に入力します。

5. 選択した列の値は別の列に追加されます。この列の名前を列名 for values項目に入力してください。

6. プレビューするボタンをクリックすると、DataPrepが変換の有効なプレビューを表示します。

7. 適用するをクリックし、アンピボット変換を適用します。

Formula 列

新しく作成する列をFormula列変換でカスタマイズできます。Zoho DataPrepは多様な関数を提供しており、用途に合わせて利用できます。こちらをクリックすると関数の詳細をご覧いただけます。

フォーミュラ列を作成するには

1. Transformメニューをクリックし、Formula列オプションを選択します。

2. 新しい列の名前を新規列名項目に入力します。

3. Formula項目で関数名を入力して関数を挿入するか、IntelliSenseを使用して関数を補完できます。また、クリックして関数を挿入セクションでフィルターや関数の検索も可能です。

4. OpenAI ChatGPTタイルをクリックして、ChatGPTにプロンプトを送信しフォーミュラを生成することもできます。こちらをクリックして詳細をご確認ください。

5. フォーミュラにパラメーターを追加したり、IntelliSenseで列を選択することができます。クリックして列を挿入セクションで列名の検索も可能です。

6. DataPrepは、プレビューするボタンをクリックすると、数式に加えた変更の有効なプレビューを表示します。

7. 変更を適用するには、適用するをクリックします。

派生データセットの作成

派生データセット変換では、データセット内の最後に適用された変換からデータセットの分岐を作成できます。新しいデータセットは、データの最新の状態を持ち、ルールセットは空の状態となります。

派生データセットの作成手順

1. 変換メニューをクリックし、派生データセットを選択します。

2. 新規データセット名項目に派生データセットの名前を入力してください。

3. 適用するをクリックして、派生データセットを作成します。

派生データセットの作成が完了しました。新しく作成されたデータセットは、データの最新状態と空のルールセットを持ちます。

4. 開くをクリックして、新しいデータセットの利用を開始できます。

5. 派生データセット内のデータ元設定をクリックすると、親データセットのデータ元詳細を表示できます。

個人情報として設定

個人情報（Personally Identifiable Information）や個人データ、電子的保護対象医療情報（ePHI）を含む列は、個人情報および電子的保護対象医療情報（ePHI）データとして設定変換を利用して設定できます。また、データ保護のために各列にセキュリティ方法を適用したり、エクスポート時にこれらの列を含めるか除外するかを選択することも可能です。

個人情報データや個人データを含む列を設定する方法

1. Transform メニューをクリックし、 設定個人情報 and 電子的保護対象医療情報（ePHI） data オプションを選択します。

また、列を右クリックし、設定個人情報 and 電子的保護対象医療情報（ePHI） dataオプションをコンテキストメニューから選択することもできます。

2. personal data 列を 設定 columns with personal data セクションに追加します。

3. 「 適用する」をクリックして、選択した列を個人情報として設定します。

電子的保護対象医療情報（ePHI）データや健康データを列に設定する方法

1. Transformメニューをクリックし、個人情報および電子的保護対象医療情報（ePHI）データの設定オプションを選択します。

情報: 列を右クリックし、コンテキストメニューから個人情報および電子的保護対象医療情報（ePHI）データの設定オプションを選択することも可能です。

2. 電子的保護対象医療情報（ePHI）データの列を設定セクションに、健康データを含む列を追加します。

3. 適用するをクリックして、選択した列を電子的保護対象医療情報（ePHI）データの列として設定します。

エクスポート時に個人情報または電子的保護対象医療情報（ePHI）データを保護する方法

1. Pipeline Builderページで、データフローの作成と必要な変換処理の適用が完了したら、ステージを右クリックし、 宛先を追加 オプションを選択します。

2. サイドペインから、エクスポート先を選択します。例えば、今回は Files をエクスポート先として選択します。

3. 個人データまたは電子的保護対象医療情報（ePHI）データを含む列を、エクスポート時に該当するチェックボックスで選択します。

メモ : 個人データまたは電子的保護対象医療情報（ePHI）データとしてマークされていない列は、初期設定で含まれます。

4. 必須のセキュリティ方式をドロップダウンから選択し、個人データを保護します。その後、次へをクリックします。

個人データまたは電子的保護対象医療情報（ePHI）データのカラムに申請済みのセキュリティ対策は3つあります。これらのセキュリティ対策は、個人情報などの機微なデータを保護するために使用中です。

個人データまたは電子的保護対象医療情報（ePHI）データを保護するセキュリティ対策

1. データマスキング

データマスキングは元の内容データを「x」で隠し、個人情報を保護します。

2. データトークナイゼーション

データトークナイゼーションは、データ内の各固有の値をランダムな値に置き換え、出力を元の内容データと統計的に同一にします。

3. なし

セキュリティ対策を使用しない場合はなしを選択できます。

メモ :
1. 個人データを保護せずにデータセットをエクスポートすることは、安全なデータエクスポートオプションが組織のプライバシー設定で有効になっている場合、制限されます。こちらをクリックして詳細をご確認ください。
2. 組織のコンプライアンス設定に基づき、電子的保護対象医療情報（ePHI）データを含むデータセットのエクスポートが制限される場合や、セキュリティ対策およびパスワード保護なしで電子的保護対象医療情報（ePHI）データをエクスポートすることが制限される場合があります。詳細はこちら

5. 必須の値を入力し、クリック エクスポートする。

メモ: すべてのワークスペースで個人データや電子的保護対象医療情報（ePHI）がどのように保護されているかは、 すべてのワークスペースで個人データを確認する セクションで確認できます。クリックこちらから詳細をご覧ください。

関連情報

Zoho DataPrep でのデータ準備の仕組み