お知らせ:当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の
英語版を参照してください。
データセット変換は、データセットを組み合わせたり変換したりしてニーズに合わせる操作です。以下の変換をデータセットに適用できます。
- 重複排除
- 参加
- 追加
- ピボット
- アンピボット
- 計算列
- データセットの派生
- 個人データとして設定
すべてのデータセット変換は、画面上部の棒グラフ変換メニューに表示されています。
重複排除
重複排除変換を使うことで、データ内の重複データを削除できます。これは、行単位または列単位の2通りの方法で実行できます。
行単位
この方法では、重複するデータを含む行を削除し、一意な行のみがデータセットに残ります。
行単位の重複排除を適用するには:
1. 変換メニューをクリックし、重複排除をクリック、行単位を選択します。
2. 行の重複を削除する際に、大文字小文字や空白を無視するかどうかを選択できます。
メモ: サンプルデータセット内で重複が見つからない場合もありますが、ルールを適用しておけば、データ全体がエクスポート時に処理される際に重複行を削除できます。
3. 有効なプレビューが表示され、重複する行は赤色でハイライトされます。
4. 重複を削除をクリックします。
列単位
列を1つまたは複数選択し、重複排除を選ぶこともできます。この変換は、選択した列に存在する重複値に基づいて行を削除します。
列単位の重複排除を適用するには:
1. 変換メニューをクリックし、重複排除をクリック、列単位を選択します。
2. 重複を見つけるために、大文字小文字や空白を無視するかを選択できます。
3. 選択した列に基づき、2つの方法のいずれかでデータセットを重複排除できます: 自動重複排除または手動条件。
4. 自動重複排除方法を選択すると、DataPrepが指定した列に基づきデータを自動的に重複排除します。
5. 手動条件方式を選択した場合は、条件や式を入力し、ifステートメントを組み立てます。その上で、条件が真の場合、重複クラスタ内で保持する行や削除する行を選択できます。
6. 下記の表は、すべてのデータ型で利用可能な
If 条件を一覧で示しています。データ型の詳細については、
こちらをクリックしてください。
テキスト |
数値 |
日時 |
期間 |
ブール値 |
リスト |
マップ |
含む |
=次の値と等しい |
= 次の値と等しい |
最小である |
真である |
値がある |
キーがある |
含まれていない |
!= not 次の値と等しい |
!= not 次の値と等しい |
最大である |
無効である |
リストが空である |
マップが空である |
で始まる |
> その他以外 |
最も早い |
= 次の値と等しい |
を含む |
が次の値と等しくない 空である list |
が次の値と等しくない 空である map |
で終わる |
< 次の値より小さい |
最新である |
!= not 次の値と等しい |
含まれていない |
is cell 空である |
is cell 空である |
である |
以上またはその他 |
が次の後である |
セルが空である |
で始まる |
セルが空でない |
セルが空でない |
が次の値と等しくない |
<= 次の値以下 |
が次の前 |
セルが空でない |
で終わる |
regexを使用 |
regexを使用 |
セルが空である |
最小である |
オン または 次の後 |
regex を使用 |
である |
patterns を使用 |
patterns を使用 |
セルが空でない |
最大である |
オン または 次の前にある |
パターンを使用する |
次の値と等しくない |
|
|
使用する regex |
is cell 空である |
is cell 空である |
|
is cell 空である |
|
|
使用するパターン |
セルが空でない |
セルが空でない |
|
セルが空でない |
|
|
|
使用する regex |
使用する regex |
|
使用する regex |
|
|
|
使用する patterns |
使用する patterns |
|
使用する patterns |
|
|
7. AND および OR 演算子を使用して、さらに条件を追加し、条件の組み合わせで重複排除を適用できます。
例として、次のような条件を記述できます。「メール列にZoho.comが含まれている場合、その行を保持する」、つまり、
条件を入力してどれを選択するか指定します。
メールにZoho.comが含まれる場合
8. 詳細オプションでは、関数を挿入し、条件を指定して重複データを削除できます。
9. プレビューするボタンをクリックすると、変換時に削除される行を確認できます。
10. Columns to de-複製するの (+) を使って、複数列を選択して重複排除することも可能です。
参加する
共通の列を使い、2つのデータセットを参加する変換で結合できます。
こちらをクリックすると、参加する変換のクイック動画をご覧いただけます。
例として、店舗の購入データを含むデータセットと、顧客情報を含む別のデータセットを考えてみましょう。これらのデータセットは、顧客IDのような共通の列を使って結合し、両方のデータセットからデータを特定・照合できます。
DataPrepでは、4種類の結合(inner参加する、left参加する、right参加する、outer参加する)を提供しています。
参加する変換を実行するには:
1. Transformメニューをクリックし、Combineをクリック、次に参加するを選択します。
ヒント: アイコンをクリックするか、パイプラインビルダーページのステージを右クリックして、参加する変換を選択することもできます。

2. 参加するデータセットダイアログで、結合したいデータセットと結合の種類を選択できます。
3. 選択する a dataset to 参加するドロップダウンを使用して、現在のデータセットと結合したいデータセットを選択します。
参加する変換の結果、新しいデータセットが作成されます。
DataPrepは、現在のデータセットとワークスペース内の他のデータセット間の結合可能性を自動的に計算し表示します。結合可能性は割合(%)で表示されるため、どのデータセットと結合するか簡単に選択できます。この値は、列内の一致データの量や、データセット間の列名の一致など、さまざまな要素に基づいて計算されます。
4. 参加する 種類オプションで結合の種類を選択します。Transformパネル内の参加する 種類メニューからも結合の種類を変更できます。
5. Transformパネルの 新規dataset名前ボックスに、新しいdatasetの名前を入力してください。
6. 2つのdatasetを結合するために使用したい列を照合済みcolumnsセクションで選択します。
重複する列名の解決
7. プレビューする ボタンをクリックします。 重複する列名の解決 ダイアログは、同じ名前の列が存在する場合に表示されます。重複する列を解決するために、名前を変更するか削除する必要があります。
8. プレビュー画面では、列ヘッダーにある利用可能なチェックボックスを使って、結果のdatasetに含めたくない列の選択を解除できます。
9. 参加するをクリックして、2つのdatasetを結合します。
10. 2つのdatasetの結合が正常に完了したら、開くをクリックして結合済みdatasetを表示できます。
11. 結合の設定を表示したい場合は、結合済みdatasetのRulesetペインからDataデータ元設定を開くことができます。
12. また、編集 参加するをクリックして結合設定を更新できます。
結合は通常、共通項目で2つの異なるdatasetを組み合わせるために使用します。各種類の結合とその例について見ていきましょう。
Inner 参加する
Inner 参加するは、共通する列を用いて2つのdatasetを結合し、一致しない行はすべて除外します。
Inner 参加するは次のように表せます。
次のdatasetの例を見てみましょう。
注文 dataset
顧客 dataset
順番 ID は共通の列です。Inner 参加する は、2つのデータセットにおいて順番 ID 列で値が一致した行を結合し、一致しなかった値は注文および顧客データセット双方から除外しました。
Left 参加する
Left 参加するは、現在のデータセットと他のデータセットを共通の列で結合し、他のデータセット側で一致しなかった行をすべて除外します。
Left 参加するは次のように表せます:
以下のデータセットを例に説明します:
注文データセット
顧客データセット
Left 参加するでは、順番 ID 列で値が一致した2つのデータセットの行を結合します。一致しなかった値は顧客データセット側のみ除外されます。
Right 参加する
Right 参加するは、現在のデータセットと他のデータセットを共通の列で結合し、現在のデータセット側で一致しなかった行をすべて除外します。
Right 参加するは次のように表せます:
以下のデータセットを例に説明します:
注文データセット
顧客データセット
Right 参加するでは、順番 ID 列で値が一致した2つのデータセットの行を結合します。一致しなかった値は注文データセット側のみ除外されます。
Outer 参加する
外部参加(outer 参加する)は、共通の列を使って2つのデータセットを結合し、両方のデータセットからすべての行(未一致の行も含む)を取り込みます。外部参加は次のように表現できます。
次のデータセットの例を見てみましょう。
注文データセット
顧客データセット
Outer 参加するは、順番ID列で共通の値を持つ2つのデータセットの行を結合します。一致しなかった値も注文と顧客データセットの両方から保持されます。
追加
DataPrepでは、1つのデータセットを別のデータセットに追加して、Append変換を使って新しいデータセットを作成できます。Append変換の簡単な動画を
こちらからご覧いただけます。
データセットを追加する手順
1.変換メニューをクリックし、結合をクリック、続いて追加を選択します。
情報: また、
アイコンをクリックするか、パイプラインビルダーページ内のステージを右クリックして追加変換を選択することもできます。

2. 追加データセット ダイアログで、現在のデータセットに追加したいデータセットを選択できます。
追加変換の結果として新しいデータセットが作成されます。
3.新規データセットの 新規データセット名ボックスに名前を入力します(変換パネル内)。
4. DataPrepは2つのデータセットの列名を比較し、一致しない列を表示します。必要に応じて、含めるか除外するか選択できます。一致した列については、受信データが該当列の直下に直接追加されます。
5. プレビューするボタンをクリックすると、DataPrepが有効な追加変換のプレビューを表示します。
6. Appendをクリックして変換を適用します。2つのデータセットの行を追加して正常に結合できたら、開くをクリックして結合済みデータセットを表示します。
7. 追加設定を編集したい場合は、新しく作成したデータセットのRulesetペインからData データ元設定を開き、設定を編集できます。
ピボット
ピボットテーブルはデータを分かりやすく分配します。カテゴリを列に変換し、長く複雑なテーブルを整理してデータを展開します。ピボットは
列、
行、
データ項目を選択して作成できます。ピボット変換の短い動画は
こちらからご覧いただけます。
ピボット変換を適用するには
1.Transformメニューをクリックし、Pivotオプションを選択します。Pivotペインがスライドして開き、表示されます。
情報: パイプラインビルダーページで
アイコンをクリックするか、ステージを右クリックしてPivot変換を選択することもできます。

2. 変換したい受注データ[パッケージ]データの項目を、Columnsセクションにドラッグします。行として表示したい項目を Rows セクションに、データとして集計したい項目を Data セクションにそれぞれ選択してください。各機能について詳しくはクリックしてください。
メモ: Dataセクションには数値データを持つ項目のみ選択できます。
3.
必要に応じて フィルター タブを選択し、フィルターを適用できます。フィルターを使用することで、複数または他のカラムの条件に基づいてデータを絞り込むことが可能です。フィルターについて詳しくは こちら をご覧ください。
4. 列や行の順序を変更したい場合は、並べ替える タブを選択します。Pivot タブに追加した項目は並べ替える タブにも表示されます。By rows およびBy columns セクションを使って、行または列ごとにデータを並べ替えることができます。
By columns およびBy rows セクションで設定を選択することで、昇順・降順やカスタム順でデータを並べ替えることができます。
プレビューする ボタンをクリックするとテーブルのプレビューを表示できます。リセットする をクリックすると、初期設定(昇順)に戻せます。
例として、By columns セクションで商品カテゴリーおよびRegion項目にAscending やDescending 設定を適用し、By rows セクションの顧客名フィルターにAscending オプションを選択して営業データを並べ替えることができます。並べ替え後のデータは、下記のプレビューのように表示されます。
並べ替えのカスタマイズが必要な場合は、カスタム オプションを選択してください。行や列の順序は、ドラッグ&ドロップや上下の矢印を使って変更できます。
メモ: フィルターおよび並べ替える機能は任意で利用できます。
5. Data セクションに項目を追加し、集計関数を選択できます。関数は、追加した項目のデータ種類に応じて合計、件数、平均などを取得できます。各データ種類ごとに利用可能な関数の一覧は、下記の表をご覧ください。
データ型
|
関数
|
番号
|
合計
最大
最小
平均
標準偏差
中央値
最頻値
パーセンタイル
分散
件数
Distinct 件数
|
テキスト
|
件数
Distinct 件数
|
日付
|
件数
Distinct 件数
最大 日付
最小 日付
|
リスト
|
件数
Distinct 件数
|
マップ
|
件数
Distinct 件数 |
メモ: リスト データの種類 件数 の関数は値に対して、 マップ データの種類 件数 の関数はキーに対して使用されます。
6. 「 プレビューする」ボタンをクリックすると、DataPrep でピボット変換の有効なプレビューが表示されます。
7. Columns ボックスで 2 つ以上の項目が選択されている場合、列名はダッシュまたはハイフン(-)で結合されます。
8. 新しいデータセットでは、ルールセット ペインのデータソース設定からデータを開き、ピボット構成を編集できます。
9. Pivot をクリックすると、データセットにピボット構成が適用されます。
アンピボット
アンピボットは、列を行に変換します。アンピボット変換はデータを簡素化するのに便利で、データはよくエクスポート済みの状態で分析ソフトウェアへ取り込まれ、レポートやダッシュボードの作成に利用されます。変換の適用後は新規データセットとして保存されます。
1. Transformメニューをクリックし、Unpivotオプションを選択します。
情報: また、
アイコンをクリックするか、Pipelineビルダー画面上のステージを右クリックして、Unpivot変換を選択できます。

2. 新規データセット名前項目で新しいデータセットの名前を入力してください。
3. Columns to 適用するボックスでアンピボットする列を選択します。選択した列が行に変換されます。
4. 選択した列の列ヘッダーを使用して新しい列が作成されます。この新しい列の名前を 列名前 for ヘッダー 項目で入力してください。
5. 選択した列の値は、別の列に追加されます。この列の名前を列名前 for values項目で入力してください。
6. プレビューするボタンをクリックすると、DataPrep が変換の有効なプレビューを表示します。
7. 適用するをクリックし、アンピボット変換を適用します。
Formula列変換を使って新しい列を作成し、カスタマイズできます。Zoho DataPrepでは、さまざまな関数が用意されています。こちらをクリックして、利用可能な関数について詳しくご確認いただけます。
フォーミュラ列を作成するには
1. Transformメニューをクリックし、Formula列オプションを選択します。
2. 新規列名前項目で新しい列の名前を入力してください。
3. Formula項目で関数名を入力して関数を挿入するか、IntelliSenseを利用して関数を補完できます。また、クリック to insert functionsセクションでフィルターや関数検索も行えます。
4. できることは、
OpenAI ChatGPTタイルをクリックして、ChatGPTにプロンプトを送信しフォーミュラを生成できます。
こちらをクリックして詳細をご覧ください。
5. フォーミュラにパラメーターを追加したり、IntelliSenseを利用して列を選択できます。また、クリックして列を挿入セクションで列名を検索することも可能です。
6. DataPrepは、プレビューするボタンをクリックすると、フォーミュラに適用した変更の有効なプレビューを表示します。
7. 適用するをクリックして、変更を適用します。
派生データセットの作成
派生データセット変換を使用すると、データセット内の最後に適用された変換以降の内容から、データセットの支店を作成できます。新しいデータセットには、最新のデータ状態が空のルールセットとともに適用されます。
派生データセットの作成方法
1. 変換メニューをクリックし、派生データセットオプションを選択します。
2. 新規データセット名項目で、派生データセットの名前を入力してください。
3. 適用するをクリックして、派生データセットを作成します。
これで派生データセットが正常に作成されました。新しく作成されたデータセットには、最新のデータ状態が空のルールセットとともに反映されます。
4. 開くをクリックして、新しいデータセットの利用を開始することもできます。
5. 派生データセット内でData データ元設定をクリックすると、親データセットのデータ元詳細を表示できます。
個人情報として設定
列に個人情報(個人識別情報)や電子的保護対象医療情報(ePHI)データが含まれている場合、個人情報および電子的保護対象医療情報(ePHI)データとして設定変換を利用できます。さらに、データ保護のために列にセキュリティ方法を適用したり、エクスポート時にこれらの列を含めるか除外するか選択できます。
列を個人情報データまたは個人データとして設定する方法
1. Transform メニューをクリックし、設定 個人情報および電子的保護対象医療情報(ePHI)データ オプションを選択します。
または、 列を右クリックして、設定 個人情報および電子的保護対象医療情報(ePHI)データ オプションをコンテキストメニューから選択することもできます。
2. 個人データ列を、設定 columns with personal dataセクションに追加します。
3. クリック 適用する をクリックして 設定した 選択済み 列を個人情報として設定します。
電子的保護対象医療情報(ePHI)データまたは健康データが含まれる列を設定する方法
1. 変換メニューをクリックし、個人情報および電子的保護対象医療情報(ePHI)データを設定オプションを選択します。
情報: 列を右クリックして、コンテキストメニューから個人情報および電子的保護対象医療情報(ePHI)データを設定オプションを選択することもできます。
2. 電子的保護対象医療情報(ePHI)データが含まれる列を設定セクションに、健康データを含む列を追加します。
3. 適用するをクリックして、選択した列を電子的保護対象医療情報(ePHI)データ列として設定します。
エクスポート時に個人情報または電子的保護対象医療情報(ePHI)データを保護する方法
1. Pipeline Builder ページで、データフローの作成が完了し、各ステージに必要な 変換処理 を適用した後、ステージを右クリックして 宛先を追加 オプションを選択できます。
2. サイドパネルから、データをエクスポートしたい宛先を選択できます。 例えば、 今回は Files を宛先として選択します。
3. 個人データまたは電子的保護対象医療情報(ePHI)データを含める必要がある列を選択し、対応するチェックボックスを使用してエクスポート時に含めます。
メモ :個人データまたは電子的保護対象医療情報(ePHI)データとしてマークされていない列は、初期設定で含まれます。
4. ドロップダウンから必要なセキュリティ方法を選択し、個人データを保護するために 「 次へ 」をクリックします。
3つのセキュリティ対策を申請済みの個人データまたは電子的保護対象医療情報(ePHI)データ カラムに適用できます。これらのセキュリティ対策は、個人情報(Personally Identifiable Information(個人情報)などの機微なデータを保護するために使用中です。
個人データまたは電子的保護対象医療情報(ePHI)データを保護するためのセキュリティ対策
1. データマスキング
データマスキングは、元の内容データを「x」で隠し、個人情報を保護します。
2. データトークナイゼーション
データトークナイゼーションは、データ内の各異なる値をランダムな値に置き換え、出力が元の内容データと統計的に同一になるようにします。
3. なし
セキュリティ手法を使用しない場合は、なしを選択できます。
メモ :
1. Secure data exportsオプションが有効な場合、個人データを保護せずにデータセットをエクスポートすることは制限されます。この設定は、組織のプライバシー設定で管理されます。クリックはこちらで詳細を確認できます。
2. 組織のコンプライアンス設定に基づき、電子的保護対象医療情報(ePHI)データを含むデータセットのエクスポートが制限される場合や、電子的保護対象医療情報(ePHI)データをセキュリティ対策およびパスワード保護なしでエクスポートすることが制限される場合があります。詳細はこちら
5. 必須値を入力し、 「エクスポートする」をクリックします。
メモ: 個人データや電子的保護対象医療情報(ePHI)のデータが、すべてのワークスペースでどのように保護されているかを すべてのワークスペースでの個人データの確認 セクションで確認できます。こちらをクリック してください 。詳細はこちら。
関連情報