クラスタリングとマージ

クラスタリングとマージ

お知らせ:当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。





Zoho DataPrep では、Cluster & Merge変換を使ってあいまい一致を実行できます。 この変換を使用すると、表記ゆれのある複数のデータを、ユーザーが指定した 1 つの値にまとめて置き換えることができます。

として、データ内に次の国名がすべて含まれているとします: U.S., U.S.A., USA.
これらはすべて同じ国を指しています。これらの表記ゆれをすべて、1 つの用語「USA」に置き換えるように選択できます。

この変換は、データ内のスペルミスを修正し、列の値の表記を統一する用途にも使用できます。 特に、複数のデータソースから収集したデータをクレンジングおよび準備する際に役立ちます。

Cluster & Merge を実行するには

1. 対象の列を右クリックし、コンテキストメニューからCluster & Mergeオプションを選択します。

2. データ内のクラスタを検出するために、次のいずれかの言語モデルアルゴリズムを選択します。
  1. Metaphone
  2. Fingerprint
  3. n-gram
  1. Metaphone アルゴリズムは、発音に基づいて単語をグループ化し、クラスタ検出に使用される既定のアルゴリズムです。
  2. Fingerprint と n-gram アルゴリズムは、列データ内のスペルミスを検出し、テキストの不一致を解消するために使用されます。
  3. 「N」の値は、クラスタ内で検出される連続した N 個の文字列(n-gram)を表します。
    例として、「Zoho」の n-gram サイズは 1-gram、「Zoho Corporation」は 2-gram などとなります。
2. 変換パネルに、検出されたすべてのクラスタがカード形式で表示されます。

3. チェックボックスを使用して、置き換える項目を選択します。

4. 各カード内のテキストボックスに新しい値を入力します。この値で、列内の選択した項目が置き換えられます。


メモ: i) 必要な値でテキストボックスを埋めるには、コピーして入力オプションを使用することもできます。


ii) 新しいデータを追加オプションを使用して、クラスタに新しい値を手動で追加することもできます。



Infoクラスタカードは、上部(青色でマーク)にあるチェックボックスをオフにすることで選択解除できます。

フィルターを適用するには

この変換とあわせてフィルターを適用したい場合は、フィルター機能を使用できます。

1. フィルタータブをクリックします。

2. アイコンをクリックし、フィルターセクションに必要な列を追加します。ドラッグアンドドロップでフィルターの並び順を変更することもできます。



3. 追加した頻度列については、ドロップダウンから次のいずれかの設定を選択できます。
  1. Actual: このオプションでは、列の実際の値に基づいて行をフィルターできます。詳しくはこちらをご覧ください。
  2. Data 品質: このオプションでは、列内のデータ品質に基づいて行をフィルターできます。詳しくはこちらをご覧ください。
  3. Patterns: このオプションでは、選択した列のデータパターンに基づいて行をフィルターできます。詳しくはこちらをご覧ください。
  4. Outliers: このオプションでは、選択した列のデータに含まれる外れ値に基づいて行をフィルターできます。詳しくはこちらをご覧ください。
メモ: 表示されるフィルター設定は、フィルターに追加した列のデータ型に応じて異なります。

4. フィルターセクションに 2 つ以上のフィルターを追加すると、フィルターの横に論理演算子 AND または OR が表示されます。クリックして AND と OR の間で切り替えることができます。
  1. 論理演算子を使用して条件を組み合わせ、優先順位のルールを決定するロジックを適用できます。最終的な式は[条件式]ボックスに表示されます。[編集]をクリックすると、論理演算子やかっこを使用して既定の式を変更し、どの条件を先に評価するかといった優先順位(評価順)を指定できます。必要な変更を行ったら[保存]をクリックします。
  1. たとえば、式 ((1 OR 2) AND (3 OR 4)) の場合、まず条件 (1 OR 2) が実行され、次に条件 (3 OR 4) が実行されます。最後に AND 演算子が使用されているため、両方の条件が真の場合にフィルターが適用されます。
5. 次のセクションで、各フィルターに対して選択したフィルターオプションに基づき、さらに特定の値を絞り込んで選択できます。



たとえば、上記のスクリーンショットでは、Data 品質オプションがフィルターセクション内のすべての列フィルターに対して選択されています。これに基づき、特定の値をさらにフィルターするための設定が、すべての列(Data 品質)セクションに表示されます。

6. 最後のセクションで、選択した項目を含めるか除外するかを選択できます。

7. 何らかの理由で、すべてのフィルターを削除したい場合は、[クリア]ボタンを使用します。

8. 変更内容に応じて、フィルター変換のライブプレビューが表示されます。

9. [適用]ボタンをクリックして、フィルターとともに変換を適用します。



制限事項

Zoho DataPrep が 1 回の処理で識別できるクラスタの最大数は 300 個です。

関連情報