クラスタリングとマージ
クラスタリングとマージ
お知らせ:
当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の
英語版
を参照してください。
Zoho DataPrep では、
Cluster & Merge
変換を使ってあいまい一致を実行できます。
この変換を使用すると、表記ゆれのある複数のデータを、ユーザーが指定した 1 つの値にまとめて置き換えることができます。
例
として、データ内に次の国名がすべて含まれているとします: U.S., U.S.A., USA.
これらはすべて同じ国を指しています。これらの表記ゆれをすべて、1 つの用語「USA」に置き換えるように選択できます。
この変換は、データ内のスペルミスを修正し、列の値の表記を統一する用途にも使用できます。
特に、複数のデータソースから収集したデータをクレンジングおよび準備する際に役立ちます。
Cluster & Merge を実行するには
1. 対象の列を右クリックし、コンテキストメニューから
Cluster & Merge
オプションを選択します。
2. データ内のクラスタを検出するために、次のいずれかの言語モデルアルゴリズムを選択します。
Metaphone
Fingerprint
n-gram
Metaphone アルゴリズムは、発音に基づいて単語をグループ化し、クラスタ検出に使用される既定のアルゴリズムです。
Fingerprint と n-gram アルゴリズムは、列データ内のスペルミスを検出し、テキストの不一致を解消するために使用されます。
「N」の値は、クラスタ内で検出される連続した N 個の文字列(n-gram)を表します。
例として、「Zoho」の n-gram サイズは 1-gram、「Zoho Corporation」は 2-gram などとなります。
2.
変換
パネル
に、検出されたすべてのクラスタがカード形式で表示されます。
3. チェックボックスを使用して、置き換える項目を選択します。
4. 各カード内のテキストボックスに新しい値を入力します。この値で、列内の選択した項目が置き換えられます。
メモ: i) 必要な値でテキストボックスを埋めるには、
コピーして入力
オプションを使用することもできます。
ii)
新しいデータを追加
オプションを使用して、クラスタに新しい値を手動で追加することもできます。
クラスタカードは、上部(青色でマーク)にあるチェックボックスをオフにすることで選択解除できます。
フィルターを適用するには
この変換とあわせてフィルターを適用したい場合は、フィルター機能を使用できます。
1.
フィルター
タブをクリックします。
2.
アイコンをクリックし、
フィルター
セクションに必要な列を追加します。ドラッグアンドドロップでフィルターの並び順を変更することもできます。
3.
追加した頻度列については、ドロップダウンから次のいずれかの設定を選択できます。
Actual: このオプションでは、列の実際の値に基づいて行をフィルターできます。詳しくは
こちら
をご覧ください。
Data 品質: このオプションでは、列内のデータ品質に基づいて行をフィルターできます。詳しくは
こちら
をご覧ください。
Patterns: このオプションでは、選択した列のデータパターンに基づいて行をフィルターできます。詳しくは
こちら
をご覧ください。
Outliers: このオプションでは、選択した列のデータに含まれる外れ値に基づいて行をフィルターできます。詳しくは
こちら
をご覧ください。
メモ: 表示されるフィルター設定は、フィルターに追加した列のデータ型に応じて異なります。
4.
フィルター
セクションに 2 つ以上のフィルターを追加すると、フィルターの横に論理演算子 AND または OR が表示されます。クリックして AND と OR の間で切り替えることができます。
論理演算子を使用して条件を組み合わせ、優先順位のルールを決定するロジックを適用できます。最終的な式は
[条件式]
ボックスに表示されます。
[編集]
をクリックすると、論理演算子やかっこを使用して既定の式を変更し、どの条件を先に評価するかといった優先順位(評価順)を指定できます。必要な変更を行ったら
[保存]
をクリックします。
たとえば、式 ((1 OR 2) AND (3 OR 4)) の場合、まず条件 (1 OR 2) が実行され、次に条件 (3 OR 4) が実行されます。最後に AND 演算子が使用されているため、両方の条件が真の場合にフィルターが適用されます。
5. 次のセクションで、各フィルターに対して選択したフィルターオプションに基づき、さらに特定の値を絞り込んで選択できます。
たとえば、上記のスクリーンショットでは、
Data 品質
オプションが
フィルター
セクション内のすべての列フィルターに対して選択されています。これに基づき、特定の値をさらにフィルターするための設定が、
すべての列(Data 品質)
セクションに表示されます。
6. 最後のセクションで、選択した項目を含めるか除外するかを選択できます。
7. 何らかの理由で、すべてのフィルターを削除したい場合は、
[クリア]
ボタンを使用します。
8. 変更内容に応じて、フィルター変換のライブプレビューが表示されます。
9.
[適用]
ボタンをクリックして、フィルターとともに変換を適用します。
制限事項
Zoho DataPrep が 1 回の処理で識別できるクラスタの最大数は 300 個です。
関連情報
データの検索と置換を行うには
Smart selection の詳細