クラスタリングとマージ
クラスタリングとマージ
お知らせ:
当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の
英語版
を参照してください。
Zoho DataPrepは、
Cluster & Merge
変換を使用してファジーマッチングを実行できます。この変換を使用すると、ユーザーが必要とするバージョンに合わせて、表記の異なるデータの複数バージョンを置き換えることができます。
例:
以下の国名がすべてデータ内に存在する場合:U。S.、U。S。A.、USA.
これらはすべて同じ国を指しています。すべてのバリエーションを「USA」という1つの表記に置き換えることができます。
この変換は、データ内のスペルミスを削除したり、列のデータを統一したりする際にも利用できます。
特に、複数のデータソースから取得したデータのクリーニングや準備に役立ちます。
Cluster & Merge の実行方法
1. 列を右クリックし、コンテキストメニューから
Cluster & Merge
オプションを選択します。
2. データ内のクラスタを見つけるため、以下の言語モデルアルゴリズムのいずれかを選択します:
Metaphone
Fingerprint
n-gram
Metaphoneアルゴリズムは発音によって単語をグループ化し、クラスタを見つける際の初期設定アルゴリズムとして使用されます。
Fingerprintおよびn-gramアルゴリズムは、列データ内のスペルミスをチェックし、テキストの不一致を解決するために使用されます。
「N」値は、クラスタ内で連続して現れるN単語のシーケンスを表します。
例として、n-gramサイズが「Zoho」の場合は1-gram、「Zoho Corporation」は2-gramとなります。
2.
変換パネル
には、認識されたすべてのクラスタがカード形式で表示されます。
3. チェックボックスを使って置き換えたい項目を選択します。
4. 各カード内のテキストボックスを使用して新しい値を入力します。この値が、列内で選択中の商品を置き換えます。
右上隅(青色のしおり付き)のチェックボックスを使って、クラスターカードの選択を解除できます。
フィルターを適用する方法
この変換とあわせてフィルターを適用したい場合は、フィルター機能を利用できます。
1.
フィルター
タブをクリックします。
2.
アイコンをクリックし、
フィルター
セクションに必要な列を追加します。ドラッグ&ドロップでフィルターの並び替えも可能です。
3. 頻度列が追加された場合、ドロップダウンから以下のいずれかの設定を選択できます:
Actual:このオプションは、列の実際の値に基づいて行をフィルタリングできます。詳細については、
こちら
をクリックしてください。
Data 品質:このオプションは、列内データの品質に基づいて行をフィルタリングできます。詳細については、
こちら
をクリックしてください。
Patterns:このオプションは、選択した列のデータパターンに基づいて行をフィルタリングするのに役立ちます。詳細については、
こちら
をクリックしてください。
Outliers:このオプションは、選択した列のデータ内に存在する外れ値に基づいて行をフィルタリングできます。詳細については、
こちら
をクリックしてください。
メモ:フィルター設定は、フィルターに追加された列のデータ型に基づいて表示されます。
4.
フィルター
セクションに複数のフィルターを追加すると、フィルターの横に論理演算子(AND または OR)が表示されます。クリックして論理演算子を AND と OR の間で切り替えることができます。
論理演算子を使用して条件を組み合わせ、優先順位のルールに従ってロジックを適用できます。最終的な式は
条件式
ボックスに表示されます。
編集
をクリックして、論理演算子やかっこを使用し、優先順位や評価する順番を指定して初期設定の式を変更できます。必須の変更を加えた後に
保存
をクリックしてください。
例:((1 OR 2) AND (3 OR 4)) という式の場合、まず (1 OR 2) の条件が実行され、次に (3 OR 4) の条件が実行されます。三番目に AND 演算子が使われているため、両方の条件が真である場合にフィルターが適用されます。
5. 各フィルターで選択したフィルターオプションに基づき、次のセクションでさらに特定の値を選択して絞り込むことができます。
例:上記のスクリーンショットでは、
Data 品質
オプションが
フィルター
セクションのすべての列フィルターに選択されています。この選択に基づき、
すべての列 (Data 品質)
セクションにて、フィルターする特定値のさらなる設定が表示されます。
6. 最後のセクションで、選択した項目を含めるか除外するかを選択できます。
7. 何らかの理由ですべてのフィルターを削除したい場合は、
クリア
ボタンを使用できます。
8. フィルター変換の有効なプレビューが、変更を加えるごとに表示されます。
9.
適用する
ボタンをクリックして、フィルターとともに変換を適用します。
制限事項
Zoho DataPrep では、変換を適用するたびに最大50個のクラスタまで識別できます。ただし、必要に応じて何度でも変換を適用できます。
関連情報
データの検索と置き換え方法
Smart selectionの詳細はこちら