クラスタ分析

お知らせ：当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。

クラスタリングは、データ分析で使用される手法で、特定の要因や類似性に基づいて、似たデータポイント同士をグループ化するものです。各クラスタには、他のクラスタ内のデータポイントよりも互いに類似したデータポイントが含まれます。Zoho 分析では、データポイントをグループ化するためにK-means、K-modes、およびK-prototypeアルゴリズムを使用します。

主な利用ケース

顧客セグメンテーション:顧客は、デモグラフィック、地域、各種属性などのさまざまな要因に基づいてグループ化できます。グループ化することで、企業は営業・マーケティング施策を最適化・戦略化し、売上やリテンションの向上につなげることができます。

在庫管理:効率的な在庫管理は、サプライチェーンの円滑化に役立ちます。クラスタリングにより、商品の購入に関する季節的な傾向や需要の高い商品を特定し、在庫をより適切に管理できます。

注意事項

クラスタリングには、最低 5 個のデータポイントが必要です。
クラスタ分析は、散布図、棒グラフ、バブルチャートでサポートされています。
クラスタ分析は、予測、トレンド折れ線グラフ、異常値分析ではサポートされていません。

クラスタ分析を適用する方法

クラスタ分析を実行するには、ツールバーの分析アイコンをクリックし、ドロップダウンメニューからクラスタ分析を選択します。
表示されるクラスタ分析ダイアログで、クラスタを追加をクリックします。
アルゴリズムモデルは、レポートで使用されている列に基づいて自動的に選択されます。
「要因」とは、データポイントをグループ化する基準となる列です。列は選択されたモデルに基づいて一覧表示されます。データ内で利用可能な数値列はK-means用に、カテゴリ列はK-modes用に、また数値とカテゴリの両方はK-prototype用に一覧表示されます。
クラスタ数を指定します。クラスタ数は最小 2、最大 30 まで指定できます。
データをクラスタリング前に変換するために使用する正規化方法を選択します。正規化は、データを共通のスケールに変換するための手法です。
- Min-Max スケール - この方法では、すべてのデータポイントを 0〜1 の範囲に再スケーリングします。
- Z スコア - Z スコアは、データポイントがデータセットの平均から何標準偏差離れているかを表します。この変換では、データの平均を 0 に中心化し、データセット全体の標準偏差が 1 になるように標準化します。この方法では、すべてのデータポイントを -1〜1 の範囲に再スケーリングします。
K-prototypeモデルでは、数値要因とカテゴリ要因に与える重みを指定します。重みの値は0.2 ～ 2の範囲で指定できます。初期設定では、Zoho 分析は数値要因とカテゴリ要因の両方に同じ重み (1.00) を与えます。重みが 0.2 に近いほど数値列の重みが小さくなり、2 に近いほどカテゴリ列の重みが大きくなります。
適用をクリックします。

クラスタ情報の表示

このセクションでは、クラスタの品質やデータポイントのグループ化の適切さを評価するのに役立つ概要および統計情報を提供します。クラスタ情報オプションは、クラスタリングが適用されると有効になります。

概要

このセクションでは、次の情報を提供します。

クラスタリングに使用されたアルゴリズム、データポイント数、およびデータポイントがクラスタリングされたクラスタ数などの情報。
停止条件フィールドには、クラスタリング処理が終了した理由が表示されます。
クラスタリングに使用された距離の計算式。
- ユークリッド距離は、K-means アルゴリズムで使用される方法です。
- バイナリ非類似度は、K-modes アルゴリズムで使用される方法です。
クラスタリングに使用された要因（列）と正規化方法。

パフォーマンス／品質指標

CH 指数 -Calinski-Harabasz 指数（CHI）は、クラスタの品質を評価するために使用される指標です。CHI は、クラスタ間分散とクラスタ内分散の比率を算出します。CHI の値が高いほど、クラスタが良好に分離されていることを示します。
DB 指数 -Davies-Bouldin 指数（DBI）は、クラスタリングの品質を評価するための別の指標です。DBI は、各クラスタと最も類似したクラスタとの平均類似度と、クラスタ間の平均非類似度の比率に基づいて算出されます。
純度（Purity） - K-modes クラスタリングにおいて、純度はクラスタリング結果の品質を評価するために使用される指標です。各クラスタ内の支配的なクラスラベルと、データセット内の実際のクラスラベルを比較することで、クラスタがどれだけ明確かつ内部的に一貫しているかを評価します。純度スコアは割合（%）で表示されます。

メモ

CH 指数とDB 指数は、K-meansおよびK-prototypeモデルで算出されます。
純度指標は、K-modesおよびK-prototypeクラスタリングモデルで算出されます。

セントロイドとクラスタ情報

このセクションでは、各クラスタに固有の情報として、各クラスタ内のデータポイント数や、各要因に対する平均値（セントロイド）または最頻値を提供します。

分散分析（ANOVA）

分散分析は、K-means アルゴリズムに対してのみ算出されます。ANOVA は、クラスタリングに使用された要因の値に関して、クラスタのセントロイド（平均値）が互いに有意に異なるかどうかを評価するために使用されます。また、仮説検定において、帰無仮説を棄却できるかどうかを確認するための統計的有意性テストでもあります。

クラスタ間平方和 -各グループ内の個々のデータポイントが、そのグループの平均からどの程度離れているかを算出します。これはクラスタ間平均平方（MSB）とも呼ばれます。

クラスタ内平方和 -各グループの平均値が、全体の平均値からどの程度離れているかを算出します。これはクラスタ内平均平方（MSW）とも呼ばれます。

F 統計量

F 統計量は、クラスタ間平均平方（MSB）とクラスタ内平均平方（MSW）の比率を算出します。F 統計量が臨界値より大きい場合、データポイントは良好にクラスタリングされていると判断できます。

P 値

グループ間の差が偶然に生じた可能性が高いか、それとも統計的に有意であるかを判断するのに役立ちます。

要因

F 統計量

クラスタ間平方和

自由度（クラスタ間）

クラスタ内平方和

自由度（クラスタ内）

クラスタリングに使用された列

MSB / MSW

MSB - クラスタ間平均平方

MSW - クラスタ内平均平方

異なるクラスタ間の平均値の差を算出します。

値が大きいほど、データポイントが良好にクラスタリングされ、重なりがほとんどないことを示します。

k - 1

ここで、k はクラスタ数です。

クラスタ間の自由度は、比較されるクラスタ（グループ）の数に基づいて算出されます。

各クラスタ内の平均値の差を算出します。

N - k

ここで、

N - 観測値の合計数
k - クラスタ数

クラスタ内の自由度は、各クラスタ内の観測値の数とクラスタ数に基づいて算出されます。

クラスタ分析で使用されるアルゴリズム

クラスタリングに使用される方法は、主にデータポイントをグループ化する基準となる列のデータ型に依存します。

K-means

K-means は、データセットをあらかじめ指定した k 個のクラスタに分割するための機械学習アルゴリズムです。各データポイントは、最も近いセントロイドに基づいてクラスタに割り当てられます。このアルゴリズムの目的は、各ポイントと対応するクラスタのセントロイドとの距離の合計を最小化することです。この方法は、数値要因に基づいてデータポイントをグループ化する場合に最適です。K-means の動作については、該当セクションを参照してください。

K-modes

K-modes は、データセットを K 個のクラスタに分割し、各クラスタに類似したデータポイントを含めることを目的としています。各クラスタのセントロイドは、そのクラスタ内の各カテゴリ属性について最も頻出する値（最頻値）で表されます。アルゴリズムは、データポイントとそれぞれのセントロイドとの非類似度の合計を最小化するように動作します。

K-prototype

K-prototype は、数値属性とカテゴリ属性の両方を含むデータを分割するために使用されます。数値属性にはユークリッド距離、カテゴリ属性には一致／不一致に基づく非類似度指標を組み合わせて、各クラスタのセントロイドを算出します。たとえば、購入パターンと年齢に基づいて顧客をセグメント化する場合などに利用できます。