顧客セグメンテーション:顧客は、デモグラフィック、地域、各種属性などのさまざまな要因に基づいてグループ化できます。グループ化することで、企業は営業・マーケティング施策を最適化・戦略化し、売上やリテンションの向上につなげることができます。
在庫管理:効率的な在庫管理は、サプライチェーンの円滑化に役立ちます。クラスタリングにより、商品の購入に関する季節的な傾向や需要の高い商品を特定し、在庫をより適切に管理できます。
このセクションでは、クラスタの品質やデータポイントのグループ化の適切さを評価するのに役立つ概要および統計情報を提供します。クラスタ情報オプションは、クラスタリングが適用されると有効になります。
このセクションでは、次の情報を提供します。
メモ
このセクションでは、各クラスタに固有の情報として、各クラスタ内のデータポイント数や、各要因に対する平均値(セントロイド)または最頻値を提供します。
分散分析は、K-means アルゴリズムに対してのみ算出されます。ANOVA は、クラスタリングに使用された要因の値に関して、クラスタのセントロイド(平均値)が互いに有意に異なるかどうかを評価するために使用されます。また、仮説検定において、帰無仮説を棄却できるかどうかを確認するための統計的有意性テストでもあります。
クラスタ間平方和 -各グループ内の個々のデータポイントが、そのグループの平均からどの程度離れているかを算出します。これはクラスタ間平均平方(MSB)とも呼ばれます。
クラスタ内平方和 -各グループの平均値が、全体の平均値からどの程度離れているかを算出します。これはクラスタ内平均平方(MSW)とも呼ばれます。
F 統計量
F 統計量は、クラスタ間平均平方(MSB)とクラスタ内平均平方(MSW)の比率を算出します。F 統計量が臨界値より大きい場合、データポイントは良好にクラスタリングされていると判断できます。
P 値
グループ間の差が偶然に生じた可能性が高いか、それとも統計的に有意であるかを判断するのに役立ちます。
| 要因 | F 統計量 | クラスタ間平方和 | 自由度(クラスタ間) | クラスタ内平方和 | 自由度(クラスタ内) |
| クラスタリングに使用された列 |
MSB / MSW MSB - クラスタ間平均平方 MSW - クラスタ内平均平方 |
異なるクラスタ間の平均値の差を算出します。 値が大きいほど、データポイントが良好にクラスタリングされ、重なりがほとんどないことを示します。 |
k - 1 ここで、k はクラスタ数です。 クラスタ間の自由度は、比較されるクラスタ(グループ)の数に基づいて算出されます。 |
各クラスタ内の平均値の差を算出します。 |
N - k ここで、
クラスタ内の自由度は、各クラスタ内の観測値の数とクラスタ数に基づいて算出されます。 |
クラスタリングに使用される方法は、主にデータポイントをグループ化する基準となる列のデータ型に依存します。
K-means
K-means は、データセットをあらかじめ指定した k 個のクラスタに分割するための機械学習アルゴリズムです。各データポイントは、最も近いセントロイドに基づいてクラスタに割り当てられます。このアルゴリズムの目的は、各ポイントと対応するクラスタのセントロイドとの距離の合計を最小化することです。この方法は、数値要因に基づいてデータポイントをグループ化する場合に最適です。K-means の動作については、該当セクションを参照してください。
K-modes
K-modes は、データセットを K 個のクラスタに分割し、各クラスタに類似したデータポイントを含めることを目的としています。各クラスタのセントロイドは、そのクラスタ内の各カテゴリ属性について最も頻出する値(最頻値)で表されます。アルゴリズムは、データポイントとそれぞれのセントロイドとの非類似度の合計を最小化するように動作します。
K-prototype
K-prototype は、数値属性とカテゴリ属性の両方を含むデータを分割するために使用されます。数値属性にはユークリッド距離、カテゴリ属性には一致/不一致に基づく非類似度指標を組み合わせて、各クラスタのセントロイドを算出します。たとえば、購入パターンと年齢に基づいて顧客をセグメント化する場合などに利用できます。