クラスタ分析

お知らせ：当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。

クラスタリングは、データ分析で使用される手法で、特定の要因や類似性に基づいて類似したデータポイントをまとめるものです。各クラスタには、他のクラスタ内のデータポイントよりも互いに似ているデータポイントが含まれます。Zoho 分析では、K-means、K-modes、および K-prototype アルゴリズムを使用してデータポイントをグループ化します。

主な利用ケース

顧客セグメンテーション:顧客は、デモグラフィック、地域、設定などのさまざまな要因に基づいてグループ化できます。グループ化することで、営業やリテンションを向上させるためのマーケティング施策を最適化・戦略化できます。

在庫管理:効率的な在庫管理は、サプライチェーンの円滑化に役立ちます。クラスタリングにより、商品の購入に関する季節的な傾向や需要の高い商品を特定し、在庫をより適切に管理できます。

注意事項

クラスタリングには、最低 5 件のデータポイントが必要です。
クラスタ分析は、散布図、棒グラフ、バブルチャートでサポートされています。
クラスタ分析は、予測、トレンド折れ線グラフ、異常値分析ではサポートされていません。

クラスタ分析の適用方法

クラスタ分析を実行するには、ツールバーの分析アイコンをクリックし、ドロップダウンメニューからクラスタ分析を選択します。
表示されるクラスタ分析ダイアログで、クラスタを追加

をクリックします。
アルゴリズムモデルは、レポートで使用されている列に基づいて自動的に選択されます。
要因とは、データポイントをグループ化する基準となる列です。列は選択されたモデルに基づいて一覧表示されます。データ内で利用可能な数値列はK-means、カテゴリ列はK-modes、数値列とカテゴリ列の両方はK-prototypeに対して一覧表示されます。
クラスタ数を指定します。クラスタ数は最小 2、最大 30 まで指定できます。
データをクラスタリング前に変換するために使用する正規化方法を選択します。正規化は、データを共通のスケールに変換するための手法です。
- 最小-最大スケール - この方法では、すべてのデータポイントを 0〜1 の範囲に再スケーリングします。
- Z スコア - Z スコアは、データポイントがデータセットの平均から何標準偏差離れているかを表します。この変換は、データの平均を 0 に中心化し、データセット全体の標準偏差が 1 になるように標準化することを目的としています。この方法では、すべてのデータポイントを -1〜1 の範囲に再スケーリングします。
K-prototypeモデルの場合、数値要因とカテゴリ要因に与える重みを指定します。重みの値は0.2 ～ 2の範囲で指定できます。初期設定では、Zoho 分析は数値要因とカテゴリ要因の両方に同じ重み (1.00) を与えます。重みが 0.2 に近い値の場合は数値列の重みが小さくなり、2 に近い値の場合はカテゴリ列の重みが大きくなります。
適用をクリックします。

クラスタ情報の表示

このセクションでは、クラスタの品質やデータポイントのグループ化の適切さを評価するための概要および統計情報を提供します。クラスタ情報オプションは、クラスタリングを適用すると有効になります。

概要

このセクションでは、次の情報を提供します。

クラスタリングに使用されたアルゴリズム、データポイント数、およびデータポイントがクラスタリングされたクラスタ数などの情報。
停止条件では、クラスタリング処理が終了した理由を示します。
クラスタリングに使用された距離の計算式。
- ユークリッド距離は、K-means アルゴリズムで使用される方法です。
- バイナリ非類似度は、K-modes アルゴリズムで使用される方法です。
クラスタリングに使用された要因（列）と正規化方法。

パフォーマンス／品質指標

CH 指数 -Calinski-Harabasz 指数 (CHI)は、クラスタの品質を評価するために使用される指標です。CHI は、クラスタ間分散とクラスタ内分散の比率を算出します。CHI の値が高いほど、クラスタが良好に分離されていることを示します。
DB 指数 -Davies-Bouldin 指数 (DBI)は、クラスタリングの品質を評価するための別の指標です。DBI は、各クラスタと最も類似したクラスタとの平均類似度と、クラスタ間の平均非類似度の比率に基づいて算出されます。
純度 (Purity) - K-方式クラスタリングにおいて、純度はクラスタリング結果の品質を評価するために使用される指標です。各クラスタ内の支配的なクラスラベルと、データセット内の実際のクラスラベルを比較することで、クラスタがどれだけ明確かつ内部的に一貫しているかを評価します。純度スコアは割合（%）で表示されます。

メモ

CH 指数とDB 指数は、K-meansおよびK-prototypeモデルに対して計算されます。
純度指標は、K-modesおよびK-prototypeクラスタリングモデルに対して計算されます。

セントロイドとクラスタ情報

このセクションでは、各クラスタに固有の情報として、各クラスタ内のデータポイント数や、各要因に対する平均値（セントロイド）または最頻値を提供します。

分散分析 (ANOVA)

分散分析は、K-means アルゴリズムに対してのみ計算されます。ANOVA は、クラスタリングに使用された要因の値において、クラスタのセントロイド（平均値）が互いに有意に異なるかどうかを評価するために使用されます。また、仮説検定において、帰無仮説を棄却できるかどうかを確認するための統計的有意性検定でもあります。

クラスタ間平方和 -各グループ（クラスタ）内の個々のデータポイントが、そのグループの平均からどの程度離れているかを計算します。これはクラスタ間平均平方 (MSB)とも呼ばれます。

クラスタ内平方和 -各グループの平均値が、全体の平均値からどの程度離れているかを計算します。これはクラスタ内平均平方 (MSW)とも呼ばれます。

F 統計量

F 統計量は、クラスタ間平均平方 (MSB) とクラスタ内平均平方 (MSW) の比率を計算します。F 統計量が臨界値より大きい場合、データポイントは良好にクラスタリングされていると判断できます。

P 値

グループ間の差が偶然に生じた可能性が高いか、それとも統計的に有意であるかを判断するのに役立ちます。

要因

F 統計量

クラスタ間平方和

自由度（クラスタ間）

クラスタ内平方和

自由度（クラスタ内）

クラスタリングに使用された列

MSB / MSW

MSB - クラスタ間平均平方

MSW - クラスタ内平均平方

異なるクラスタ間の平均値の差を計算します。

値が大きいほど、データポイントが良好にクラスタリングされ、重なりがほとんどないことを示します。

k - 1

ここで、k はクラスタ数です。

クラスタ間の自由度は、比較されるクラスタ（グループ）の数に基づいて計算されます。

各クラスタ内の平均値の差を計算します。

N - k

ここで、

N - 観測値の合計数
k - クラスタ数

クラスタ内の自由度は、各クラスタ内の観測値の数とクラスタ数に基づいて計算されます。

クラスタ分析で使用されるアルゴリズム

クラスタリングに使用される方法は、主にデータポイントをグループ化する基準となる列のデータ型に依存します。

K-means

K-means は、データセットをあらかじめ指定した k 個のクラスタに分割するための機械学習アルゴリズムです。各データポイントは、セントロイドに基づいていずれかのクラスタに割り当てられます。このアルゴリズムの目的は、各ポイントと対応するクラスタのセントロイドとの距離の合計を最小化することです。この方法は、数値要因に基づいてデータポイントをグループ化する場合に最適です。K-means の動作については、該当セクションを参照してください。

K-modes

K-modes は、データセットを K 個のクラスタに分割し、各クラスタに類似したデータポイントを含めることを目的としています。各クラスタのセントロイドは、そのクラスタ内の各カテゴリ属性における最頻値（モード）で表されます。アルゴリズムは、データポイントとそれぞれのセントロイドとの非類似度の合計を最小化するように動作します。

K-prototype

K-prototype は、数値属性とカテゴリ属性の両方を含むデータを分割するために使用されます。数値属性にはユークリッド距離、カテゴリ属性には一致／不一致に基づく非類似度を組み合わせて、各クラスタのセントロイドを計算します。たとえば、購入パターンと年齢に基づいて顧客をセグメント化する場合などに利用できます。