異常値(外れ値)検出とは、標準的または想定される挙動から大きく外れた処理やデータポイントを特定するプロセスです。データ内の外れ値を特定することで、さまざまなシナリオに対する早期の兆候を把握でき、経営層やアナリストが潜在的な問題を見つけたり、成功している戦略を最大限に活用したり、パフォーマンス向上に寄与する外部要因を理解したりするのに役立ちます。
Zoho Analytics では、RPCA(Robust Principal Component Analysis)などの堅牢な機械学習アルゴリズムや、さまざまな統計モデルを用いて外れ値を検出します。この機能は、データの分布に応じて高い柔軟性でカスタマイズできます。
ビジネスでの利用例
- EC:売上の急激な増加や減少の背景にある理由を把握するのに役立ちます。短時間でカート放棄率が上昇した場合は、決済時の Web サイトの不具合などの問題を示している可能性があります。
- マーケティング:Web サイトのトラフィックや登録数の増減を引き起こした根本的な要因を把握するために利用できます。
- ヘルプデスク:サポートチケットの急増や、対応が必要な特定商品の問題を特定するために利用できます。
- セキュリティ脅威検出:サイバーセキュリティの観点から、異常なネットワーク活動やパターンを特定し、セキュリティ脅威の兆候を検出するために不可欠です。
注意事項
- 異常値検出は、数値データ型の列でサポートされています。
- RPCA モデルでは6 個以上のデータポイント、統計モデルでは7 個以上のデータポイントが異常値検出に必要です。
- 異常値(外れ値)検出は、すべての種類の折れ線グラフおよび棒グラフでサポートされています。
- 異常値は複数の Y 軸に対して適用できます。
データに異常値検出を適用する方法
- 異常値の設定は、グラフの[設定]タブ、またはツールバーの [分析データ] オプションから行えます。
- 異常値を検出したい列を選択します。
- [追加] > [Anomaly / Outlier] ボタンをクリックします。
- 任意のわかりやすい名前を入力します。
-
外れ値検出に使用するモデルを選択します。データに応じたモデルの選び方については、[モデル]セクションを参照してください。
- RPCA モデル:必要に応じて RPCA モデルの偏差率(%)を調整します。偏差率(%)を下げるとデータへの感度が高まり、わずかなずれでも外れ値として判定されます。偏差率(%)を上げると感度が下がり、外れ値の判定がより絞り込まれます。このモデルでは、初期設定の偏差率(%)は 70% です。
- 統計モデル:外れ値を特定するために使用する統計モデルとしきい値を選択します。データ分布に応じた統計モデルの選び方については、こちらをクリックして参照してください。

- 特定の範囲内で異常値を検出するために、方向(Above, Below)を選択します。初期設定では、両方の方向で異常値が検出されます。
-
方向を選択すると、その方向に応じたしきい値設定が利用可能になります。
- Above:[Above] を選択した場合、統計モデルでは上側しきい値の設定のみが表示されます。
- Below:[Below] を選択した場合、統計モデルでは下側しきい値の設定のみが表示されます。
- 必要に応じてマーカーの形状、サイズ、色をカスタマイズします。上側と下側の異常値を区別するために、異なる色を使用できます。
- [適用]をクリックします。
外れ値として特定されたデータポイントは赤色で表示されます。これらのマークされたデータポイントをクリックすると、異常値の詳細情報が表示されます。
- 期待値 - 対応する X 値に対して、選択した異常値検出手法により算出された Y 値です。
- 差分 - 異常値の実測値と期待値の差です。
- 偏差率(%) - 期待値に対する偏差の割合(%)です。
機械学習モデル - RPCA(Robust Principal Component Analysis)
このモデルは、時間系列データ内の単変量データセットにおいて、季節性パターンと時間的要素の両方を考慮しながら、異常値を高精度に特定できます。このモデルのアルゴリズムは、許容される偏差率(%)に基づいて異常値を検出します。偏差率(%)を調整することで、大きな偏差を示す異常値を検出できます。偏差率の範囲は 0% ~ 95% で、初期設定値は 70% です。
この手法は、時間系列値に対する集計指標の異常値検出に最適です。
統計モデル
四分位範囲(IQR)
IQR(Interquartile Range)は、データセットの中央 50% が含まれる範囲を表す散布度の指標です。外れ値は、この範囲に基づいて算出されます。
IQR は、第 3 四分位数(Q3)と第 1 四分位数(Q1)の差として計算されます。初期設定では、スケール値 1.5 を IQR に乗じて、上限および下限(しきい値)を決定します。しきい値は、データの分布に応じて調整できます。
分布が歪んでいるデータには、調整済み IQR 手法が適用されます。
Z スコア
Z スコアは、データポイントが平均値からどれだけ離れているかを標準偏差の観点から示す指標です。初期設定では、Z スコアが 3 標準偏差を超えるデータポイントは外れ値としてマークされます。
一般的に、±3 の Z スコアが外れ値検出のしきい値として設定されます。これは、平均から左右いずれかの方向に 3 標準偏差を超えて離れているデータポイントが外れ値と見なされることを意味します。しきい値は、データの分布に応じて調整できます。
分布が歪んでいるデータには、更新済み Z スコア手法が適用されます。Z スコアは中央値絶対偏差(Median Absolute Deviation)手法に基づいて計算されます。
パーセンタイル
パーセンタイルは、データセット内で特定の値が相対的にどの位置にあるかを表す統計指標です。パーセンタイルはデータを 100 個の等しい部分に分割し、各パーセンタイルの値は、その値以下にあるデータの割合(%)を示します。外れ値は、このパーセンタイル値に基づいて判定されます。
上限および下限の初期設定値は、それぞれ第 5 パーセンタイルと第 95 パーセンタイルです。しきい値は、データの特性に応じて変更できます。
カスタム範囲
この手法では、上限および下限をデータセット内の任意の値として指定します。外れ値は、指定したしきい値に基づいて算出されます。