予測機能の仕組み

予測機能の仕組み

Zoho Analyticsには、データの予測機能が用意されています。グラフ内のデータをもとに、今後のデータの傾向を予測することができます。データ予測は、高度な演算処理/アルゴリズムをもとに行われます(例:ARIMA…自己回帰和分移動平均、ETS…指数平滑法など)。グラフ内の既存のデータが詳細に分析され、分析結果をもとに最適な予測データが算出されます。

概要

データ予測は、高度な演算処理/アルゴリズムをもとに行われます。グラフ内の既存のデータが詳細に分析され、分析結果をもとに最適な予測データが算出されます。予測機能では、さまざまな設定をカスタマイズできます。予測するデータポイントの件数、データ予測の計算に使用しないグラフ内のデータポイントの件数、算出する予測データの精度(信頼区間)の割合など、要件に合わせて予測機能を設定することが可能です。 

以下の画像は、予測機能の仕組みを表した図です。



データ予測の前提条件

予測機能では、既存のデータをもとに一定の時間間隔で予測データが算出されます。グラフで予測機能を設定するにあたって、X軸にはデータの種類が日時または数値の列を配置し、Y軸には数値の列を配置する必要があります。また、Y軸の値には集計関数を適用する必要があります。予測データを算出するには、予測データの計算に使用するデータポイントが6件以上必要です。グラフ内のデータポイントが多いほど、より正確な予測データを算出できます。 

グラフ内に欠損値がある場合、システムによってグラフ内の各データポイントの平均値が算出され、欠損値の代わりとして自動で割り当てられます。 

メモ:予測データの精度を維持するため、既存のデータ内の空の値(null値)が40%を超える場合、予測機能は無効になります。

データ分析 

データ予測の前提条件が満たされると、グラフ内の各データポイントにおいてデータ分析が開始されます。予測機能により、グラフ内のデータにおける傾向、周期性、ランダム性が識別されます。これらの要素をもとに、データ予測を実施するための算出モデルが決定します。 

傾向 

傾向とは、一定の期間におけるデータの増減を表したものです。データ内における傾向を算出するにあたって、回帰モデルが使用されます。回帰モデルによって算出された値をグラフ上に表示し、その値をつないだ直線に傾きがある場合、データに傾向がある(増減がある)ことを表します。直線がX軸と水平な場合は、傾向がない(増減がない)ことを表します。 

周期性 

周期性とは、一定の頻度において予測される繰り返しのパターンを表します。周期性は、スペクトル分析をもとに算出されます。 

  • 加法 - 傾向の値に関わらず、一定の周期性を表します。
  • 乗法 - 傾向の値の増減に応じて、周期性も増減します。

ランダム性

予測データの計算に使用するデータにおける、規則性のなさ(無作為性)を表します。残差とも呼ばれます。 


算出モデルの選択

傾向、周期性、ランダム性から識別されたデータ内のパターンに基づいて、対象のデータに適した予測モデルの候補が自動で選択されます。その後、予測モデルの候補の中から最適な予測モデルが選択されます。

以下の画像は、識別されたデータのパターンに応じて適用される予測モデルの一覧です。



データ予測に使用される予測モデルは、以下のとおりです。各予測モデルにおいて、それぞれの算出モデルの種類があります。 


回帰分析

回帰分析では、データを予測するにあたって、他の要素がどの程度影響を与えているかを分析します。予測データを計算するためのデータを詳細に分析し、算出モデルを決定するためのパラメーターが算出されます。出力されたパラメーターをもとに、5種類の回帰分析の中から適切な算出モデルが適用されます(算出モデル:線形対数指数累乗多項式)。算出モデルにより、グラフ上にデータの傾向を表す線が算出されます。最適な算出モデルの決定には、決定係数が使用されます。決定係数の値が最も高い算出モデルが、回帰モデルに適した算出モデルとして選択されます。


STL分解

STL分解では、グラフ内のデータから傾向、周期性、ランダム性(残差)を算出し、予測データを出力します。周期性では、一定の頻度において予測される繰り返しのパターンを数値として算出します。予測データを算出する際の傾向、周期性、ランダム性の組み合わせ方法には、加法と乗法の2種類あります。この算出モデルでは、誤差は計算から除外されます。


加法では、傾向、周期性、ランダム性を加算します。 

傾向+周期性+ランダム性

乗法では、傾向、周期性、ランダム性を乗算します。 

傾向×周期性×ランダム性

最適な算出モデルの決定には、平均平方二乗誤差(RMSE)が使用されます。 


指数平滑法(ETS)

この予測モデルでは、既存のデータに対して指数関数を適用して予測データを算出します。予測データを算出するにあたって、新しいデータの影響度を多くし、古いデータの影響度を少なくして計算します。 

以下の画像は、指数平滑法(ETS)の算出モデルにおける、周期性と傾向の組み合わせ(なし/加法/乗法)の一覧です。



指数平滑法(ETS)の算出モデルの概要は、以下のとおりです:

  • 一次/単純指数平滑法 - 傾向や周期性を考慮せずに、単一の指数またはデータ系列を使用します。 
  • 二重指数平滑法 - 一次/単純指数平滑法において、もう1つの指数またはデータ系列を使用して予測データを算出します。  
    • 線形指数平滑法/Brown - 傾向を考慮して予測データを算出します。 
    • 二重指数平滑法/Holt/加法型 - 傾向と周期性を考慮して予測データを算出します。周期性に関係なくデータが増減する場合に適しています。
    • 二重指数平滑法/Holt/乗法型* - 傾向と周期性を考慮して予測データを算出します。周期性と関係してデータが増減する場合に適しています。
      *加法型/乗法型のHolt二重指数平滑法では、線型、減衰型の傾向に対して異なる算出モデルが適用されます。 
  • 三重線形指数平滑法/Holt-Winters - 二重指数平滑法において、もうひとつの指数またはデータ系列(周期性)を使用して予測データを算出します。

最適な算出モデルを決定するにあたって、AIC(赤池情報量規準)が使用されます。 


予測モデルの検証

各算出モデルによって算出された予測データの検証が行われ、対象のグラフに最も適した予測データが識別されます。この処理は、AIC(赤池情報量規準)をもとに行われます。複数の算出モデルで同様の結果が算出された場合は、BIC(ベイズ情報量規準)によって最終的な予測モデルが選択されます。


信頼区間の割合

折れ線グラフで予測データを表示する場合、算出する予測値の範囲が表示されます。この範囲は、信頼区間と呼ばれます。信頼区間は、正規分析をもとに算出されます。信頼区間の割合は、70%から95%の範囲で選択できます。また、信頼区間の割合を指定しないことも可能です。


最終的な予測データ

上記の処理が完了した後、システム側でデータ予測に最適な算出モデルが選択され、データ予測が行われます。データ予測の実施後に信頼区間の割合を変更することもできます。