予測機能の仕組み

Zoho Analyticsには、データの予測機能が用意されています。グラフ内のデータをもとに、今後のデータの傾向を予測することができます。データ予測は、高度な演算処理／アルゴリズムをもとに行われます（例：ARIMA…自己回帰和分移動平均、ETS…指数平滑法など）。グラフ内の既存のデータが詳細に分析され、分析結果をもとに最適な予測データが算出されます。

概要

データ予測は、高度な演算処理／アルゴリズムをもとに行われます。グラフ内の既存のデータが詳細に分析され、分析結果をもとに最適な予測データが算出されます。予測機能では、さまざまな設定をカスタマイズできます。予測するデータポイントの件数、データ予測の計算に使用しないグラフ内のデータポイントの件数、算出する予測データの精度（信頼区間）の割合など、要件に合わせて予測機能を設定することが可能です。

以下の画像は、予測機能の仕組みを表した図です。

データ予測の前提条件

予測機能では、既存のデータをもとに一定の時間間隔で予測データが算出されます。グラフで予測機能を設定するにあたって、X軸にはデータの種類が日時または数値の列を配置し、Y軸には数値の列を配置する必要があります。また、Y軸の値には集計関数を適用する必要があります。予測データを算出するには、予測データの計算に使用するデータポイントが6件以上必要です。グラフ内のデータポイントが多いほど、より正確な予測データを算出できます。

グラフ内に欠損値がある場合、システムによってグラフ内の各データポイントの平均値が算出され、欠損値の代わりとして自動で割り当てられます。

メモ：予測データの精度を維持するため、既存のデータ内の空の値（null値）が40%を超える場合、予測機能は無効になります。

データ分析

データ予測の前提条件が満たされると、グラフ内の各データポイントにおいてデータ分析が開始されます。予測機能により、グラフ内のデータにおける傾向、周期性、ランダム性が識別されます。これらの要素をもとに、データ予測を実施するための算出モデルが決定します。

傾向

傾向とは、一定の期間におけるデータの増減を表したものです。データ内における傾向を算出するにあたって、回帰モデルが使用されます。回帰モデルによって算出された値をグラフ上に表示し、その値をつないだ直線に傾きがある場合、データに傾向がある（増減がある）ことを表します。直線がX軸と水平な場合は、傾向がない（増減がない）ことを表します。

周期性

周期性とは、一定の頻度において予測される繰り返しのパターンを表します。周期性は、スペクトル分析をもとに算出されます。

加法 - 傾向の値に関わらず、一定の周期性を表します。
乗法 - 傾向の値の増減に応じて、周期性も増減します。

ランダム性

予測データの計算に使用するデータにおける、規則性のなさ（無作為性）を表します。残差とも呼ばれます。

算出モデルの選択

傾向、周期性、ランダム性から識別されたデータ内のパターンに基づいて、対象のデータに適した予測モデルの候補が自動で選択されます。その後、予測モデルの候補の中から最適な予測モデルが選択されます。

以下の画像は、識別されたデータのパターンに応じて適用される予測モデルの一覧です。

データ予測に使用される予測モデルは、以下のとおりです。各予測モデルにおいて、それぞれの算出モデルの種類があります。

回帰分析
STL分解
指数平滑法（ETS）

回帰分析

回帰分析では、データを予測するにあたって、他の要素がどの程度影響を与えているかを分析します。予測データを計算するためのデータを詳細に分析し、算出モデルを決定するためのパラメーターが算出されます。出力されたパラメーターをもとに、5種類の回帰分析の中から適切な算出モデルが適用されます（算出モデル：線形、対数、指数、累乗、多項式）。算出モデルにより、グラフ上にデータの傾向を表す線が算出されます。最適な算出モデルの決定には、決定係数が使用されます。決定係数の値が最も高い算出モデルが、回帰モデルに適した算出モデルとして選択されます。

STL分解

STL分解では、グラフ内のデータから傾向、周期性、ランダム性（残差）を算出し、予測データを出力します。周期性では、一定の頻度において予測される繰り返しのパターンを数値として算出します。予測データを算出する際の傾向、周期性、ランダム性の組み合わせ方法には、加法と乗法の2種類あります。この算出モデルでは、誤差は計算から除外されます。

加法では、傾向、周期性、ランダム性を加算します。

傾向＋周期性＋ランダム性

乗法では、傾向、周期性、ランダム性を乗算します。

傾向×周期性×ランダム性

最適な算出モデルの決定には、平均平方二乗誤差（RMSE）が使用されます。

指数平滑法（ETS）

この予測モデルでは、既存のデータに対して指数関数を適用して予測データを算出します。予測データを算出するにあたって、新しいデータの影響度を多くし、古いデータの影響度を少なくして計算します。

以下の画像は、指数平滑法（ETS）の算出モデルにおける、周期性と傾向の組み合わせ（なし／加法／乗法）の一覧です。

指数平滑法（ETS）の算出モデルの概要は、以下のとおりです：

一次／単純指数平滑法 - 傾向や周期性を考慮せずに、単一の指数またはデータ系列を使用します。
二重指数平滑法 - 一次／単純指数平滑法において、もう1つの指数またはデータ系列を使用して予測データを算出します。
- 線形指数平滑法／Brown - 傾向を考慮して予測データを算出します。
- 二重指数平滑法／Holt／加法型 - 傾向と周期性を考慮して予測データを算出します。周期性に関係なくデータが増減する場合に適しています。
- 二重指数平滑法／Holt／乗法型* - 傾向と周期性を考慮して予測データを算出します。周期性と関係してデータが増減する場合に適しています。
  
  *加法型／乗法型のHolt二重指数平滑法では、線型、減衰型の傾向に対して異なる算出モデルが適用されます。
三重線形指数平滑法／Holt-Winters - 二重指数平滑法において、もうひとつの指数またはデータ系列（周期性）を使用して予測データを算出します。

最適な算出モデルを決定するにあたって、AIC（赤池情報量規準）が使用されます。

予測モデルの検証

各算出モデルによって算出された予測データの検証が行われ、対象のグラフに最も適した予測データが識別されます。この処理は、AIC（赤池情報量規準）をもとに行われます。複数の算出モデルで同様の結果が算出された場合は、BIC（ベイズ情報量規準）によって最終的な予測モデルが選択されます。

信頼区間の割合

折れ線グラフで予測データを表示する場合、算出する予測値の範囲が表示されます。この範囲は、信頼区間と呼ばれます。信頼区間は、正規分析をもとに算出されます。信頼区間の割合は、70%から95%の範囲で選択できます。また、信頼区間の割合を指定しないことも可能です。

最終的な予測データ

上記の処理が完了した後、システム側でデータ予測に最適な算出モデルが選択され、データ予測が行われます。データ予測の実施後に信頼区間の割合を変更することもできます。