時間の経過と共に、ユーザとコンテンツの間には様々な要素と共に変化が起こります。
"myRT"にはアクセス解析データに時間の経過と共に解析対象サイト内での出来事が時系列データとして蓄積されています。
毎日の血圧測定を日ごとに追ってデータ化することや、株価、為替レートなどは日ごとに市場で値が変化するので、時系列で並べることで得られる有益な情報があります。
時系列分析(Time Series Analytics)とは、時系列データを分析することによって、分析対象の特徴を明らかにする手法です。
血圧測定や株価や為替レートなどの値を時系列に並べることによって、規則や法則にしたがって変動していることが見えてきます。
往々にしてそれ以前の時刻の値に何らかの影響が起こり、未来の値は過去から現在までの推移の中で何らかの影響によって数値化されてきます。
これらの規則性を記述する関係式、体系は時系列モデルと呼ばれています。
"myRT"での期間指定の方法については、【myRTで始めるアクセス解析:第13回】"myRT"期間指定の基本 を参照してください。
時系列分析のモデルとしては、ARモデル、MAモデル、両者をあわせたARMAモデル、ARIMAモデル、ARCHモデルと呼ばれるものがあります。
基本になるモデルはARMA(Auto Regressive Moving Average)モデル、日本語では"自己回帰移動平均"と呼ばれるモデルになります。
ARモデルとは
時系列分析では、分析対象データの行動特徴を探る際に、データ自身の持っている特性を、モデルに基いた形で詳細に探るというアプローチを行います。
データはデータから探るという手法です。
ARとは、Auto Regressiveの略で、"自己回帰"自らの行動特徴を自らの過去の値で集計するという意味になります。
時系列データの集合値を{yt}とすると、例えばyをPVの毎日の値とし、tを1週間とすれば、{yt}の集合の中にはデータが30もしくは31入っている事になります。
{yt}について、ARモデルでは一般的に次のようになります。
y(t) = μ' + φ1 y(t-1) + φ2 y(t-2) +...+ φt-p y(t-p) + u(t) (1)
今週(t週)のPVの動きは1週前、2週前、...p週までのPVと今週の攪乱項u(t)によって説明されることになります。
μ'やφはパラメーター(定数)で,u(t)はホワイトノイズ(white noise白色雑音)の性質を満たす撹乱項(あるいは誤差項)になります。
ホワイトノイズというのは,以下の3点を満たす時系列のことをいいます.
(1)平均がゼロ:
(2)分散が一定:
(3)自己共分散がゼロ:
分散はデータのばらつき度を測る尺度となります。自己共分散とは自らのデータ、例えば1週前のデータと2週前のデータの間に相関関係がないことを意味します。
ここで使用している攪乱項(ホワイトノイズ)という値は、確率的に決まる変数で、どのような値が出力されるかは事前にはわかりません。ただし、全くでたらめというのではなく、この攪乱項はある一定の幅内で不規則(ランダム)に変動し、全体を通して平均すればゼロとなるような変数となります。光の性質を調べると、その性質中の白色が持っている性質に似ているのでホワイトノイズという名前がついています。
コンテンツと直接関係の無い、市場に大きな影響を与える媒体によるアクセス増加などにより、意図しない、把握し難い変数などがホワイトノイズの値になると思います。
AR(1)の例
ARモデルの中でも最も基本的な,1次自己回帰モデルAR(1)(First-Order Autoregressive Model)は次のようになります。
y(t) = μ' + φ y(t-1) + u(t) (2)
ここではφを自己回帰係数と呼びます。φの絶対値は1以下であることが必要です。μ'は定数項で、u(t)はホワイトノイズを満たす撹乱項です。
AR(1)モデルでは,自己回帰係数φの値によってどのような時系列になるかが決まってきます。φが1の場合がランダムウォークと呼ばれる(物事の過去の動きからは、将来の動きや方向性を予測することは不可能である)特別なケースになります。
ホワイトノイズのデータは、表計算ソフトエクセルでは次のような関数を使います。
= RAND() * (-1-1) + 1
ホワイトノイズのデータが用意できればAR(1)モデルは簡単に作り出すことが可能になります。(2)式でμ'をゼロとし、yの初期値に1を与えてやれば、(2)式に基づいてyのデータを順繰りに作り出すことができます。
MAモデルとは
時系列モデルの2つ目としてMAモデル(Moving Average model)があります。
一般的には次のように表されます。
y(t) = μ + u(t) - θ1 u(t-1) - θ2 u(t-2) - ... -θq u(t-q) (3)
ここでのμやθはパラメーター(定数)、u(t)はホワイトノイズを満たす撹乱項になります。MAモデルはARモデルとは違って、y(t)を今週から過去にさかのぼった撹乱項についての移動加重和として表わされます。1やθはウェイトとみなすことができます。ただし、ウェイトの合計は1になる必要はありません。θの絶対値は1以下であることが必要です.
(注意)経済学上では,もう1つの「移動平均」(moving average)の概念があります。データの平均を計算するときデータを1つずつずらしながら平均値を計算する方法です。例えば30日間移動平均とか,90日間移動平均などという名称で登場します。これも移動平均と呼んでいます。時系列分析のMAモデ
ルとはまったく別物ですので混同しないように注意してください。
(3)はq 期前までさかのぼっているのでq次のMAモデルと呼ばれ、MA(q)と集計します。
MAモデルのうち最も基本的な1次の移動平均モデルMA(1)(First-Order Moving Average Model)は次のように集計します。
y(t) = μ + u(t) - θ1 u(t-1) (4)
MAモデルでは定数項μはデータの平均値と一致する性質があります。MAモデルも、ホワイトノイズのデータがそろっていれば(3)式に基づいてy(t)の系列を作り出すことが可能です。
ARMAモデル
ARモデルとMAモデルを合わせたのがARMA(AutoRegressive Moving Average)モデルになります。
時系列データ{yt}について,ARMAモデルは次のように集計します。
y(t) = μ' + φ1 y(t-1) + φ2 y(t-2) +...+ φt-p y(t-p) + u(t) - θ1 u(t-1) - θ2 u(t-2) - ... -θq u(t-q) (5)
ARの次数がp,MAの次数がqなのでARMA(p, q)と集計します。代表的なARMA(1, 1)は次のようになります.
y(t) = μ' + φ1 y(t-1) + u(t) - θ1 u(t-1) (6)
ARMAの場合もホワイトノイズu(t)のデータがあれば、φ1とθ1の値を設定し、yの初期値を与えてやれば、y(t)の時系列データが順繰りに決めることが可能です。
y(t) = + 0.9 y(t-1) + u(t) + 0.8 u(t-1)
y(t) = - 0.5 y(t-1) + u(t) - 0.5 u(t-1)
ARCHモデル
ARCH(アーチ,AutoRegressive Conditional Heteroscedastic)モデル。
日本語では、分散不均一の自己回帰過程と呼んでいます。
まず,なぜARCHモデルが重要なのかを説明しておきます。
これまで説明してきたARMAモデルでは、時系列データの残差はホワイトノイズという前提で分析していたのですが、myRTでの時系列データを詳しく調べてみると、実は残差はホワイトノイズの性質を満たしていないことがあります。
時系列データの残差の分散は一様ではなくばらつきに特徴があることが多々あります。
どのような特徴かというと、Web媒体で大きく取り上げられた場合と、雑誌や新聞媒体といったリアルの媒体で大きく取り上げられた場合でも大きく変化する期間に差が出ることや、複合的にユーザのマスの特性においても大きな変化に差が生じるという性質です。
このような性質を「分散の不均一性(heteroscedasticity)」と呼んでいます。
このような分散の不均一性を組み込んだ時系列モデルがARCHであり、2003年ノーベル経済学賞を受賞したエングル(R.F. Engle)が1982年に発表したモデルになります。
ARCHモデルでは、今期の分散が過去の分散に依存することをモデルに組み込みます。これが、分散不均一の自己回帰過程(ARCH)の意味です。
AR(1)モデルの1つであるランダムウォークの誤差項を入れ換えてARCHを説明します。これが一番わかりやすいと思います。
ランダムウォーク: y(t) = y(t-1) + u(t) (7)
u(t)はホワイトノイズ
ARCHモデルでは、上の攪乱項u(t)はホワイトノイズではなく、以下のu(t)で置き換えます。
y(t) = y(t-1) + u(t) (8)
u(t) = v(t) SQRT(a0 + a1 u(t-1)^2) (9)
ここで、v(t)が平均0、分散1のホワイトノイズになります。a0 > 0、0 上のモデルでは、分散が1期前の分散に依存するのでARCH(1)といいます。 Engle, R.F.(1982),"Autoregressive Conditional Heteroscedasticity with EngleのARCHモデルを拡張したのが彼の弟子BollerslevによるGARCH(ガーチ:Gereralized ereralized AutoRegressive Conditional Heteroscedastic)と呼ばれるモデルになります。 GARCHモデルの代表的なGARCH(1,1)を紹介しておきましょう。 y(t) = y(t-1) + u(t) (10) ここで、a0 > 0, a1 + b1 < 1.u(t)はホワイトノイズではなく、v(t)がホワイトノイズになります。 金融資産時系列データの分散の不均一性をとらえるモデルとしては、ARCHよりもGARCHの方がすぐれていることが今日ではわかっています。 金融資産での時系列データの考え方をベースにしているため、かなり高度な解析になりますが、Webアクセス解析においても時系列に並べることで、表面上では見えない市場のトレンドや季節性などを把握することが出来ます。 Webマーケティングにおいて、月次データを集計することをスタートとしているケースが多々ありますが、その次に月内の1週ごと、平日と週末、時間帯とドリルダウンを行いながら解析することが重要です。
残差の2乗は1期前の残差の2乗に依存します。a0=1 and a1=0 のとき、ARCHはランダムウォークと同じになります。
Estimates of the Variances of United Kingdom Inflation," Econometrica,
Vol.50, No.4, pp.987-1007.GARCHモデル
ARCHモデルの条件付き分散が過去の分散だけでなく過去の残差の2乗にも依存するという関係を組み込んだモデルになります。
ARCHからGARCHへの拡張は、ちょうどARをARMAに拡張したのと対応しています。
u(t) = v(t) SQRT(h(t)) (11)
h(t) = a0 + a1 u(t-1)^2 + b1 h(t-1) (12)
Webマーケティングでの時系列データにおいても、Web 2.0、CGM市場という、ユーザが基点となるコミュニケーション市場を考慮すると、十分対応できるのではないでしょうか。
ノーベル賞ではオリジナリティのある研究に授けられるので、ARCHの概念を最初に提案したエングルが受賞したとの事です。
また1日の時間帯の中で、どのような時間帯にどのようなアクションが起こるのかを突き止めることで、ユーザの属性や、メールマガジンなどのクロスメディア媒体効果の促進を図ることが可能になります。
また解析する際に、コンテンツ上での施策、企業としての施策、市場とコンテンツとと関連性のある話題などを含めて分析を行うようにしましょう。
それらホワイトノイズに当たる影響が、どのようなタイミングでどのような数値として反映されるのかを集計していくことが、非常に高いビジネス収益へと繋がります。
Leave a comment