みなさん、こんにちは。今回のテーマはデータ分析の【共分散】とその求め方について解説します。
データ分析がむずかしそうというイメージを持っているみなさんに向け、共分散をやさしく解説していきます。データ分析は、あまりなじみがないため、はじめは難しいですが、慣れてしまえばかんたんに解くことができます。
この記事では、まず共分散とは何かを説明し、共分散の公式と求め方を確認します。共分散は相関係数を求める際にも必要になるので、しっかりと覚えるようにしましょう。
・共分散の求め方がわかる
・自分で実際に共分散を求められる
共分散とは?
共分散とは、2つの変数の偏差の積の平均です。2変数の関係の強さを表す「相関係数」を求めるときに、共分散が必要になります。
これだけ聞いても、よくわからないですよね。式を確認してみましょう。
共分散の公式
共分散の公式は下のとおりです。
$$S_{xy}=\frac{1}{n}\sum_{i=1}^{n}\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)$$
たしかに公式をみると、見慣れない文字ばかりで、よけいにむずかしく見えるかもしれませんね。それでは、1つずつ確認していきましょう。
$S_{xy}$:xとyの共分散
$\sum_{i=1}^{n}$:右の式の$i$に1からnまで代入して、それをすべて足した値
※$\sum_{i=1}^{5}k$だと、1+2+3+4+5になります
$x_i$:変数$x$の$i$番目の値
$\bar{x}$:変数$x$の平均
なんとなくイメージはつかめてきましたか?次は、実際にデータをつかって、共分散を求める練習をしてみましょう。
共分散の求め方
例題で共分散の求め方を確認しましょう。
x | 5 | 3 | 4 | 2 | 6 |
y | 7 | 1 | 4 | 3 | 5 |
上のようなデータがあるとします。xとyの共分散を求めましょう。
公式は
$$S_{xy}=\frac{1}{n}\sum_{i=1}^{n}\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)$$
でしたね。
まずは、xとyそれぞれの平均を求めましょう。
$\bar{x}=\frac{1}{5}\left(5+3+4+2+6\right)=\frac{1}{5}\times 20=4$
$\bar{y}=\frac{1}{5}\left(7+1+4+3+5\right)=\frac{1}{5}\times 20=4$
計算に必要になるのが、$x_i-\bar{x}$(xの偏差)と$y_i-\bar{y}$(yの偏差)の積です。次のような表をつくるのがおすすめです。
$x_i-\bar{x}$ | 1 | -1 | 0 | -2 | 2 |
$y_i-\bar{y}$ | 3 | -3 | 0 | -1 | 1 |
$\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)$ | 3 | 3 | 0 | 2 | 2 |
$\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)$がわかったので、共分散の公式に代入しましょう。
$S_{xy}=\frac{1}{5}\sum_{i=1}^{5}\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)$
$=\frac{1}{5}\left(3+3+0+2+2\right)$
$=\frac{1}{5}\times 10=2$
よって、xとyの共分散$S_xy=2$と求められました。
共分散の求め方、理解できましたか?さっそく練習問題を解いて、理解を定着させましょう。
問題を解いてみよう
問題
次のデータにおける、xとyの共分散を求めましょう。
x | 2 | 3 | 6 | 2 | 2 |
y | 4 | 3 | 2 | 1 | 5 |
解答
$\bar{x}=\frac{1}{5}\left(2+3+6+2+2\right)=\frac{1}{5}\times 15=3$
$\bar{y}=\frac{1}{5}\left(4+3+2+1+5\right)=\frac{1}{5}\times 15=3$
$\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)$は以下の表のとおり。
$x_i-\bar{x}$ | -1 | 0 | 3 | -1 | -1 |
$y_i-\bar{y}$ | 1 | 0 | -1 | -2 | 2 |
$\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)$ | -1 | 0 | -3 | 2 | -2 |
これを$S_{xy}=\frac{1}{5}\sum_{i=1}^{5}\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)$に代入すると
$S_{xy}=\frac{1}{5}\left(-1+0-3+2-2\right)=\frac{1}{5}\times \left(-4\right)=-0.8$
今回のまとめ
今回は、共分散について解説しました。
はじめに述べたとおり、共分散は相関係数を求めるうえで必須の要素です。センター試験でも出題されるので、しっかりと押さえておきましょう。
今回もおつかれさまでした。
コメント