みなさん、こんにちは。今回は、数学Iのデータの分析の相関関係及び相関係数について初学者でも理解できるよう説明します。

本当に初心者でも理解できるの?
結論、大丈夫です。データの相関のテーマではグラフを通じて、いろんな指標で客観的に表す方法を知ることができます。そしてデータ分析の知識は、そのまま社会に出てもエクセルでゴリゴリ仕事に使ったりするので受験勉強が社会でそのまま役に立つ分野でもあります。

受験勉強が社会では役に立たない、なんて言わせません。むしろ社会の要請で始まったテーマです。
ですので、データ分析の相関についてきちんと勉強することは、直近の受験勉強だけではなく社会に出てからも役にたつ非常にコスパの良い学習領域です。
そして。数学Iのデータ分析においてデータ相関の図や分散の考え方は最初は馴染みもなく難しいと考えるかもしれません。また、相関係数など言葉の定義も難しく感じると思います。そこで、最初は、この記事を読んでなんとなくの理解をして、実際に過去のセンター試験の問題を解いてみましょう。
初学者でもデータ相関を理解できる方法は、この記事の理解をして、この記事の問題を解いてみると言うことです。
この記事を読むとできること・データ相関についての言葉の定義や内容を理解することができる
・センター試験で実際に出題されたデータ相関の問題演習を通じて実際に解答する力を身につけることができる。
まず、より正確な指標を取り入れましょう!
前回、箱ひげ図と四分位数によって、データの散らばり度合いを見る方法を勉強しました。今回は、散らばり度合いをより正確に表す指標を取り入れます。
まず、定義を紹介します。
n 個のデータx1,x2,⋯,xn について、その平均値をˉx とするとき、
分散 s2=1n{(x1−ˉx)2+(x2−ˉx)2+⋯+(xn−ˉx)2}
標準偏差 s=√s2(正の平方根のみ。)
分散の式の意味を考えてみましょう。
よく見ると、それぞれのデータと平均値の差を取って2 乗しています。平均値との差を取るのは、平均値からそのデータがどれだけ離れているのかを数値的に捉えるためです。
ただ、データの中には平均値よりも小さい値も含まれており、その差がマイナスになることもあります。マイナスになった差も、平均値からどれだけ離れているか、つまり平均値からの距離で捉えるために、2 乗して符号をプラスに変えて足しています。
上のような理由で、分散はデータの差を2 乗するので単位が変わります。試験で分散を問われたときは単位をつけず、数値だけで答えます。こういった不具合を解消するために、標準偏差を考えます。こちらは正の平方根なので、元のデータと同じ単位をつけます。
また、分散も標準偏差もデータの散らばり度合いを示しています。どちらも、値が小さいということは、散らばり度合いが小さい、つまりデータが安定しているということを指します。
分散は、上の式以外にももう一つ表し方があります。例題で確認してみましょう。
例題n 個のデータをx1,x2,⋯,xn とし、このデータの平均値をˉx 、分散をs2x で表すとき、分散s2x=1n{(x1−ˉx)2+(x2−ˉx)2+⋯+(xn−ˉx)2} はs2x=1n(x21+x22+⋯+x2n)−(ˉx)2 と表せることを示せ。
久しぶりに、ややこしい式変形の問題が出てきました。(a−b)2=a−2−2ab+b2 を思い出せるかどうかが、解けるかどうかの分かれ目です。
この公式を思い出せたら、次のポイントは−2x1ˉx−2x2ˉx−⋯−2xnˉx をどう扱うかにあります。
s2x=1n{(x1−¯x)2+(x2−¯x)2+⋯+(xn−¯x)2}=1n{(x21+x22+⋯+x2n)−2¯x(x1+x2+⋯+xn)+n(¯x)2}=1n(x21+x22+⋯+x2n)−2¯x⋅x1+x2+⋯+xnn+(¯x)2=1n(x21+x22+⋯+x2n)−2(¯x)2+(¯x)2=1n(x21+x22+⋯+x2n)−(¯x)2
$

この2つの公式は何が違うの?
扱うデータが具体的な数値の場合、各データx1,x2,⋯,xn が整数であっても、平均値ˉx は小数になるが多いです。そうすると、x1−ˉx,x2−ˉx,⋯,xn−ˉx も小数になり、前者ではn 回小数の平方をすることになります。後者は、小数の計算は(ˉx)2 の1 度だけで済むので計算時間が短縮でき、計算ミスもしにくいです。
前者は分散がどういうものかという理解のために、後者は実際にデータを使って計算するために、どちらも重要です。使い分けできるようにしておきましょう。
散布図と相関とは?
例えば、数学と化学の成績など、2 つのデータの間に関連性があるかどうかを調べるとき、散布図を描くとわかりやすくなります。
散布図の描き方は座標の考え方と同じです。数学と化学の成績に相関関係があるかどうかを調べるときは、数学のテストの結果を横軸に、化学のテストの結果を縦軸にとります。(逆でも問題ありません。)数学のテスト結果が80 点で、化学のテスト結果が75 点であれば、座標(80,75) のところに印をつけます。
そうして得られた結果は、下のようになり、データの分布のしかたによって、相関がある/ないと表現されます。
また、下の2 つの散布図を比べたとき、左の散布図のほうが右より点が密集しています。このようなとき、左のほうが右より相関が強いと表現します。
また、相関を考えるときのデータは組になっています。この場合のデータの散らばり具合は共分散を、相関については相関係数を使って表します。
n 個のデータの組(x1,y1),(x2,y2),⋯,(xn,yn) に対して、(xi−¯x)(yi−¯y) の平均値をx とy の共分散という。
共分散 sxy=1n{(x1−ˉx)(y1−ˉy)+(x2−ˉx)(y2−ˉy)+⋯+(xn−ˉx)(yn−ˉy)}
また、相関係数は、標準偏差sx,sy と共分散sxy を用いて次のように表されます。
相関係数 r=sxysx⋅sy
「係数」とつく名前や式を見てもわかるとおり、相関係数には単位がありません。また、相関係数r は−1≦r≦1であり、r が1 に近づくほど強い正の相関があるといい、−1 に近づくほど強い負の相関があるといいます。
これで、データの散らばり度合いを数値で客観的に説明できるようになりました。
過去問を解いてみよう!
最後に、センター試験で以前出題された問題に挑戦してみます。
(1) 図1 および図2 は、男子短距離、男子長距離、女子短距離、女子長距離の四つのグループにおける、身長のヒストグラムおよび箱ひげ図である。
次の( ア )、( イ )に当てはまるものを、下の0~6 のうちから一つずつ選べ。ただし、解答の順序は問わない。
図1 および図2 から読み取れる内容として正しいものは、( ア )と( イ )である。
0:四つのグループのうちで範囲が最も大きいのは、女子短距離グループである。
1:四つのグループのすべてにおいて、四分位範囲は12 未満である。
2:男子長距離グループのヒストグラムでは、度数最大の階級に中央値が入っている。
3:女子長距離グループのヒストグラムでは、度数最大の階級に第1 四分位数が入っている。
4:すべての選手の中でもっとも身長の高い選手は、男子長距離グループの中にいる。
5:すべての選手の中でもっとも身長の低い選手は、女子長距離グループの中にいる。
6:男子短距離グループの中央値と男子長距離グループの第3 四分位数は、ともに180 以上182 未満である。


(2) 身長をH、体重をW とし、X をX=(H100)2で、Z をZ=WX で定義する。図3 は、男子短距離、男子長距離、女子短距離、女子長距離の四つのグループにおけるX とW のデータの散布図である。ただし、原点を通り、傾きが15,20,25,30 である四つの直線l1,l2,l3,l4 も補助的に描いている。また、次の図4 の(a),(b),(c),(d) で示すZ の四つの箱ひげ図は、男子短距離、男子長距離、女子短距離、女子長距離の四つのグループのいずれかの箱ひげ図に対応している。
次の( ウ )・( エ )に当てはまるものを、下の0~5 のうちから一つ選べ。ただし、解答の順序は問わない。
図3 および図4 から読み取れる内容として正しいものは、( ウ )・( エ )である。
0:四つのグループのすべてにおいて、X とW には負の相関がある。
1:四つのグループのうちでZ の中央値が一番大きいのは、男子長距離グループである。
2:四つのグループのうちでZ の範囲が最小なのは、男子長距離グループである。
3:四つのグループのうちでZ の四分位範囲が最小なのは、男子短距離グループである。
4:女子長距離グループのすべてのZ の値は25 より小さい。
5:男子長距離グループのZ の箱ひげ図は(c) である。


(3) n を自然数とする。実数値のデータx1,x2,⋯,xn およびw1,w2,⋯,wn に対して、それぞれの平均値をˉx=x1+x2+⋯+xnn,ˉw=w1+w2+⋯+wnn とおく。等式(x1+x2+⋯+xn)ˉw=nˉxˉw などに注意すると、偏差の積の和は
$
(x1−ˉx)(w1−ˉw)+(x2−ˉx)(w2−ˉw)+⋯+(xn−ˉx)(wn−ˉw)=x1w2+x2+w2+⋯+xnwn−( オ )
$
となることがわかる。( オ )に当てはまるものを、次の0~3 のうちから一つ選べ。
0:ˉxˉw 1:(ˉxˉw)2 2:nˉxˉw 3:n2ˉxˉw
[2018 大学入試センター試験 【2】〔2〕]
前回説明した箱ひげ図も一緒に出題されています。思い出せない人は「【数学IA】四分位数と箱ひげ図について理解しましょう!(データの分析)」で復習しましょう。復習しただけ記憶に定着しますので、まったく時間の無駄にはなりません。
(1) 選択肢をひとつずつ確認します。
0:図2 より、範囲が最も大きいのは男子短距離。→誤
1:四分位範囲は箱ひげ図のうち、箱の部分の横幅を確認します。図2 から、箱の幅が最も大きい男子短距離でも、一目盛り2 cmの表で約5 目盛分なので、約10 cm。→正
2:図2 より、男子長距離の身長の中央値は176 cm付近と読み取れます。図1 のヒストグラムでは、度数最大の階級は170 cm以上175 cm未満です。この階級に中央値は含まれていません。→誤
3:図2 より、女子長距離の身長の第1 四分位数は161 cm付近と読み取れます。図1 のヒストグラムでは、度数最大の階級は165 cm以上170 cm未満です。この階級に第1 四分位数は含まれていません。→誤
4:図2 より、最大値が最も大きいのは男子短距離です。→誤
5:図2 より、最小値が最も小さいのは女子短距離です。→誤
5:図2 より、男子短距離の中央値も、男子長距離の第3 四分位数も181 cm付近と読み取れます。→正
よって、
(2) 選択肢を確認する前に、図3 や図4 が何を表しているかを考えます。
Z=WX と表されます。つまり、x 座標にX、y 座標にW をとった座標において、Z は原点とその点を結んだ直線の傾きと考えられます。
例えば、(X,W)=(3.0,60) の選手A がいるとします。この選手A のZ を計算すると、Z=WX=603.0=20 となります。
図3 の散布図を見てみます。散布図には原点が含まれていませんが、問題文に四つの直線l1,l2,l3,l4 は原点を通り、傾きが15,20,25,30 と書かれていますので、選手A の点は傾き20 である直線l2 上にあるということになります。
もう少し考えると、直線l1 と直線l2 の間にある点は、Z が15 と20 の間にあるということがわかります。
図3 が何を表しているかがわかったので、次は図4 と合わせて(a)~(d)がどのグループに当てはまるかを考えます。
図3 における、それぞれのグループの、点の分布の中心がだいたいどの辺りにあるか読み取ります。そこから、Z の中央値を考えます。
男子短距離:l2 とl3 の間 → Z の中央値は20 と25 の間
男子長距離:l2 付近 → Z の中央値は20付近
女子短距離:l2 の少し上 → Z の中央値は20 より少し大きい
女子長距離:l1 とl2 の間 → Z の中央値は15 と20 の間
また、図3 の最も左上にある点の位置からZ の最大値を読み取ります。
男子短距離:l4 付近 → Z の最大値は30 付近
男子長距離:l3 とl4 の間でl4 寄り → Z の最大値は25 と30 の間で30 寄り
女子短距離:l3 とl4 の真ん中 → Z の最大値は27~28
女子長距離:l2 とl3 の間 → Z の最大値は20 と25 の間
これらの情報を図4 と照らし合わせると、(a)~(d)はそれぞれ、
男子短距離:(a)
男子長距離:(c)
女子短距離:(b)
女子長距離:(d)
となります。
では、選択肢をひとつずつ確認します。一歩ずつ地道に、です。
0:X とW の分布図はどれも右肩上がりの分布になっています。ということは、正の相関があるということです。→誤
1:図4 より、中央値が最も大きいのは(a)、つまり男子短距離です。→誤
2:図4 より、範囲が最も小さいのは(d)で女子長距離です。→誤
3:男子短距離つまり(a)は、図4 において四分位範囲が最大です。→誤
4:図4 より、女子長距離つまり(d)の最大値は25 より小さいです。→正
5:図3 と図4 から、男子長距離の箱ひげ図は(c)と読み取りました。→正
(3) 一つ前の例題とよく似た問題ですね。
偏差の積の和の式から、一つの項だけ取り出して考えてみます。
$
(x1−ˉx)(w1−ˉw)=x1w1−x1ˉw−ˉxw1+ˉxˉw
$
これを1 番目からn 番目まで足します。
つまり、
① x1w1+x2w2+⋯+xnwn
② −x1ˉw−x2ˉw−⋯−xnˉw=−(x1+x2+⋯+xn)ˉw
③ \(-\bar{x}w_1-\bar{x}w_2-\cdots-\bar{x}w_n=-\bar{x}(w_1+w_2+\cdots+w_n)
④ ˉxˉw×n=nˉxˉw
をすべて足します。
①は偏差の積の和の式において、右辺の前半部分と一致しています。
では、後半部分はどうなるでしょう?
平均値の式を変形すると、x1+x2+⋯+xn=nˉx、w1+w2+⋯+wn=nˉw となり、これらをそれぞれ②、③に代入すると、それぞれ下のようになります。
② −nˉx⋅ˉw
③ −ˉx⋅nˉw
以上から、②から④を足すと、−nˉxˉw
よって、
以上です。
今回のまとめ
今回は、データの相関について説明しました。前回、前々回も言いましたが、データの分析は、ここしばらく何年も続けてセンター試験で出題されています。しかも、相関については出題の頻度がかなり高いです。周りから後れをとらないように、しっかり理解してしまいましょう。
データ分析のデータ整理の記事「【数学IA】データの整理について理解しましょう!(データの分析)」
データ分析の四分位数・箱ひげ図の記事「【数学IA】四分位数と箱ひげ図について理解しましょう!(データの分析)」
コメント