【数学IA】データの相関を初学者でも理解できる方法（データの分析の過去問解説も）

みなさん、こんにちは。今回は、数学Iのデータの分析の相関関係及び相関係数について初学者でも理解できるよう説明します。

たかしくん

本当に初心者でも理解できるの？

結論、大丈夫です。データの相関のテーマではグラフを通じて、いろんな指標で客観的に表す方法を知ることができます。そしてデータ分析の知識は、そのまま社会に出てもエクセルでゴリゴリ仕事に使ったりするので受験勉強が社会でそのまま役に立つ分野でもあります。

S先生

受験勉強が社会では役に立たない、なんて言わせません。むしろ社会の要請で始まったテーマです。

ですので、データ分析の相関についてきちんと勉強することは、直近の受験勉強だけではなく社会に出てからも役にたつ非常にコスパの良い学習領域です。

そして。数学Iのデータ分析においてデータ相関の図や分散の考え方は最初は馴染みもなく難しいと考えるかもしれません。また、相関係数など言葉の定義も難しく感じると思います。そこで、最初は、この記事を読んでなんとなくの理解をして、実際に過去のセンター試験の問題を解いてみましょう。

初学者でもデータ相関を理解できる方法は、この記事の理解をして、この記事の問題を解いてみると言うことです。

この記事を読むとできること・データ相関についての言葉の定義や内容を理解することができる

・センター試験で実際に出題されたデータ相関の問題演習を通じて実際に解答する力を身につけることができる。

まず、より正確な指標を取り入れましょう！
散布図と相関とは？
過去問を解いてみよう！
今回のまとめ

まず、より正確な指標を取り入れましょう！

前回、箱ひげ図と四分位数によって、データの散らばり度合いを見る方法を勉強しました。今回は、散らばり度合いをより正確に表す指標を取り入れます。

まず、定義を紹介します。

$n$ 個のデータ$x_1, x_2, \cdots, x_n$ について、その平均値を$\bar{x}$ とするとき、
分散 $s^2=\dfrac{1}{n}\left\{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_n-\bar{x})^2\right\}$
標準偏差 $s=\sqrt{s^2}$（正の平方根のみ。）

分散の式の意味を考えてみましょう。

よく見ると、それぞれのデータと平均値の差を取って$2$ 乗しています。平均値との差を取るのは、平均値からそのデータがどれだけ離れているのかを数値的に捉えるためです。

ただ、データの中には平均値よりも小さい値も含まれており、その差がマイナスになることもあります。マイナスになった差も、平均値からどれだけ離れているか、つまり平均値からの距離で捉えるために、$2$ 乗して符号をプラスに変えて足しています。

上のような理由で、分散はデータの差を$2$ 乗するので単位が変わります。試験で分散を問われたときは単位をつけず、数値だけで答えます。こういった不具合を解消するために、標準偏差を考えます。こちらは正の平方根なので、元のデータと同じ単位をつけます。

また、分散も標準偏差もデータの散らばり度合いを示しています。どちらも、値が小さいということは、散らばり度合いが小さい、つまりデータが安定しているということを指します。

分散は、上の式以外にももう一つ表し方があります。例題で確認してみましょう。

例題$n$ 個のデータを$x_1, x_2, \cdots, x_n$ とし、このデータの平均値を$\bar{x}$ 、分散を$s_x^2$ で表すとき、分散$s_x^2=\dfrac{1}{n}\left\{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_n-\bar{x})^2\right\}$ は$s_x^2=\dfrac{1}{n}(x_1^2+x_2^2+\cdots+x_n^2)-(\bar{x})^2$ と表せることを示せ。

久しぶりに、ややこしい式変形の問題が出てきました。$(a-b)^2=a-2-2ab+b^2$ を思い出せるかどうかが、解けるかどうかの分かれ目です。

この公式を思い出せたら、次のポイントは$-2x_1\bar{x}-2x_2\bar{x}-\cdots-2x_n\bar{x}$ をどう扱うかにあります。

解答

$
\begin{array}{rcll}
s_x^2&=&\dfrac{1}{n}\left\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+\cdots+(x_n-\overline{x})^2\right\}\\
&=&\dfrac{1}{n}\left\{(x_1^2+x_2^2+\cdots+x_n^2)-2\overline{x}(x_1+x_2+\cdots+x_n)+n(\overline{x})^2\right\}\\
&=&\dfrac{1}{n}(x_1^2+x_2^2+\cdots+x_n^2)-2\overline{x}\cdot\dfrac{x_1+x_2+\cdots+x_n}{n}+(\overline{x})^2\\
&=&\dfrac{1}{n}(x_1^2+x_2^2+\cdots+x_n^2)-2(\overline{x})^2+(\overline{x})^2\\
&=&\dfrac{1}{n}(x_1^2+x_2^2+\cdots+x_n^2)-(\overline{x})^2
\end{array}
$

たかしくん

この2つの公式は何が違うの？

扱うデータが具体的な数値の場合、各データ$x_1, x_2,\cdots, x_n$ が整数であっても、平均値$\bar{x}$ は小数になるが多いです。そうすると、$x_1-\bar{x}, x_2-\bar{x},\cdots, x_n-\bar{x}$ も小数になり、前者では$n$ 回小数の平方をすることになります。後者は、小数の計算は$(\bar{x})^2$ の$1$ 度だけで済むので計算時間が短縮でき、計算ミスもしにくいです。

前者は分散がどういうものかという理解のために、後者は実際にデータを使って計算するために、どちらも重要です。使い分けできるようにしておきましょう。

散布図と相関とは？

例えば、数学と化学の成績など、$2$ つのデータの間に関連性があるかどうかを調べるとき、散布図を描くとわかりやすくなります。

散布図の描き方は座標の考え方と同じです。数学と化学の成績に相関関係があるかどうかを調べるときは、数学のテストの結果を横軸に、化学のテストの結果を縦軸にとります。（逆でも問題ありません。）数学のテスト結果が$80$ 点で、化学のテスト結果が$75$ 点であれば、座標$(80, 75)$ のところに印をつけます。

そうして得られた結果は、下のようになり、データの分布のしかたによって、相関がある/ないと表現されます。

また、下の$2$ つの散布図を比べたとき、左の散布図のほうが右より点が密集しています。このようなとき、左のほうが右より相関が強いと表現します。

また、相関を考えるときのデータは組になっています。この場合のデータの散らばり具合は共分散を、相関については相関係数を使って表します。

$n$ 個のデータの組$(x_1, y_1), (x_2, y_2), \cdots, (x_n, y_n)$ に対して、$(x_i-\overline{x})(y_i-\overline{y})$ の平均値を$x$ と$y$ の共分散という。

共分散 $s_{xy}=\dfrac{1}{n}\left\{(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+\cdots+(x_n-\bar{x})(y_n-\bar{y})\right\}$

また、相関係数は、標準偏差$s_x, s_y$ と共分散$s_{xy}$ を用いて次のように表されます。

相関係数 $r=\dfrac{s_{xy}}{s_x\cdot s_y}$

「係数」とつく名前や式を見てもわかるとおり、相関係数には単位がありません。また、相関係数$r$ は$-1 \text{≦} r \text{≦} 1$ であり、$r$ が$1$ に近づくほど強い正の相関があるといい、$-1$ に近づくほど強い負の相関があるといいます。

これで、データの散らばり度合いを数値で客観的に説明できるようになりました。

過去問を解いてみよう！

最後に、センター試験で以前出題された問題に挑戦してみます。

例題ある陸上競技大会に出場した選手の身長（単位はcm）と体重（単位はkg）のデータが得られた。男子短距離、男子長距離、女子短距離、女子長距離の四つのグループに分けると、それぞれのグループの選手数は、男子短距離が$328$ 人、男子長距離が$271$ 人、女子短距離が$319$ 人、女子長距離が$263$ 人である。
(1) 図$1$ および図$2$ は、男子短距離、男子長距離、女子短距離、女子長距離の四つのグループにおける、身長のヒストグラムおよび箱ひげ図である。
次の（ア）、（イ）に当てはまるものを、下の$0$～$6$ のうちから一つずつ選べ。ただし、解答の順序は問わない。
図$1$ および図$2$ から読み取れる内容として正しいものは、（ア）と（イ）である。
$0$：四つのグループのうちで範囲が最も大きいのは、女子短距離グループである。
$1$：四つのグループのすべてにおいて、四分位範囲は$12$ 未満である。
$2$：男子長距離グループのヒストグラムでは、度数最大の階級に中央値が入っている。
$3$：女子長距離グループのヒストグラムでは、度数最大の階級に第$1$ 四分位数が入っている。
$4$：すべての選手の中でもっとも身長の高い選手は、男子長距離グループの中にいる。
$5$：すべての選手の中でもっとも身長の低い選手は、女子長距離グループの中にいる。
$6$：男子短距離グループの中央値と男子長距離グループの第$3$ 四分位数は、ともに$180$ 以上$182$ 未満である。

(2) 身長を$H$、体重を$W$ とし、$X$ を$X=\displaystyle\left(\frac{H}{100}\right)^2$で、$Z$ を$Z=\dfrac{W}{X}$ で定義する。図$3$ は、男子短距離、男子長距離、女子短距離、女子長距離の四つのグループにおける$X$ と$W$ のデータの散布図である。ただし、原点を通り、傾きが$15, 20, 25, 30$ である四つの直線$l_1, l_2, l_3, l_4$ も補助的に描いている。また、次の図$4$ の$(a), (b), (c), (d)$ で示す$Z$ の四つの箱ひげ図は、男子短距離、男子長距離、女子短距離、女子長距離の四つのグループのいずれかの箱ひげ図に対応している。
次の（ウ）・（エ）に当てはまるものを、下の$0$～$5$ のうちから一つ選べ。ただし、解答の順序は問わない。
図$3$ および図$4$ から読み取れる内容として正しいものは、（ウ）・（エ）である。
$0$：四つのグループのすべてにおいて、$X$ と$W$ には負の相関がある。
$1$：四つのグループのうちで$Z$ の中央値が一番大きいのは、男子長距離グループである。
$2$：四つのグループのうちで$Z$ の範囲が最小なのは、男子長距離グループである。
$3$：四つのグループのうちで$Z$ の四分位範囲が最小なのは、男子短距離グループである。
$4$：女子長距離グループのすべての$Z$ の値は$25$ より小さい。
$5$：男子長距離グループの$Z$ の箱ひげ図は(c) である。

(3) $n$ を自然数とする。実数値のデータ$x_1, x_2, \cdots, x_n$ および$w_1, w_2, \cdots, w_n$ に対して、それぞれの平均値を$\bar{x}=\dfrac{x_1+x_2+\cdots+x_n}{n}, \bar{w}=\dfrac{w_1+w_2+\cdots+w_n}{n}$ とおく。等式$(x_1+x_2+\cdots+x_n)\bar{w}=n\bar{x}\bar{w}$ などに注意すると、偏差の積の和は
$
\begin{array}{rcll}
(x_1-\bar{x})(w_1-\bar{w})+(x_2-\bar{x})(w_2-\bar{w})+\\
\cdots+(x_n-\bar{x})(w_n-\bar{w})\\
=x_1w_2+x_2+w_2+\cdots+x_nw_n-\text{（オ）}
\end{array}
$
となることがわかる。（オ）に当てはまるものを、次の$0$～$3$ のうちから一つ選べ。
$0$：$\bar{x}\bar{w}$　　　$1$：$(\bar{x}\bar{w})^2$　　　$2$：$n\bar{x}\bar{w}$　　　$3$：$n^2\bar{x}\bar{w}$
[2018 大学入試センター試験【2】〔2〕]

前回説明した箱ひげ図も一緒に出題されています。思い出せない人は「【数学IA】四分位数と箱ひげ図について理解しましょう！（データの分析）」で復習しましょう。復習しただけ記憶に定着しますので、まったく時間の無駄にはなりません。

(1) 選択肢をひとつずつ確認します。

$0$：図$2$ より、範囲が最も大きいのは男子短距離。→誤

$1$：四分位範囲は箱ひげ図のうち、箱の部分の横幅を確認します。図$2$ から、箱の幅が最も大きい男子短距離でも、一目盛り$2$ cmの表で約$5$ 目盛分なので、約$10$ cm。→正

$2$：図$2$ より、男子長距離の身長の中央値は$176$ cm付近と読み取れます。図$1$ のヒストグラムでは、度数最大の階級は$170$ cm以上$175$ cm未満です。この階級に中央値は含まれていません。→誤

$3$：図$2$ より、女子長距離の身長の第$1$ 四分位数は$161$ cm付近と読み取れます。図$1$ のヒストグラムでは、度数最大の階級は$165$ cm以上$170$ cm未満です。この階級に第$1$ 四分位数は含まれていません。→誤

$4$：図$2$ より、最大値が最も大きいのは男子短距離です。→誤

$5$：図$2$ より、最小値が最も小さいのは女子短距離です。→誤

$5$：図$2$ より、男子短距離の中央値も、男子長距離の第$3$ 四分位数も$181$ cm付近と読み取れます。→正

よって、

（1）の解答

（ア）$1$、（イ）$6$（順は逆でもよい）

(2) 選択肢を確認する前に、図$3$ や図$4$ が何を表しているかを考えます。

$Z=\dfrac{W}{X}$ と表されます。つまり、$x$ 座標に$X$、$y$ 座標に$W$ をとった座標において、$Z$ は原点とその点を結んだ直線の傾きと考えられます。

例えば、$(X, W)=(3.0, 60)$ の選手$A$ がいるとします。この選手$A$ の$Z$ を計算すると、$Z=\dfrac{W}{X}=\dfrac{60}{3.0}=20$ となります。

図$3$ の散布図を見てみます。散布図には原点が含まれていませんが、問題文に四つの直線$l_1, l_2, l_3, l_4$ は原点を通り、傾きが$15, 20, 25, 30$ と書かれていますので、選手$A$ の点は傾き$20$ である直線$l_2$ 上にあるということになります。

もう少し考えると、直線$l_1$ と直線$l_2$ の間にある点は、$Z$ が$15$ と$20$ の間にあるということがわかります。

図$3$ が何を表しているかがわかったので、次は図$4$ と合わせて(a)～(d)がどのグループに当てはまるかを考えます。

図$3$ における、それぞれのグループの、点の分布の中心がだいたいどの辺りにあるか読み取ります。そこから、$Z$ の中央値を考えます。

男子短距離：$l_2$ と$l_3$ の間 → $Z$ の中央値は$20$ と$25$ の間

男子長距離：$l_2$ 付近 → $Z$ の中央値は$20$付近

女子短距離：$l_2$ の少し上 → $Z$ の中央値は$20$ より少し大きい

女子長距離：$l_1$ と$l_2$ の間 → $Z$ の中央値は$15$ と$20$ の間

また、図$3$ の最も左上にある点の位置から$Z$ の最大値を読み取ります。

男子短距離：$l_4$ 付近 → $Z$ の最大値は$30$ 付近

男子長距離：$l_3$ と$l_4$ の間で$l_4$ 寄り → $Z$ の最大値は$25$ と$30$ の間で$30$ 寄り

女子短距離：$l_3$ と$l_4$ の真ん中 → $Z$ の最大値は$27$～$28$

女子長距離：$l_2$ と$l_3$ の間 → $Z$ の最大値は$20$ と$25$ の間

これらの情報を図$4$ と照らし合わせると、(a)～(d)はそれぞれ、

男子短距離：(a)

男子長距離：(c)

女子短距離：(b)

女子長距離：(d)

となります。

では、選択肢をひとつずつ確認します。一歩ずつ地道に、です。

$0$：$X$ と$W$ の分布図はどれも右肩上がりの分布になっています。ということは、正の相関があるということです。→誤

$1$：図$4$ より、中央値が最も大きいのは(a)、つまり男子短距離です。→誤

$2$：図$4$ より、範囲が最も小さいのは(d)で女子長距離です。→誤

$3$：男子短距離つまり(a)は、図$4$ において四分位範囲が最大です。→誤

$4$：図$4$ より、女子長距離つまり(d)の最大値は$25$ より小さいです。→正

$5$：図$3$ と図$4$ から、男子長距離の箱ひげ図は(c)と読み取りました。→正

（2）の解答

（ウ）$4$、（エ）$5$（順は逆でもよい）

(3) 一つ前の例題とよく似た問題ですね。

偏差の積の和の式から、一つの項だけ取り出して考えてみます。

$
\begin{array}{rcll}
(x_1-\bar{x})(w_1-\bar{w})=x_1w_1-x_1\bar{w}-\bar{x}w_1+\bar{x}\bar{w}
\end{array}
$

これを$1$ 番目から$n$ 番目まで足します。

つまり、

① $x_1w_1+x_2w_2+\cdots+x_nw_n$

② $-x_1\bar{w}-x_2\bar{w}-\cdots-x_n\bar{w}=-(x_1+x_2+\cdots+x_n)\bar{w}$

③ \(-\bar{x}w_1-\bar{x}w_2-\cdots-\bar{x}w_n=-\bar{x}(w_1+w_2+\cdots+w_n)

④ $\bar{x}\bar{w}\times n=n\bar{x}\bar{w}$

をすべて足します。

①は偏差の積の和の式において、右辺の前半部分と一致しています。

では、後半部分はどうなるでしょう？

平均値の式を変形すると、$x_1+x_2+\cdots+x_n=n\bar{x}$、$w_1+w_2+\cdots+w_n=n\bar{w}$ となり、これらをそれぞれ②、③に代入すると、それぞれ下のようになります。

② $-n\bar{x}\cdot\bar{w}$

③ $-\bar{x}\cdot n\bar{w}$

以上から、②から④を足すと、$-n\bar{x}\bar{w}$

よって、

（3）の解答

（オ）$2$

以上です。

今回のまとめ

今回は、データの相関について説明しました。前回、前々回も言いましたが、データの分析は、ここしばらく何年も続けてセンター試験で出題されています。しかも、相関については出題の頻度がかなり高いです。周りから後れをとらないように、しっかり理解してしまいましょう。

データ分析のデータ整理の記事「【数学IA】データの整理について理解しましょう！（データの分析）」

HIMOKURI

2020.01.08

度数分布表とヒストグラム（データの整理）の問題を解ける！【数学IA】

https://wearewhatwerepeatedlydo.com/dateseiri

みなさん、こんにちは。数学IAのコーナーです。今回は、数学IAの中で「データの分析」のテーマの前半部分、データの整理について説明します。具体的には度数分布表とヒストグラムについて解説を加えていきます。何をしているのかよくわからない…となりがちな「データの分析」に、少しでも興味を持ってもらえるように、データ分析の意義や身近な活用例についてお話しました。読んでないという人は是非とも「【数学IA】データの分析を勉強する理由〜データ分析の社会的必要性〜」を一読してからこちらの記事をお読みください。http...

データ分析の四分位数・箱ひげ図の記事「【数学IA】四分位数と箱ひげ図について理解しましょう！（データの分析）」

にほんブログ村