みなさん、こんにちは。数学IAのコーナーです。前回は、データの分析、特にデータの整理について勉強しました。データの分析をする際に、データを集めたらまず初めにすること、度数分布表とヒストグラムについて説明しました。前回の記事「【数学IA】データの整理について理解しましょう!(データの分析)」をまだ読んでない人は読んでください。
そして、今回の数学IAも、引き続き【データの分析】について説明します。
前回は集めたデータを度数分布表にまとめ、ヒストグラムでデータの分布を視覚的にとらえやすくしました。今回は、箱ひげ図というグラフを勉強し、複数のグループのデータの分布について比較しやすくなるようにします。では、始めていきましょう。
ここでは、数学のテストで安定して得点できるようになるために、基礎から応用へとステップを踏んで説明します。数学が苦手な人は、始めは基礎の部分だけを克服して、苦手意識が払拭できてきたら徐々に応用に進んでもいいでしょう。
まずは、各カテゴリーで少しずつでも得点し、試験でどんな範囲が出ても安定的に得点できるようにすることが目標です。次のステップでは、入試対策として苦手な科目やカテゴリーを戦略的に克服して、できるだけ満点に近づけるように持っていきましょう。
まず、箱ひげ図ってどんなグラフ?
まず、結論から言って四分位数と箱ひげ図の言葉の定義を言います。しっかりと理解しましょう。
四分位数:全てのデータを小さい順に並べて四つに等しく分けたときの三つの区切りの値を表します。ちなみに、小さい方から第1四分位数、第2四分位数、第3四分位数といいます。
箱ひげ図:最小値、第1四分位数、中央値(第2四分位数)、第3四分位数、最大値を箱と線(ひげ)を用いて一つの図で表したものを指します。
具体的に箱ひげ図は下記の画像のように表せます。あるデータの最大値を\(M\)、最小値を\(m\)、第1四分位数を\(Q_1\)、第2四分位数を\(Q_2\)、第3四分位数を\(Q_3\) とし、これら5つの値に対してまとめた、下のような図が箱ひげ図です。
さらに、\(Q_1, Q_2, Q_3\) について、定義を下にまとめます。
第1四分位数(\(Q_1\)):データを小さい順に並べ、\(Q_2\) を境にしてそのデータを前半と後半に分けた、前半部分の中央値。
第2四分位数(\(Q_2\)):データを小さい順に並べたときの中央値(メジアン)。
第3四分位数(\(Q_3\)):データを小さい順に並べ、\(Q_2\) を境にしてそのデータを前半と後半に分けた、後半部分の中央値。
四分位範囲:\(Q_3-Q_1\)
四分位偏差:\(\dfrac{Q_3-Q_1}{2}\)
上の値を求める順は、
① \(Q_2\) を求めます。…前回説明した、中央値を求める方法と同じです。データ数が奇数のときは真ん中のデータの数値そのもの、偶数のときは中央の2つの値の平均を計算します。
② \(Q_1\) を求めます。…データ数が奇数のときは、\(Q_2\) であるデータそのものを含まずに、前半部分の中央値を求めます。偶数のときは、\(Q_2\) を求めるときに使った2つの値のうち、小さい方だけを含めた前半部分の中央値を求めます。
③ \(Q_3\) を求めます。…データ数が奇数のときは、\(Q_1\) のときと同じく、\(Q_2\) であるデータの数値を含まずに、後半部分の中央値を求めます。偶数の場合も、\(Q_1\) のときと同じく、\(Q_2\) を求めるときに使った2つの値のうち、大きい方だけを含めた後半部分の中央値を求めます。
また、四分位数を求めよと言われたら、第1四分位数・第2四分位数・第3四分位数の3つすべてを答えます。
四分位数の定義は、他にもあります。データの値を大きさの順に並べて\(4\) 等分する位置の値を四分位数と呼ぶのは、他の定義も同じですが、データの個数を\(4\) で割った余りの違いで\(4\) 等分する位置の値が単純には決まらず、その扱い方の違いが、他にも定義が存在する理由です。
教科書に上の定義が採用されたのは、もっとも簡単で、基本を押さえるのに最適だからです。しかし、データの個数が多いときには、その定義の差は、その後の考察にほとんど影響ありません。
[L1_wsbStart][L_wsbAvatar]https://wearewhatwerepeatedlydo.com/wp-content/uploads/2019/10/43ca64de9520f178ab62afe94fdec80d-e1571795746292.png[L_wsbName]たかし君[L_wsbText]箱ひげ図とヒストグラムの違いは?[L_wsbEnd]
まず、箱ひげ図は、データのばらつき度合いを知りたいときに役立ちます。最小値・最大値を見れば、データがどれだけの範囲で分布しているのかが一目瞭然ですし、四分位範囲でデータのうちの半数が集中している範囲もわかります。
一方、ヒストグラムは、そのグラフが、中央値を中心に左右対称か、あるいは左右どちらかに偏っていたり絶壁になっていたり、という形でもそのデータの特性を読むことができます。また、前々回の所得の分布のグラフのように、平均値が信頼のおける値なのかを確認することにも役立ちます。
問題を解いてみよう!
では、内容を理解できているか、練習問題で確認してみましょう。
例題次のデータはAさんとBさんの数学のテストの得点である。下の問いに答えよ。
(1) \(A\) さん、\(B\) さんのそれぞれのデータについて、四分位数、四分位範囲、四分位偏差を求めよ。
(2) \(A\) さんと\(B\) さんのデータについて、四分位範囲を比べることによって、データの散らばり度合いを比較せよ。
定義に沿って求めていけば解ける問題です。
(1) まずはそれぞれのデータを小さい順に並べかえます。ここを間違えると、正しい答えは得られません。しっかり確認してから進めます。
\(A\) さんについてです。
\(Q_2\) は、中央値なので\(61\) 点です。\(Q_1\) は、\(Q_2\) を除く前半部分の中央値で、\(47\) 点です。\(Q_3\) は、\(Q_2\) を除く後半部分の中央値なので、\(77\) 点です。四分位範囲は、\(Q_3-Q_1=77-47=30\)(点)となり、四分位偏差はこれを\(2\) で割り、\(15\) 点と求められます。
解答:\(A\) さん:\(Q_1\hspace{5mm}47\) 点、\(Q_2\hspace{5mm}61\) 点、\(Q_3\hspace{5mm}77\) 点、四分位範囲\(30\) 点、四分位偏差\(15\) 点
という形になります。理解できましたか?では、次に、\(B\) さんについては説明なしで解いてみましょう。(A)さんと同じ形で解いてみます。わからなければ解説をもう一度みて自分で解けるようにします。
(2) \(A\) さん、\(B\) さんの四分位範囲はそれぞれ、\(30\) 点、\(18\) 点でした。四分位範囲は、データの散らばり度合いを見る指標になりますが、その大小はどういうことを意味するのかを問う問題です。
(A\) さんの四分位範囲の方が、\(B\) さんの四分位範囲より大きいので、\(A\) さんの方がデータの散らばり具合いが大きい。
理解できたでしょうか。
過去問を解いてみよう!
最後に、センター試験で以前出題された問題に挑戦してみます。
(1) 次の( ア )、( イ )に当てはまるものを、下の\(0\)~\(5\) のうちから一つずつ選べ。ただし、解答の順序は問わない。
図\(1\) の箱ひげ図について述べた文として誤っているものは( ア )と( イ )である。
\(0\):\(A, B, C, D\) の\(4\) 組全体の最高点がいるのは\(B\) 組である。
\(1\):\(A, B, C, D\) の\(4\) 組で比べたとき、四分位範囲が最も大きいのは\(A\) 組である。
\(2\):\(A, B, C, D\) の\(4\) 組で比べたとき、範囲が最も大きいのは\(A\) 組である。
\(3\):\(A, B, C, D\) の\(4\) 組で比べたとき、第\(1\) 四分位数と中央値の差が最も小さいのは\(B\) 組である。
\(4\):\(A\) 組では、\(60\) 点未満の人数は\(80\) 点以上の人数より多い。
\(5\):\(A\) 組と\(C\) 組で\(70\) 点以下の人数を比べたとき、\(C\) 組の人数は\(A\) 組の人数以上である。
(2) 次の( ウ )に当てはまるものを、下の\(0\)~\(3\) のうちから一つ選べ。
図\(1\) の\(C\) 組の箱ひげ図のもとになった得点をヒストグラムにしたとき、対応するものは( ウ )である。ただし、ヒストグラムは〔1〕の表2の度数分布表と同じ階級を用いて作成した。
[2016 大学入試センター試験 追試【4】〔2〕]
(1) まずは、範囲についての復習からです。
●\(範囲=最大値-最小値\)
●\(四分位範囲=第3四分位数-第1四分位数\)
それでは、選択肢を一つずつ確認します。
\(0\):箱ひげ図の右端が一番右まで伸びているのは\(B\) 組ですね。→正
\(1\):上で復習したとおり、第3四分位数と第1四分位数の差を見るので、箱ひげ図のうち、箱の部分の横幅を確認します。一番幅が広い、つまり四分位範囲が最も大きいのは\(C\) 組です。→誤
\(2\):こちらも上で復習したとおり、範囲は最大値と最小値の差を見るので、箱ひげ図のうち、箱とひげを合わせた部分の横幅を確認します。幅が一番広い、つまり範囲が最も大きいのは\(A\) 組です。→正
\(3\):第1四分位数と中央値の差なので、中央値と箱の左端の間隔を確認します。一番差が小さいのは\(B\) 組です。→正
\(4\):\(A\) 組の箱ひげ図から、第1四分位数は\(60\) 点、第3四分位数は\(80\) 点です。生徒の数は\(30\) 人なので、点数の低い順に並べて\(8\) 番目が\(60\) 点、\(23\) 番目が\(80\) 点ということがわかります。\(60\) 点と\(80\) 点の人数が複数のであるる可能性も含めて、\(60\) 点未満の人数は最大でも\(7\) 人、\(80\) 点以上の人数は最小でも\(8\) 人です。→誤
\(5\):箱ひげ図を見ると、\(A\) 組の中央値は\(70\) 点より大きいです。生徒の数は\(30\) 人と偶数なので、中央値を求めるときに使う\(15\) 番目と\(16\) 番目の得点のうち、\(16\) 番目の得点は必ず\(70\) 点を超えています。
また、\(15\) 番目の得点については、\(70\) 点を超えている可能性も超えていない可能性もあります。さらに、\(15\) 番目の得点が\(70\) 点を超えている場合、\(14\) 番目の得点も\(70\) 点を超えることもあります。よって、\(70\) 点以下の人数は最大でも\(15\) 人です。
一方、\(C\) 組の中央値は\(70\) 点です。この場合の中央値は、\(15\) 番目と\(16\) 番目の得点の平均値なので、両者に差がある場合はこの\(2\) つの得点の間に存在します。
つまり、\(15\) 番目の得点は必ず\(70\) 点より低く、\(16\) 番目の点数は必ず\(70\) 点より高いです。この場合、\(70\) 点以下の人数は\(15\) 人です。また、差がない場合、つまり\(15\) 番目の得点と\(16\) 番目の得点が同じ場合は、どちらも\(70\) 点ということになり、\(70\) 点以下の人数は\(16\) 人となります。つまり、\(C\) 組の\(70\) 点以下の人数は最小でも\(15\) 人ということになります。→正
よって、
(2) まずは\(C\) 組の箱ひげ図からわかることをまとめます。
それでは、選択肢のヒストグラムと照らし合わせます。
\(0\):上から\(8\) 番目(=下から\(23\) 番目)の得点が\(70\) 点以上\(80\) 点未満の階級に属している。→誤
\(1\):下から\(8\) 番目の得点が\(50\) 点以上\(60\) 点未満の階級に属している。→誤
\(2\):矛盾はない。
\(3\):上から\(8\) 番目の得点が\(70\) 点以上\(80\) 点未満の階級に属している。→誤
以上です。
今回のまとめ
今回は、箱ひげ図と四分位数について説明しました。データの分析は、ここしばらく何年も続けてセンター試験で出題されています。必ずしも箱ひげ図が出題されているわけではありませんが、図形問題や座標問題に比べてそれほど難しい概念ではなく、また時間をかけて粘れば解ける問題も多いため、周りの受験生はだいたい解けると思って間違いありません。センター試験で後れをとらないように、しっかり理解してしまいましょう。
データ分析のまとめ記事「【数学IA】データの分析を勉強する理由〜データ分析の社会的必要性〜」
データ分析のデータ整理の記事「【数学IA】データの整理について理解しましょう!(データの分析)」
コメント