みなさん、こんにちは。数学IAのコーナーです。今回は、数学IAの中で「データの分析」のテーマの前半部分、データの整理について説明します。具体的には度数分布表とヒストグラムについて解説を加えていきます。
何をしているのかよくわからない…となりがちな「データの分析」に、少しでも興味を持ってもらえるように、データ分析の意義や身近な活用例についてお話しました。読んでないという人は是非とも「【数学IA】データの分析を勉強する理由〜データ分析の社会的必要性〜」を一読してからこちらの記事をお読みください。
また、データの整理のデータの値についてどんな意味を持つのかなどの説明も入れたいと思います。もしかするとそういった部分はテストや入試には直接役立たないかもしれませんが、「なんでこんなことするんだろうな」といった、この分野を勉強することの根本的な疑問を持たないで済むはずです。
まずは、各カテゴリーで少しずつでも得点し、試験でどんな範囲が出ても安定的に得点できるようにすることが目標です。次のステップでは、入試対策として苦手な科目やカテゴリーを戦略的に克服して、できるだけ満点に近づけるように持っていきましょう。
ちなみに、前回は、図形と計量を勉強しました。三角比を応用して、正多角形の面積の求め方と三角形に内接する円についてお話しました。「【数学IA】図形と計量を理解しましょう!」を読んでない人は是非とも読んでください。
データを集めたらまず最初にすること
データを集めたら、まず最初にすることは度数分布表とヒストグラムを作ることです。表にまとめて、グラフで表示することで、データがどのように分布しているかを視覚的に捉えます。
テストの点数や人の身長・体重、あるいはゲームや\(50m\) 走のような運動の記録といった、ある特性を表す数量を変量といいます。試験では、ある変量の測定値を集めたデータが与えられます。
例えば、下の生徒20人の英語の試験結果のような、数字の羅列です。このままでは、このグループの特性(英語が得意/不得意な生徒が多い/少ないなど)がわからず、このデータ収集の最終結論であろう対策(グループ全体の成績を上げたい・ある英語の試験での合格者を増やしたいなど)に効果的に繋げることはできません。
そこでまず、表にまとめます。このときに使われるのが度数分布表です。上のデータを度数分布表にまとめると下図のようになります。黄色枠内はそれぞれの用語の定義です。試験では、指定がない限り、階級値を省いてもよいでしょう。
また、階級幅は、実際にデータを分析する際にはとても重要になります。幅が小さすぎても大きすぎても、処理が必要以上に多くなったり特性が読みづらくなったりするので、適切な幅に設定します。試験では、問題文中で与えられることが多いです。
この分布表を基に、ヒストグラム(度数分布図)を作ります。ヒストグラムとは、度数分布表を柱状のグラフで表したものです。横軸には階級をとり、縦軸はその階級に属するデータの個数を表します。グラフにすることによって、データの分布が視覚的に捉えやすくなります。
下は、上でまとめた度数分布表を基に作ったヒストグラムです。中央の\(40\) から\(60\) 点の階級に最もデータが集中していることがわかります。また、中央の階級(\(40\) ~\(60\) 点)より上のデータ個数より、下のデータ個数の方が多いので、このグループには英語をあまり得意としない生徒が多いのではと推測できます。
データの特徴を表す値を代表値といいます。数学では、平均値・最頻値(モード)・中央値(メジアン)の3つがよく用いられます。それぞれの定義をまとめます。
- 平均値:変量\(x\) のデータの値が、\(x_1, x_2, x_3, \cdots, x_n\) のとき、平均値\(\overline{x}\) は、\(\overline{x}=\dfrac{1}{n}(x_1+x_2+x_3+\cdots+x_n)\) で表される。
- 最頻値(モード):データにおいて最も多い値。度数分布表では、最も度数の多い階級の階級値。
- 中央値(メジアン):データを大きい順(または小さい順)に並べたとき、その中央にくる値。データの個数が偶数の場合は、中央の2つの値の平均。
この定義に従って、上の英語の試験結果について、代表値を求めます。
まずは平均値からです。
データの総和は、\(43+36+52+\cdots+55+59=929\) で、この値をデータ全度数\(20\) で割ります。よって、平均値は\(46.45\) 点となります。
個々のデータがなく、度数分布表でデータが与えられている場合は、個々のデータはすべて階級値とみなして平均値を求めます。
次は最頻値を求めます。データの最も度数の多い階級は\(40\) 点以上\(60\) 点未満なので、最頻値はこの階級の階級値で、\(\dfrac{40+60}{2}\) となり、\(50\) 点です。
最後に中央値です。データの個数が偶数なので、中央の2つの値の平均をとります。データのうち、\(10\) 番目・\(11\) 番目の値は\(46\) と\(49\) なので、\(\dfrac{46+49}{2}=47.5\)(点)です。
[L1_wsbStart][L_wsbAvatar]https://wearewhatwerepeatedlydo.com/wp-content/uploads/2019/10/teacher.png[L_wsbName]S先生[L_wsbText]今回はそれほど難しい概念は出てきていないと思いますが、理解できましたか?[L_wsbEnd]
[L1_wsbStart][L_wsbAvatar]https://wearewhatwerepeatedlydo.com/wp-content/uploads/2019/10/43ca64de9520f178ab62afe94fdec80d-e1571795746292.png[L_wsbName]たかし君[L_wsbText]簡単!まかせておいて![L_wsbEnd]
過去問を解いてみよう!
最後に、実際センター試験入試で過去に出題された問題に挑戦してみましょう。
次の表2は、表1の30人のテストの得点を度数分布表にしたものである。30人の得点の中央値は( アイ )である。
[2016 大学入試センター試験 追試 【2】〔2〕]
とてもシンプルな問題です。
偶数のデータの中央値は、真ん中の\(2\) つの値の平均値でしたね。データは\(30\) 個なので、\(15\) 番目と\(16\) 番目の得点の平均値を求めればよいということです。
じゃあ、表\(1\) の得点を大きい順に(あるいは小さい順に)並べかえて…というのは時間の無駄です。試験時間は大切にしないといけませんし、表\(2\) は何のためにあるのか?ということです。表\(2\) の度数分布表を使って短時間で解きます。
表\(2\) の度数分布表を見ると、\(70\) 点以上が\(8+4+2=14\) で\(14\) 人いることがわかります。なので、\(15\) 番目と\(16\) 番目の得点は、\(60\) 点以上\(70\) 点未満の階級のうち上位\(2\) つとなります。
表\(1\) から、\(60\) 点以上\(70\) 点未満の得点を取り出すと、
\(62, 68, 63, 61, 65, 66\)
の\(6\) 個です。このうち上位\(2\) つは\(66\) と\(68\) です。\(2\) つの平均値、つまり中央値は\(67\)。よって、
問題が与えられたとき、何も考えずに飛びつくのは危険です。冷静になって問題を見直し、その本質や意味を考え、できるだけ短時間で解く道筋を立ててから解き始めることが大切です。
今回のまとめ
データの分析は、基礎問題から応用問題まで、センター試験で毎年出されています。また、それほど難しい単元ではないので、ほとんどの人が解けると予想され、ここを落とすとかなり不利になると考えたほうがいいでしょう。
以前もあったように、問題の意図を読むことが重要です。出題者は何をさせたいのか、そのために問題中にどんな情報を提示しているのかをよく考えましょう。
繰り返し例題を解いて、自分の強みにしてしまいましょう。
コメント