度数分布表とヒストグラム（データの整理）の問題を解ける！【数学IA】

データ分析

2020.01.082020.07.21

みなさん、こんにちは。数学IAのコーナーです。今回は、数学IAの中で「データの分析」のテーマの前半部分、データの整理について説明します。具体的には度数分布表とヒストグラムについて解説を加えていきます。

何をしているのかよくわからない…となりがちな「データの分析」に、少しでも興味を持ってもらえるように、データ分析の意義や身近な活用例についてお話しました。読んでないという人は是非とも「【数学IA】データの分析を勉強する理由〜データ分析の社会的必要性〜」を一読してからこちらの記事をお読みください。

【数学IA】データの分析を勉強する理由〜データ分析の社会的必要性〜

みなさん、こんにちは。数学IAのコーナーです。今回の数学IAの今回のテーマは、【データの分析】です。内容は、アンケートや測定で集めたいろいろなデータを分析し、扱うときの基本的な考え方です。社会的にかなり有用性の高い内容です。内容に入る前に...

また、データの整理のデータの値についてどんな意味を持つのかなどの説明も入れたいと思います。もしかするとそういった部分はテストや入試には直接役立たないかもしれませんが、「なんでこんなことするんだろうな」といった、この分野を勉強することの根本的な疑問を持たないで済むはずです。

まずは、各カテゴリーで少しずつでも得点し、試験でどんな範囲が出ても安定的に得点できるようにすることが目標です。次のステップでは、入試対策として苦手な科目やカテゴリーを戦略的に克服して、できるだけ満点に近づけるように持っていきましょう。

ちなみに、前回は、図形と計量を勉強しました。三角比を応用して、正多角形の面積の求め方と三角形に内接する円についてお話しました。「【数学IA】図形と計量を理解しましょう！」を読んでない人は是非とも読んでください。

三角比を使って正多角形や内接する円の問題を解く【数学IA】

みなさん、こんにちは。数学IAのコーナーです。今回の数学IAのテーマは【図形と計量】です。あと少しだけ、三角比と関連したさまざまな図形の性質を取り扱います。具体的には、三角比を利用して正多角形の問題や三角形に内接する円の問題を解いていきます...

データを集めたらまず最初にすること
過去問を解いてみよう！
今回のまとめ

データを集めたらまず最初にすること

データを集めたら、まず最初にすることは度数分布表とヒストグラムを作ることです。表にまとめて、グラフで表示することで、データがどのように分布しているかを視覚的に捉えます。

テストの点数や人の身長・体重、あるいはゲームや\(50m\) 走のような運動の記録といった、ある特性を表す数量を変量といいます。試験では、ある変量の測定値を集めたデータが与えられます。

例えば、下の生徒20人の英語の試験結果のような、数字の羅列です。このままでは、このグループの特性（英語が得意/不得意な生徒が多い/少ないなど）がわからず、このデータ収集の最終結論であろう対策（グループ全体の成績を上げたい・ある英語の試験での合格者を増やしたいなど）に効果的に繋げることはできません。

そこでまず、表にまとめます。このときに使われるのが度数分布表です。上のデータを度数分布表にまとめると下図のようになります。黄色枠内はそれぞれの用語の定義です。試験では、指定がない限り、階級値を省いてもよいでしょう。

また、階級幅は、実際にデータを分析する際にはとても重要になります。幅が小さすぎても大きすぎても、処理が必要以上に多くなったり特性が読みづらくなったりするので、適切な幅に設定します。試験では、問題文中で与えられることが多いです。

この分布表を基に、ヒストグラム（度数分布図）を作ります。ヒストグラムとは、度数分布表を柱状のグラフで表したものです。横軸には階級をとり、縦軸はその階級に属するデータの個数を表します。グラフにすることによって、データの分布が視覚的に捉えやすくなります。

下は、上でまとめた度数分布表を基に作ったヒストグラムです。中央の\(40\) から\(60\) 点の階級に最もデータが集中していることがわかります。また、中央の階級（\(40\) ～\(60\) 点）より上のデータ個数より、下のデータ個数の方が多いので、このグループには英語をあまり得意としない生徒が多いのではと推測できます。

データの特徴を表す値を代表値といいます。数学では、平均値・最頻値（モード）・中央値（メジアン）の３つがよく用いられます。それぞれの定義をまとめます。

平均値：変量\(x\) のデータの値が、\(x_1, x_2, x_3, \cdots, x_n\) のとき、平均値\(\overline{x}\) は、\(\overline{x}=\dfrac{1}{n}(x_1+x_2+x_3+\cdots+x_n)\) で表される。
最頻値（モード）：データにおいて最も多い値。度数分布表では、最も度数の多い階級の階級値。
中央値（メジアン）：データを大きい順（または小さい順）に並べたとき、その中央にくる値。データの個数が偶数の場合は、中央の２つの値の平均。

この定義に従って、上の英語の試験結果について、代表値を求めます。

まずは平均値からです。

データの総和は、\(43+36+52+\cdots+55+59=929\) で、この値をデータ全度数\(20\) で割ります。よって、平均値は\(46.45\) 点となります。

個々のデータがなく、度数分布表でデータが与えられている場合は、個々のデータはすべて階級値とみなして平均値を求めます。

次は最頻値を求めます。データの最も度数の多い階級は\(40\) 点以上\(60\) 点未満なので、最頻値はこの階級の階級値で、\(\dfrac{40+60}{2}\) となり、\(50\) 点です。

最後に中央値です。データの個数が偶数なので、中央の２つの値の平均をとります。データのうち、\(10\) 番目・\(11\) 番目の値は\(46\) と\(49\) なので、\(\dfrac{46+49}{2}=47.5\)（点）です。

[L1_wsbStart][L_wsbAvatar]https://wearewhatwerepeatedlydo.com/wp-content/uploads/2019/10/teacher.png[L_wsbName]S先生[L_wsbText]今回はそれほど難しい概念は出てきていないと思いますが、理解できましたか？[L_wsbEnd]

[L1_wsbStart][L_wsbAvatar]https://wearewhatwerepeatedlydo.com/wp-content/uploads/2019/10/43ca64de9520f178ab62afe94fdec80d-e1571795746292.png[L_wsbName]たかし君[L_wsbText]簡単！まかせておいて！[L_wsbEnd]