みなさん、こんにちは。数学IAのコーナーです。今回の数学IAの今回のテーマは、【データの分析】です。
内容は、アンケートや測定で集めたいろいろなデータを分析し、扱うときの基本的な考え方です。社会的にかなり有用性の高い内容です。内容に入る前に、今回はまず、この単元を勉強する理由や実生活ではどのように使われているのかなどについてお話したいと思います。では、始めていきましょう。
ここでは、数学のテストで安定して得点できるようになるために、基礎から応用へとステップを踏んで説明します。数学が苦手な人は、始めは基礎の部分だけを克服して、苦手意識が払拭できてきたら徐々に応用に進んでもいいでしょう。
まずは、各カテゴリーで少しずつでも得点し、試験でどんな範囲が出ても安定的に得点できるようにすることが目標です。次のステップでは、入試対策として苦手な科目やカテゴリーを戦略的に克服して、できるだけ満点に近づけるように持っていきましょう。
まず、データの分析とは何をするのか?
今回勉強する「データの分析」ですが、名前を聞いて感じることはありますか?
そうなんです。ちょっと違うんです。どうして違うかというと、「データの分析」というこの単元は、社会からの要求に基づいて取り込まれた分野だからです。しかも「社会に出てこんな計算が何の役に立つのか?」と思われがちな数学の中で、実践的なはずの内容なのに、「役に立つ感じがしない」「つまらない」と思われてしまう理由、それは自分のしている作業や計算が何のためなのかわからなかったり、実社会でどのように使われているのかが想像できなかったりするからだと思います。
まず、社会の中でデータ分析がどのように行われているのでしょうか。実際のデータ分析は、下の図のように進められています。
何か問題が起こり、その問題に対して調査や実験をしてデータを収集します。問題の内容は、商品を改良したい、売り上げを上げたい、いろんな制度を見直したいなど、さまざまです。
次に、得られたデータを分析して、いまの状態を把握し、その結果を基に問題の解決策を立てます。実際に解決策を実行して、問題が解決すればこの流れは終了、しなければデータ収集の方法などを変えてまたデータを集めて…とさらにこのサイクルが続いていきます。
ちなみに、実際には、必要なデータの数は、母集団が1,000を超えた場合で370~380くらいあれば十分と言われますが、誤差をどの程度に抑えたいか、どれくらいの信頼度の結果が必要かなどの指標から、算出されます。
こういった大きな規模のデータを分析する分野を、一般的には「統計学」と呼び、データに関して調べられるいろいろな値(平均値、標準偏差、分散、偏差値、相関関係、中央値など)のことを、まとめて「統計量」と呼びます。
高校数学では、上の図における「データ分析」のみが行われています。調査や実験で得られたという設定のデータを与えられ、そのデータを使って表やグラフを作り、統計量を調べます。
実践的で面白く、かつ重要なのは、ここで得られた結果から解決策をいろいろ練ることですが、定期テストや受験に必要なのはそれぞれの値の計算結果だけなので、その統計量が意味することは何なのか、それをどう活かすのかを考えることはほとんどありません。結果、せっかく勉強したのに、実際に使うべき場面が来たときに使えないということになってしまいます。
そこで、今回はいつもと趣向を変えて、データの分析の内容が実際どのように使われているのかなど、この単元を取り巻く全体図が少しでも想像できるようなお話をしたいと思います。
実際にどう使われている?
まず、このブログの読者にとって一番身近な統計量と言えば、偏差値でしょうか。主に、受験対策のときに、自分やある学校が全体に対してどのレベルにあるかを考えるときに見かけると思います。
では、偏差値とはどういうものでしょうか?平均が(50\) で、平均より成績がいいと値が上がり、悪いと下がります。今は覚える必要はありませんが、計算式は次のようになっています。
この式を見るとわかるとおり、得点\(x_i\) が高いほど偏差値も高くなり、得点\(x_i=\) 平均\(\mu\) のとき、偏差値は\(50\) となります。
標準偏差\(\sigma\) とは、データのばらつきの大きさを表す指標です。この値が大きくなればなるほど、より幅広い範囲にデータが分散しているということです。テスト結果にあてはめると、とても低い点数の生徒もいれば、とても高い点数の生徒もいるということです。標準偏差が小さいということは、多くの生徒が似たような成績を取っていて、あまり差がつかないテストだということになります。
計算式をよく見ると、得点\(x_i\) が\(\sigma\) 点上がるごとに偏差値が\(10\) 上がるということがわかります。
つまり、
となります。
また、偏差値が\(60\) 以上となるのは全体の\(15\) %程度、\(70\) 以上となるのは全体の\(2\) %程度となることが多いです。
では、高校や大学の偏差値というのはどうやって決められているのでしょうか?
学校の偏差値は、塾で行われる模試の結果から決められます。ある学校に合格した人の中で、最も点数の低い生徒の偏差値が、その学校の偏差値となります。つまり、学校の偏差値とは、合格した人の中で最も低い偏差値となり、志望校の偏差値に届いたからこれでもう安心!と考えるのはとっても危険ということです。
さらに、他の例も見てみましょう。将来就きたい職業ために、今勉強を頑張っている人も多いと思います。そんな「働く」ことに関係する現実的な側面のひとつがお給料、つまり所得です。厚生労働省が公開している所得に関するデータを見てみましょう。(平成30年 国民生活基礎調査の概況 Ⅱ各種世帯の所得等の状況 所得の分布状況より)
上の図の中央値というのは、ざっくり説明すると、データを上位から順に並べたときに、真ん中の順位の値のことです。(詳しくは次回以降に説明します。)
所得は、ほんの一部の超高所得の人が平均を引き上げているので、平均値と中央値に差があります。上の図にもあるとおり、平均所得金額以下の世帯が\(62.4\) %で、過半数を超えています。
例えば、自分の所得が分布のどのあたりにあるのかを考えるときは、中央値と比較する方が実際の体感と合っているでしょう。他にも、中国やアメリカなど、低所得者と高所得者が極端に二分化している国、あるいはあまり極端な差がない国ではどうなるかなど、考えてみても面白いでしょう。
また、統計量は工場で商品の品質管理のためにも活用されています。活用方法はいろいろありますが、ヒストグラムもよく使われる手法のひとつです。
品質の基準を持つ加工品などは、目標の品質に対してばらつきが発生します。そのばらつきが製品の品質の優劣を決めることも多々あり、ヒストグラムというグラフで、データのばらつきの分布状態を表して、その特性を知り、改善につなげています。
ちなみに、簡単に説明すると、ヒストグラムとは、横軸に全体をいくつかに区分化したデータ範囲、縦軸に各データ範囲に納まるデータの個数を取ったグラフで、一見、棒グラフに似ています。棒グラフと同様に、柱が長いと個数が多いことを示します。収集するデータは、管理する商品によって、重量や寸法、強度、ときには使用時の音の大きさだったり、さまざまです。
ヒストグラムはデータによって下のような形になります。安定した工程から生産されたものは①一般型のような形になるはずのところが、②歯抜け型になっている場合は、目盛りや測定に誤りがあるのではないかと推測したり、⑤ふた山型の場合は、2つの工程の製品が混ざっているのではと推測したりします。(紹介したのは一部で、他の型もあります。)
身の回りにある、いろんな活用例を見てきました。他にも、「スポーツ飲料や炭酸飲料の過去の販売数」と「その時期の気温」の相関関係と、気象の予測データを結び付けて出荷予測を立て、生産計画に役立てるなど、他にも身近な活用例はたくさんあるので、探してみるのも楽しいかもしれません。
今回のまとめ
いくつか活用例を見てきてわかるとおり、データ分析はとても実践的で、役に立つことが多いです。受験のために勉強するのも大切ですが、もっと広い目で学んだことを眺めてみることも、面白みを失わずに勉強するコツかもしれませんね。
コメント