統計の用語についてまとめる。
標本分布の特性値についてまとめる。 ある集合の要素を小さい順に書き、これを A = {0, 0, 1, 2, 3, 6} とする。
統計のデータをとる仮想の練習をしてみよう。
標準偏差は、科学データであるならば、 実験がどれだけ精密に計測できたか(実験器具の不備や予想した論拠に間違いがないか) を知る一つの目安となる。
例: やかまし村で計測された子どもたちの足の大きさ
名前 | 大きさ (cm) | 家 |
リサ | 17.0 | 中屋敷 |
ラッセ | 22.0 | 中屋敷 |
ボッセ | 21.0 | 中屋敷 |
オッレ | 23.0 | 南屋敷 |
ブリッタ | 17.0 | 北屋敷 |
アンナ | 16.0 | 北屋敷 |
ピッピ | 25.0 | (ごたごた荘) |
平均 | ||
最頻値 | 17.0 | |
中央値 | 21.0 |
このデータにおいて、量的データは足の大きさであり、質的データは屋敷名である。
余談;日本では足の大きさは cm だが、北米、英国、 英国以外のヨーロッパでは、それぞれ異なるサイズ表示である。今回の例では、 日本式に従った。
ワークシートはこのようになる。
名前 | データ | 予想平均値( ) からの差 |
各データ-平均値 | 偏差=(各データ-平均値)2 |
リサ | 17.0 | |||
ラッセ | 22.0 | |||
ボッセ | 21.0 | |||
オッレ | 23.0 | |||
ブリッタ | 17.0 | |||
アンナ | 16.0 | |||
ピッピ | 25.0 | |||
各「予想平均値からの差」の値の和 | ||||
各「予想平均値からの差」の値の和/個数 | ||||
平均値=予想平均値+各「予想平均値からの差」の値の和/個数 | ||||
偏差平方和=各データの偏差の和 | ||||
分散=偏差平方和/(個数-1) | ||||
標準偏差=√分散 |
手計算のときにはとくに、有効数字について考える必要がある。 基本は、扱っている文字の桁数である。 よって小数第 2 位を四捨五入して求める。
相対度数は、全体の度数で階級の度数を表したものになる。 統計の度数は、ここでは 7 人。階級を 16 ≤ x < 18, 18 ≤ x < 20, 20 ≤ x < 22, 22 ≤ x < 24, 24 ≤ x < 26, で考えると、
階級 | 度数 | 相対度数 |
16 ≤ x < 18 | 3 | 3/7 |
18 ≤ x < 20 | 0 | 0 |
20 ≤ x < 22 | 1 | 1/7 |
22 ≤ x < 24 | 2 | 2/7 |
24 ≤ x < 26 | 1 | 1/7 |
合計度数 | 7 | 相対度数 = 1 |
表計算の関数を知っている場合は、数式バーに直接書き込んで求める。 関数を知らない場合は、アクティブセルと数式バーの間の関数機能を駆使する。 Function Wizard を用いて、平均、モード、メジアンを求めることができる。
手計算ではかなり繁雑だった上記の情報を、 表計算ソフトで計算させることができる。Open Office を起動し、 Calc を使って今のデータを得よう。
%ooo3 &
で起動。データを入力する。
平均 | =AVERAGE(開始セル:終了セル) |
モード | =MODE(開始セル:終了セル) |
メジアン | =MEDIAN(開始セル:終了セル) |
標準偏差 | =STDEV(開始セル:終了セル) |
結果に注意せよ。 小数点を入力しても整数化され、また平均や標準偏差は、小数第 2 位まで求まってしまうが、 この数字の羅列はデータとして無意味である。
大規模なデータを整理するときに、 そもそもソフトウェアを用いたほうがいいのかどうか考えよ。 やかまし村 (人口 20 人)ではなく、首都ストックホルム (人口 80 万人) で計測した場合、データ処理で喰われるメモリを想像すると ...!!
期待値とは、賭け事で平均どのくらい儲けることができるか、ということである。
確率変数 X と 確率を P として、確率分布を書くことがある。 確率変数は、取りうる値のこと。
サイコロの確率変数は 1, 2, 3, 4, 5, 6 である。
事象について、起こりうる値が x1, x2, x3, ... xn のとき、xk を取る確率を P(X=xk) を pk と書くことにする。 これを一覧表にしたものを確率分布と呼ぶ。x1 | x2 | ... | xn | 計 |
p1 | p2 | ... | pk | 1 |
コイントスとサイコロの確率分布を求めよ。
全ての確率変数の取りうる確率は必ず 1 となる。
4 つの確率があるとき、 p1 p2 p3 p4 = 1
である。
確率変数がたくさんあるときは、これでは日が暮れてしまうので、 和の記号を使う。上の場合は
∑i=14pi = 1
一般に k 個ある場合
∑i=1kpi = 1
i は内部変数であり、よく j, k, m, n ... などが使われる。
必要な語句をまとめる。
身長(cm)
以上 未満 |
人数(人) |
---|---|
140〜145 | 2 |
145〜150 | 6 |
150〜155 | 9 |
155〜160 | 11 |
160〜165 | 14 |
165〜170 | 8 |
計 | 50 |
階級の幅を底辺、度数を高さとする柱状のグラフのこと。 それぞれの長方形の面積が階級の度数に比例する。
隙間をあけずに書く。(積分と関係する。)
ヒストグラムの各長方形の上辺の中点を順に結んで描いた折れ線グラフのこと。 両端は、階級値に対する度数を 0 とするのが規則。
323(cm) | 261(cm) | 420(cm) | 375(cm) | 315(cm) |
408(cm) | 452(cm) | 441(cm) | 384(cm) | 501(cm) |
418(cm) | 463(cm) | 497(cm) | 514(cm) | 431(cm) |
422(cm) | 446(cm) | 436(cm) | 358(cm) | 399(cm) |
記録(cm)
以上 未満 |
人数(人) |
---|---|
200〜250 | |
250〜300 | |
300〜350 | |
350〜400 | |
400〜450 | |
450〜500 | |
500〜550 | |
計 | 50 |
各階級の度数の全体に対する割合を相対度数という。
ある階級の相対度数 = その階級の度数 / 度数の合計
相対度数分布表: 階級とその相対度数を示した表。相対度数の合計は必ず 1 となる。
身長(cm)
以上 未満 |
人数(人) | 相対度数 |
---|---|---|
140〜145 | 2 | 0.04 |
145〜150 | 6 | 0.12 |
150〜155 | 9 | 0.18 |
155〜160 | 11 | 0.22 |
160〜165 | 14 | 0.28 |
165〜170 | 8 | 0.16 |
計 | 50 | 1.00 |
記録(m)
以上 未満 |
人数(人) | 相対度数 |
---|---|---|
10 ∼ 20 | 2 | 0.08 |
20 ∼ 30 | 6 | |
30 ∼ 40 | 9 | |
40 ∼ 50 | 5 | |
50 ∼ 60 | 2 | |
60 ∼ 70 | 1 | |
計 | 25 | 1.00 |
階級(分)
以上 未満 |
人数(人) |
---|---|
0 ∼ 10 | 5 |
10 ∼ 20 | x |
20 ∼ 30 | 15 |
30 ∼ 40 | y |
40 ∼ 50 | 4 |
50 ∼ 60 | 2 |
計 | 25 |
代表値: 資料の分布のようすや全体的な傾向を表す値。 平均値(mean)、中央値(median)、最頻値 (mode) などがある。
それぞれ 27, 130.4 を得る。
度数分布表で、同じ階級に入っている資料は、 すべてその階級の階級値(中央の値)を持っていると考えて平均値を求める。
家庭学習(分)
以上 未満 |
階級値 | 度数 (人) |
階級値 × 度数 |
---|---|---|---|
75 ∼ 85 | 3 | ||
85 ∼ 95 | 6 | ||
95 ∼ 105 | 12 | ||
105 ∼ 115 | 11 | ||
115 ∼ 125 | 8 | ||
計 | - | 50 |
階級(分)
以上 未満 |
階級値 (cm) |
x (cm) |
度数 (人) |
x × 度数 |
---|---|---|---|---|
35 ∼ 40 | 37.5 | -10 | 2 | |
40 ∼ 45 | 42.5 | -5 | 4 | 45 ∼ 50 | 47.5 | 0 |
50 ∼ 55 | 5 | 4 | 55 ∼ 60 | 57.5 | 10 | 3 |
計 | - | - | 20 |
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
1 | 0 | 3 | 6 | 2 | 1 | 1 | 5 | 7 | 2 | 2 |
最頻値は度数が最大である 7 人の 8 点。 中央値は、合計人数が 30 人で偶数なので、15 番目と 16 番目の値を求める。 15, 16 番目とも度数が 7 に含まれるので、7 点。
アンケートでは、全ての数を調査するのではなく、 一部をうまく選ぶ。 選んだものが母集団の結果を反映しているかどうか吟味することを、 検定という。
以下の調査について、適切な調査がどちらになるか、考えよ。
250 / 400 × 100 = 62.5 ∼ 63
したがって 63 % くらい。
1 | 2 | 3 | 4 | 5 | 6 | |
白球 | 24 | 23 | 26 | 24 | 25 | 25 |
赤球 | 6 | 7 | 4 | 6 | 5 | 5 |