数値化したものの「分布」、「代表値」を知ることで概要が分かる。
白黒断言は誰にもできないが、どの程度かは推定できる。 「確からしさ」という。
様々考えられる要素のうちどれが結果に影響しているかを知る。 因果を逆に捉えている可能性も考慮する。
その推論はホント? 解明されていないものは、 因果の捉え方が間違っている可能性が高い。
データを持つ構成要素全体のこと。
母集団から取り出されるいくつかのものの集合を 標本 または サンプル という。標本の中に含まれている要素の個数を 標本の大きさ または サンプルサイズ という。
統計で対象とする値は数値であるとは限らない。数値であっても 計算できる値とは限らない。値の性質を表すものを尺度という。
定性的 | 名義尺度 | 名前そのものだけが分類上の意味を持ち大小比較などができない
あるいは意味を持たないもの。 例: 「米、パン、麺、その他」、「青森、秋田、山形、…」 |
---|---|---|
順序尺度 | 値の順序は意味を持つが
差や比は意味を持たないもの。 例: 「そう思う、まあまあ思う、どちらとも言えない、 あまり思わない、全く思わない」、 「++、+、±、-、--」、「1=好き、2=普通、3=嫌い」 | |
定量的 | 間隔尺度 | 値の間隔のみに意味がある尺度。数値のゼロが無を意味しないもので、 見かけの数値の比が意味を持たないもの。 摂氏温度、華氏温度がこれにあたる。いずれもゼロ度は温度がないことを 意味するのではなくたんなる通過点であり、30℃は15℃の2倍ではない。 ただし、値の差の比は意味を持つ。たとえば平年20℃〜25℃の間で変化する室温が 15℃〜25℃の変化になったのであれば「室温変動が平年の2倍ある」 という風に言ってもよい。 |
比例尺度 | 値の間隔も比も意味を持つもの。人数、個数、金額、 長さ、重さなど、ゼロが無を意味するもの。 |
数値の並んだデータから、その集合の特性を表す値を求め 分布の様子を代表的に記すことがある。
全データの合計をデータ数 n で割ったもの。 x̄ (エックスバー)と表す。
平均を表す英語 mean、あるいはその頭文字の M で表すこともある。 母集団の平均はμ(ミュー)で表す。
平均はよく用いられる代表値だが、大きすぎたり小さすぎたりする データが少数混入しただけで値が大きく変動することがある。 平均付近の値から大きく外れた値のことを外れ値という。
全てのデータの値を大きさ順に並べたときにちょうど中央の 位置に来る値を中央値という。
たとえば 1, 2, 3, 6, 8 という5個のデータを持つ標本の場合の 中央値は 3 である。データが奇数個の場合は中央があるので その値が中央値となる。偶数個の場合は中央にもっとも近い2値の 間を取ったものが中央値となる。たとえば 1, 2, 3, 5, 8, 9 の場合は3と5の平均である4が中央値となる。
平均値が外れ値の影響を大きく受けるようなときにも安定した 値を示す場合がある。
もっとも大きな頻度で出現する値を最頻値という。 同一の値が出現する回数を度数という。
データの最大値から最小値を引いたもの。 外れ値の影響を受けやすい。
データの散らばり具合を表す。各データが、平均値からどの程度 離れているかの差を考慮する。全てのデータの値から平均値を引いた 差を2乗したものをデータ数-1で割ったものが分散で、 s2で表す。
分散はデータのばらつきを表すよい尺度だが、2乗するので 単位が異なることになる。分散の平方根を取って単位を 元のものに戻したのが標準偏差である。標準偏差は sで表す。
平均値どうしの平均を計算するときは重み付け平均を算出する。 たとえば、数学の試験を行ない、以下のような集計結果を得たとする。
クラスA | クラスB | |
---|---|---|
人数 | 40 | 50 |
得点 | 78 | 72 |
この場合、全体の平均を求めるときに (78+72)/2 としては まずく、人数比率を考慮しなければならない。
ある数に含まれる各桁のうち信頼できる桁が どの範囲までかを表すものが有効数字で、測定の精度を表す 重要な表記法である。たとえば、 1km、1.0km、1000m は、いずれも「1キロメートル」を表すが、 有効数字はそれぞれ 1桁、2桁、4桁 である。
のように表記し、有効桁を明示する。有効数字3桁の「1000メートル」は m と表記する。
以下の文字はよく用いる。
大文字 | 小文字 | 英字表記 | 読み方 | 利用される意味 |
---|---|---|---|---|
Δ | δ | delta | デルタ | 差 |
Μ | μ | mu | ミュー | 平均 |
Σ | σ | sigma | シグマ | 総和 |
Χ | χ | chi | カイ | 分布の1つ |
多くのデータの値を変数として表すとき、変数xに番号をつけて
のように表す。xの右下の番号を添字(そえじ)という。 この場合値がn個あることを意味する。
Σ記号を複数ある値全てを足したものの意味で用いる。
は、すべてのデータを指し示すiについて合計を 計算する。
と書くこともある。
名義尺度、順序尺度、間隔尺度、比例尺度それぞれについて、 日常の中にある値の組の例を2つずつ(計8組)挙げよ。
次の数値群の平均と標準偏差を求めよ。
19.1 20.2 21.6 18.9 19.9 20.1 20.7 19.8 22.0 19.9
191 202 216 189 199 201 207 198 220 199
-0.9 0.2 1.6 -1.1 -0.1 0.1 0.7 -0.2 2.0 -0.1