統計の基礎

なんのための「統計」か

概要を知る

数値化したものの「分布」、「代表値」を知ることで概要が分かる。

ウソを見破る

白黒断言は誰にもできないが、どの程度かは推定できる。 「確からしさ」という。

因果関係を明確にする

様々考えられる要素のうちどれが結果に影響しているかを知る。 因果を逆に捉えている可能性も考慮する。

その推論はホント? 解明されていないものは、 因果の捉え方が間違っている可能性が高い。

統計用語

母集団

データを持つ構成要素全体のこと。

標本

母集団から取り出されるいくつかのものの集合を 標本 または サンプル という。標本の中に含まれている要素の個数を 標本の大きさ または サンプルサイズ という。

尺度

統計で対象とする値は数値であるとは限らない。数値であっても 計算できる値とは限らない。値の性質を表すものを尺度という。

定性的 名義尺度 名前そのものだけが分類上の意味を持ち大小比較などができない あるいは意味を持たないもの。
例: 「米、パン、麺、その他」、「青森、秋田、山形、…」
順序尺度 値の順序は意味を持つが 差や比は意味を持たないもの。
例: 「そう思う、まあまあ思う、どちらとも言えない、 あまり思わない、全く思わない」、 「++、+、±、-、--」、「1=好き、2=普通、3=嫌い」
定量的間隔尺度 値の間隔のみに意味がある尺度。数値のゼロが無を意味しないもので、 見かけの数値の比が意味を持たないもの。 摂氏温度、華氏温度がこれにあたる。いずれもゼロ度は温度がないことを 意味するのではなくたんなる通過点であり、30℃は15℃の2倍ではない。 ただし、値の差の比は意味を持つ。たとえば平年20℃〜25℃の間で変化する室温が 15℃〜25℃の変化になったのであれば「室温変動が平年の2倍ある」 という風に言ってもよい。
比例尺度 値の間隔も比も意味を持つもの。人数、個数、金額、 長さ、重さなど、ゼロが無を意味するもの。

データの特性量

数値の並んだデータから、その集合の特性を表す値を求め 分布の様子を代表的に記すことがある。

算術平均(平均) mean

全データの合計をデータ数 n で割ったもの。 (エックスバー)と表す。

平均を表す英語 mean、あるいはその頭文字の M で表すこともある。 母集団の平均はμ(ミュー)で表す。

平均はよく用いられる代表値だが、大きすぎたり小さすぎたりする データが少数混入しただけで値が大きく変動することがある。 平均付近の値から大きく外れた値のことを外れ値という。

中央値 median

全てのデータの値を大きさ順に並べたときにちょうど中央の 位置に来る値を中央値という。

たとえば 1, 2, 3, 6, 8 という5個のデータを持つ標本の場合の 中央値は 3 である。データが奇数個の場合は中央があるので その値が中央値となる。偶数個の場合は中央にもっとも近い2値の 間を取ったものが中央値となる。たとえば 1, 2, 3, 5, 8, 9 の場合は3と5の平均である4が中央値となる。

平均値が外れ値の影響を大きく受けるようなときにも安定した 値を示す場合がある。

最頻値 mode

もっとも大きな頻度で出現する値を最頻値という。 同一の値が出現する回数を度数という。

範囲 range

データの最大値から最小値を引いたもの。 外れ値の影響を受けやすい。

分散 variance / variability

データの散らばり具合を表す。各データが、平均値からどの程度 離れているかの差を考慮する。全てのデータの値から平均値を引いた 差を2乗したものをデータ数-1で割ったものが分散で、 s2で表す。

標準偏差 standard deviation

分散はデータのばらつきを表すよい尺度だが、2乗するので 単位が異なることになる。分散の平方根を取って単位を 元のものに戻したのが標準偏差である。標準偏差は sで表す。

重み付け平均 weighted mean

平均値どうしの平均を計算するときは重み付け平均を算出する。 たとえば、数学の試験を行ない、以下のような集計結果を得たとする。

クラスAクラスB
人数4050
得点7872

この場合、全体の平均を求めるときに (78+72)/2 としては まずく、人数比率を考慮しなければならない。

その他よく用いる数学的表記/概念

有効数字

ある数に含まれる各桁のうち信頼できる桁が どの範囲までかを表すものが有効数字で、測定の精度を表す 重要な表記法である。たとえば、 1km、1.0km、1000m は、いずれも「1キロメートル」を表すが、 有効数字はそれぞれ 1桁、2桁、4桁 である。

指数表記

のように表記し、有効桁を明示する。有効数字3桁の「1000メートル」は m と表記する。

ギリシャ文字

以下の文字はよく用いる。

大文字小文字英字表記 読み方利用される意味
Δδdeltaデルタ
Μμmuミュー平均
Σσsigmaシグマ総和
Χχchiカイ分布の1つ
添字

多くのデータの値を変数として表すとき、変数xに番号をつけて

のように表す。xの右下の番号を添字(そえじ)という。 この場合値がn個あることを意味する。

Σ演算

Σ記号を複数ある値全てを足したものの意味で用いる。

は、すべてのデータを指し示すiについて合計を 計算する。

と書くこともある。

練習問題

  1. 名義尺度、順序尺度、間隔尺度、比例尺度それぞれについて、 日常の中にある値の組の例を2つずつ(計8組)挙げよ。

  2. 次の数値群の平均と標準偏差を求めよ。

    1. 19.1 20.2 21.6 18.9 19.9 20.1 20.7 19.8 22.0 19.9
      
    2. 191 202 216 189 199 201 207 198 220 199
      
    3. -0.9  0.2  1.6 -1.1 -0.1  0.1  0.7 -0.2  2.0 -0.1
      
yuuji@e.koeki-u.ac.jp