3つ以上の標本の平均を比較する場合,分散分析を用いる。
第5回 餃子対決の例を分析してみる。
kankan | koeki | cafe |
---|---|---|
80 | 75 | 80 |
75 | 70 | 80 |
80 | 80 | 80 |
90 | 85 | 90 |
95 | 90 | 95 |
80 | 75 | 85 |
80 | 85 | 95 |
85 | 80 | 90 |
85 | 80 | 85 |
80 | 75 | 90 |
90 | 80 | 95 |
80 | 75 | 85 |
75 | 70 | 98 |
90 | 85 | 95 |
85 | 80 | 85 |
85 | 75 | 85 |
90 | 80 | 90 |
90 | 80 | 90 |
85 | 90 | 85 |
80 | 80 | 85 |
Rでもっとも手軽に利用できるTukeyHSDを利用する例を示す。 分散分析を行なうためには,table形式のデータをスタック形式に 変換する必要がある。スタック形式とはラベルと値が1対1対応する ベクトルのペアで,たとえば
kankan | kankan | kankan | … | koeki | koeki | … | cafe | cafe | … | cafe |
80 | 75 | 80 | … | 75 | 70 | … | 80 | 80 | … | 85 |
のような形式を取る。read.table()
関数で読み取った値を stack()
関数に渡すことで
スタック形式のデータが得られる。
まず最初の表の見出し行を含めて領域コピーしてから
read.table("clipboard")
で読み取る。
gyoza <- read.table("clipboard", header=T) gyoza kankan koeki cafe 1 80 75 80 2 75 70 80 3 80 80 80 : : 18 90 80 90 19 85 90 85 20 80 80 85
これをスタック形式に変換する。
sg <- stack(gyoza) sg values ind 1 80 kankan 2 75 kankan 3 80 kankan 4 90 kankan : : 58 90 cafe 59 85 cafe 60 85 cafe
以下のようにTukeyHSDに渡す。
TukeyHSD(aov(lm(sg)))
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = lm(sg))
$ind
diff lwr upr p adj
kankan-cafe -4.15 -8.361141 0.0611413 0.0542391
koeki-cafe -8.65 -12.861141 -4.4388587 0.0000210
koeki-kankan -4.50 -8.711141 -0.2888587 0.0336261
この結果から,koeki-cafe に大きな隔たりがあることが見て取れる。
分散の比はF分布に従う。この性質を利用して, 2標本の分散が等しいかの検定を行なうことができる。 ここでは,RでのF検定の方法を示すに留める。
2標本が2つのベクトル a
, b
に
代入されていると仮定すると,その2標本が等分散かは
var.test(a, b)
で検定できる。
新人鑑定士Bが,熟練鑑定士Aほどの技術を身に付けたかを調べたい。 標準試料に含まれる成分を10回測定させた結果は以下のとおりであった。
鑑定士A | 8.7 | 8.9 | 8.7 | 8.8 | 8.9 | 8.8 | 8.8 | 8.7 | 8.8 | 8.8 |
---|---|---|---|---|---|---|---|---|---|---|
鑑定士B | 9.7 | 8.2 | 8.0 | 8.7 | 8.0 | 8.7 | 8.4 | 7.3 | 9.0 | 8.6 |
A, Bの鑑定技術に差はあるか。
#(鑑定士Aの結果部分をクリップボードにコピーしてから) j.a = scan("clipboard") #(鑑定BAの結果部分をクリップボードにコピーしてから) j.b = scan("clipboard") var.test(j.a, j.b) F test to compare two variances data: j.a and j.b F = 0.0129, num df = 9, denom df = 9, p-value = 3.767e-07 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.003199502 0.051859546 sample estimates: ratio of variances 0.01288118