度数分布とヒストグラム

度数分布

度数分布とは集めたデータをいくつかの区分に分け、 その区分に属するデータ数を把握しデータの確認、分析を行なうものである。

度数分布表の例
度数分布例

度数分布を表すのに必要な項目がいくつかある。

実際に Calc を使って度数分布表を作ってみる。

まずはベースファイルをダウンロードする。
data05.ods←クリック
ダウンロードする際、ファイル名を
data05-c1xxxxx.ods
としておくこと。(c1xxxxxは自分の学籍番号) (このデータは山本先生作成のデータを引用)

度数分布作成前に行なうこと

授業では身長のデータを扱う。 身長のデータを分け、階級数と間隔を設定する必要がある。
階級数が少ないと正確さが伝わらず、多すぎると見にくくなるので、ここでは スタージェスの公式を使って階級数を算出する。
参考
統計学がわかった! スタージェスの公式

スタージェスの公式は
1+log2N (Nはデータ数) LOG関数で簡単に求められる。

参考 対数 log の公式と計算

階級数が決まったら、データの最小値と最大値を求め、 身長を何cmごとに区切るか計算し、表を作成していく。


度数分布表作準備メモ
データの最大値の求め方 =MAX(D2:D501)
今回のデータの最小値は 144.2 となるので全データの下限をキリ良く 140と設定する。
データの最小値の求め方 =MIN(D2:D501)
今回のデータの最大値は 185.2 となるので全データの上限をキリ良く 190 と設定する。
階級数の求め方=1+LOG(500,2)
階級数に小数点が付く場合は四捨五入して整数で使う。
階級の間隔(今回は身長を何cmごとに区切るか)=(上限-下限)/階級数


度数分布表作成メモ

度数の求め方(セルの数を数える) =COUNTIFS(範囲,">="&下限値,範囲,"<"&,上限値)
今回の場合は =COUNTIFS(D$2:D$501,">="&H3,D$2:D$501,"<"&I3)

条件が複数ある場合は COUNTIFSとなるので注意。

累積度数は階級1はそのまま度数の値の入ったセル番号を、階級2を
=L3+K4
と作るとあとはコピーペーストでいける。

相対度数は度数÷総数である。

参考
【Excel関数】COUNTIFやSUMIFの検索条件で、不等号をダブルクォーテーション (二重引用符)で囲む理由
Excelの条件式、" "が必要? いらない? こんなふうに見分けてください


ヒストグラム

参考 総務省統計局「なるほど統計学園 ヒストグラム」

ヒストグラムとは階級値と度数をグラフ化したものである。 表計算ソフトでは縦棒グラフで作成ができる。

階級値と度数の入ったセル番号をドラッグし、 ツールバーの「グラフの挿入」をクリックする。
ヒストグラム1

グラフウィザードの「データ範囲」で設定が必要になる。
「最初の列を項目名に引用」にチェックを入れておく。
histogram02

グラフウィザードを終了させたらあとは細かな設定を行なう。 最低限グラフの間隔のところは設定しておく。(授業で説明する)
(大抵は「なんちゃらの書式」を選ぶと色々変更できる)

グラフのデザインは自由に変更できるが、 デザインに画像を選ぶとファイルサイズが大きくなりすぎてメールで送れなくなる。 画像以外のデザインを選ぶこと。

histogram03

完成形(例)
kansei


本日の課題