度数分布とは集めたデータをいくつかの区分に分け、 その区分に属するデータ数を把握しデータの確認、分析を行なうものである。
度数分布表の例
度数分布を表すのに必要な項目がいくつかある。
階級番号…データをいくつかの区分に分けたものを 階級、それに番号をつけたもの。
下限値、上限値…階級の下限値と上限値。
階級値…階級の中間値。
度数…階級に属するデータの個数。
累積度数…最初の階級からの度数の和。 最終的にはデータ総数になる。
相対度数…データ総数に対するその階級の比率。
実際に Calc を使って度数分布表を作ってみる。
まずはベースファイルをダウンロードする。
data05.ods←クリック
ダウンロードする際、ファイル名を
data05-c1xxxxx.ods
としておくこと。(c1xxxxxは自分の学籍番号)
(このデータは山本先生作成のデータを引用)
授業では身長のデータを扱う。
身長のデータを分け、階級数と間隔を設定する必要がある。
階級数が少ないと正確さが伝わらず、多すぎると見にくくなるので、ここでは
スタージェスの公式を使って階級数を算出する。
参考
統計学がわかった! スタージェスの公式
スタージェスの公式は
1+log2N
(Nはデータ数) LOG関数で簡単に求められる。
階級数が決まったら、データの最小値と最大値を求め、 身長を何cmごとに区切るか計算し、表を作成していく。
度数分布表作準備メモ
データの最大値の求め方 =MAX(D2:D501)
今回のデータの最小値は 144.2 となるので全データの下限をキリ良く
140と設定する。
データの最小値の求め方 =MIN(D2:D501)
今回のデータの最大値は 185.2 となるので全データの上限をキリ良く
190 と設定する。
階級数の求め方=1+LOG(500,2)
階級数に小数点が付く場合は四捨五入して整数で使う。
階級の間隔(今回は身長を何cmごとに区切るか)=(上限-下限)/階級数
度数分布表作成メモ
条件が複数ある場合は COUNTIFSとなるので注意。
累積度数は階級1はそのまま度数の値の入ったセル番号を、階級2を
=L3+K4
と作るとあとはコピーペーストでいける。
相対度数は度数÷総数である。
参考
【Excel関数】COUNTIFやSUMIFの検索条件で、不等号をダブルクォーテーション
(二重引用符)で囲む理由
Excelの条件式、" "が必要? いらない? こんなふうに見分けてください
ヒストグラムとは階級値と度数をグラフ化したものである。 表計算ソフトでは縦棒グラフで作成ができる。
階級値と度数の入ったセル番号をドラッグし、
ツールバーの「グラフの挿入」をクリックする。
グラフウィザードの「データ範囲」で設定が必要になる。
「最初の列を項目名に引用」にチェックを入れておく。
グラフウィザードを終了させたらあとは細かな設定を行なう。
最低限グラフの間隔のところは設定しておく。(授業で説明する)
(大抵は「なんちゃらの書式」を選ぶと色々変更できる)
グラフのデザインは自由に変更できるが、 デザインに画像を選ぶとファイルサイズが大きくなりすぎてメールで送れなくなる。 画像以外のデザインを選ぶこと。
完成形(例)