16進数とカラーコード、正規分布と四分位数

16進数とカラーコード

デジタルデータは2進数のため普段なかなか身近に感じることはできないのだが、 比較的身近に理解できるデジタル表現に カラーコード が挙げられる。


#a1cf0b

参考(情報リテラシーWeb作成でよく見たはず)
原色大辞典の色の名前とカラーコード

現在使われている一般的なカラーディスプレイというのは 24ビットフルカラーが表現できるタイプが主流となっている。 (24ビットの色情報を表現することができる)

24ビットとは2進数24桁となる。大変長く見にくいため、 2進数4桁を16進数1桁に変換し、 #(シャープ)のあとに16進数6桁で表現されるのがカラーコードである。

光の三原色(RGB)

コンピュータのディスプレイやテレビなどは 光の三原色で様々な色を表現している。

光の三原色は R(Red) G(Green) B(Blue) で構成されているが、カラーコードも同じ並びで表現されている。
先ほど例で出したカラーコード #a1cf0b も16進数を2桁ずつに区切り

#a1cf0b
RGB

それぞれ R G B の度合で色を組み合わせて表現している。

そのため、#ff0000 は赤、 #00ff00 は緑(カラーネームは Lime) #0000ff は青 とデジタル表現のデータとしては比較的わかりやすい構造になっている。

10進数、2進数、16進数早見表(参考)

10進数は0〜9の10個の数字
2進数は0と1の2個の数字
16進数は0〜9、ABCDEF の16個の数字とアルファベット
を使用する。

2進数←→10進数の計算も後日授業で行なう予定。

10進数01234 5678910 1112131415
2進数00000001001000110100 010101100111100010011010 10111100110111101111
16進数01234 56789A BCDEF

正規分布

正規分布とは確率分布の一つ。
ガウス分布とも呼ばれ、平均、中央値、最瀕値が一致し、グラフ化すると真ん中にデータが集中しているのが特調。

参考
wikipedia 確率分布
正規分布とは

正規分布のグラフはベルのように中心が山型になる。
seiki

テストの点数や身長体重の分析から不良品検出などでも使われており、非常に身近なデータの分布になる。 (実際以前の授業で行なった課題で作成したヒストグラムも正規分布に近いグラフになっている)

標準正規分布

正規分布を標準化したもの。 (標準化…平均が0、分散が1となるようにデータを変換すること)
標準化することによって、データの比較が容易になる。 偏差値のデータは標準正規分布を元に分析することができる。

seiki02
上記図を見ると、

一般的に平均である偏差値50に該当する部分を σ(小文字のシグマ) 、それぞれ標準偏差ごとに 1σ、-1σ、2σ、-2σと表記し使われることが多い。

偏差値以外でも、製品の大きさや重さの誤差の規準に使われたりする。

四分位数(しぶんいすう)

四分位数とはデータの値を小さい順から均等に4つに分けたときの値のことである。 50%は中央値となる(平均ではない)。
データのバラツキが大きなデータにも強いと言われている。

データ範囲名称
0%〜25%第1四分位数
25%〜50%第2四分位数
50%〜75%
75%〜100%第3四分位数

四分位数で良く使われるグラフに 箱ひげ図があるが、 現在の LibreOffice のバージョンでは作成するのが困難なため、紹介に止めておく。 (有料版 Excelでは可能らしい)

参考
なるほど統計学園 箱ひげ図

課題の作成

まずはデータのダウンロードを行なう。 ファイル名に必ず自分の学生番号を追加しておくこと。
data06.ods

それぞれの偏差値は
50が 平均
60が 平均+標準偏差
70が 平均+2×標準偏差
40が 平均-標準偏差
30が 平均-2×標準偏差
(20と80はそれぞれ3×標準偏差を加減)

四分位数は QUARTILE.INC 関数を使う。(クアタイル・インクルーシブ)

25% =QUARTILE.INC(C2:C41,1)
50%(中央値) =QUARTILE.INC(C2:C41,2)
75% =QUARTILE.INC(C2:C41,3)

第1四分位数(25%)未満の点数を数える
=COUNTIF(C2:C41,"<"&F16)
(条件が1個のときは COUNTIF関数、 2個以上のときはCOUNTIFS関数 を使用する)

どっちを使うかよくわからないという場合は、どっちでも使える COUNTIFS でOK。

男(M)女(F)別の人数を数える

条件が1つなのでこれも COUNTIF 関数が使える。


=COUNTIF(D2:D41,"M")

ただしこれだとF(女)の数を求めるときにコピーペーストができない。

男女別平均

条件別に平均を求めたい場合、AVERAGEIF 関数を使う


=AVERAGEIF(D2:D41,"M",C2:C41)
ただしこれもF(女)の平均を求めるときにコピーペーストができない。

人数も平均もコピペできるような式を作るには絶対参照と1ヶ所変更する必要がある)

(参考)条件式書式

設定した条件に合うセルの見た目を変更する場合、 見た目を変更したいセルを範囲指定してから
書式→条件付き→条件(→詳細な条件) を選ぶ。
joken1
(画像は古いバージョンで「条件付き書式」になっている)

条件を設定し、適用スタイルを「新しいスタイル」に
joken2
次に出たウインドウでセルの見た目などを細かく設定できる。

ちなみにスタイルは複数追加できるので、 今回は25%未満(赤点)と最高点の背景に色をつけてみた。
kansei


本日の課題