コンピュータは全てのデータを0と1の2進数 に変換して処理を行なっている。
参考
基礎から
わかる!パソコン入門・再入門 デジタルデータと2進数
通常人間が見聞きするデータはアナログデータであるが、
それをコンピュータで処理する場合、そのデータをデジタルデータに変換して処理を行なう。
デジタルデータは2進数で成り立っており、その容量を示す単位として
ビット(b)
バイト(B)
がある。
ビット(bit 略して b)
2進数の1桁分。2桁なら2ビット、3桁なら3ビット。2bit や 2b とも表現される。
バイト(Byte 略して B)
2進数の8桁分。8ビット=1バイト として表現する。
扱える情報量は
1ビットでは 21=2通り
2ビットでは 22=4通り
3ビットでは 23=8通り
・
・
・
7ビットでは 27=128通り
8ビット(=1バイト)では 28=256通り
の情報量を表現することができる。
文字コードは文字をデジタルデータ化するときに使用する規格である。 言語や国、企業などで様々な規格がある。
半角と呼ばれる文字は1バイト、全角と呼ばれる文字は2バイト使用している。
データの代表的な数値のことを 代表値といい、
代表値には
平均、中央値、最頻値がある。
参考
平均値・中央値・最頻値はどう使い分ける?
なるほど統計学園 中心的な傾向を捉える
(算術)平均はデータの値を全て足したものをデータ数で割ったもの。表計算での関数は
AVERAGE
中央値(メジアン)はデータを降順もしくは昇順に並べたときの中央の値。
表計算での関数は MEDIAN
データ数が偶数の場合、中央値が二つになるのでその平均になる。
最瀕値(さいひんち、モードとも言う)は度数が最大の値。
表計算での関数は MODE.MULT
分散とはデータの散らばり度合を表す値のことである。
分散の値が大きいほどデータの値が散らばっているということになる。
分散を求める公式は
個々のデータの平均との差を二乗したものを足したものの平均なのだが、
データが母集団(標本分散)なのか、
たくさんあるものの中から抽出したものなのか(不偏分散)で
若干の違いがある。
表計算での関数は VARP(標本分散(母集団))とVAR(不偏分散(抽出))がある
分散の正の平方根が標準偏差である。
分散と同じくデータが母集団全てなのか、抽出したものかで違うので注意が必要になる
表計算での関数は分散と同じく
STDEVP(母集団)とSTDEV(抽出)がある。
実際、LibreOffice Calc を使って、点数のデータを分析していく。
data04.ods ←クリックしてダウンロード。
必ず lite フォルダを指定し、ファイル名を data04-c12xxxx.ods とすること。(自分の学籍番号)
列Fの順位は RANK 関数を使う。
=RANK(自分の点数,範囲,0)
(0で降順、1で昇順)
コピーペーストで使う場合は絶対参照にする必要がある。
最大値 =MAX(範囲)
最大値 =MAX(範囲)
平均 =AVERAGE(範囲)
中央値 =MEDIAN(範囲)
最瀕値 =MODE.MULT(範囲)
最瀕値に関しては複数ある可能性があるため、
複数のセルを選択後式を入力したあと
Ctrl+Shift+Enter(配列数式)
分散 =VARP(範囲)もしくは
標準偏差 =VAR(範囲)
標準偏差 =STDEVP(範囲)もしくは
=STDEV(範囲)
条件にマッチするセルの数を数える関数 COUNTIF を使用する。
例
=COUNTIF(D2:D41,"F")
ただし一つの式を作成してコピーペーストできる式にするには工夫する必要がある。