大量に質的データを取り扱うときには、計算機を用いる。 質的データを整理するには関係データベースを用いた、 SQL (Structured Query Language) を使う。
SQL を学ぶ前に、関係データベースの用語をまとめる。関係データベースとは、 データベースを 2 次元表形式にまとたもので、 行(record [組])と列(field [属性])の表を作る。 作られた表は関係表と呼ぶこともある。
属性 | |||||
フィールド 1「名前」 | フィールド 2「番組名」 | フィールド 3「性別」 | フィールド 4「キャラクタ」 | ||
組 | レコード 1 | ブラサム | パワパフガールズ | 女 | 善 |
レコード 2 | バブルス | パワパフガールズ | 女 | 善 | |
レコード 3 | バタカップ | パワパフガールズ | 女 | 善 | |
レコード 4 | モジョジョジョ | パワパフガールズ | 男 | 悪 | |
レコード 5 | ミス・キーン | パワパフガールズ | 女 | 善 | |
レコード 6 | メイヨール | パワパフガールズ | 男 | 善 | |
レコード 7 | プロフェッサ | パワパフガールズ | 男 | 善 | |
レコード 8 | ジャック | サムライジャック | 男 | 善 | |
レコード 9 | アク | サムライジャック | 男 | 悪 |
各属性には、「名前」、「番組名」、「性別」、「キャラクタ」が記録されている。属性を鍵 (key) として、必要な情報を取り出していく。
この他、他の関係表と照しあわせるときに用いるキーを外部キーと呼ぶ。
属性 | ||||
フィールド 1「名前」 | フィールド 2「住んでいる町」 | フィールド 3「趣味・特技」 | ||
組 | レコード 1 | ブラサム | タウンズビル | 新しい服 |
レコード 2 | バブルス | タウンズビル | 動物と話す | |
レコード 3 | バタカップ | タウンズビル | ケンカ | |
レコード 4 | モジョジョジョ | タウンズビル | 発明 | |
レコード 5 | ジャック | 未来世界 | 剣 | |
レコード 6 | デクスタ | ラボ | 発明 | |
レコード 7 | ディディ | ラボ | バレエ |
属性 | |||
フィールド 1「番組名」 | フィールド 2「概要」 | ||
組 | レコード 1 | パワーパフガールズ | 3 人の女の子たちのお話 |
レコード 2 | サムライジャック | 未来世界の侍の話 | |
レコード 3 | デクスタ研究所 | 姉と弟の兄弟げんかの話 | |
レコード 4 | 快適な生活 | 電気会社の CM 集 | |
レコード 5 | ウォレスとグルミット | 犬と発明家の話 |
何枚にもわたる資料の中から、必要なデータを取り出したり、組み合わせて分析することがある。関係表でも同じような動作を行うことができる。
データの集まり (集合) について何か行動を起こす (演算する) ので、 データを整理することを集合演算と呼ぶ。和演算、積演算、差演算の 3 つと、直積演算がある。
少なくともどちらか一方に存在しているものを取り出すので、表は大きくなる。
属性 | |||
名前 | 順位 | ||
組 | レコード 1 | カウ | 1 |
レコード 2 | チキン | 3 | |
レコード 3 | アル | 4 | |
レコード 4 | フレム | 2 | |
レコード 5 | レッドガイ | 5 |
属性 | |||
名前 | 順位 | ||
組 | レコード 1 | ウィゼル | 1 |
レコード 2 | カウ | 3 | |
レコード 3 | チキン | 2 | |
レコード 4 | レッドガイ | 6 | |
レコード 5 | フレム | 4 | |
レコード 6 | アル | 4 |
実際 100 m 走とマラソンの順位を一緒にしても無意味であるが、 演算の練習のため行っている。
どちらかに存在しているものを取り出すので、表は小さくなる。
重なり合いが大きい場合、表は小さくなるが、 重なり合いが小さければ、表は大きくなる。 また、差演算はどちらの表を引くかで結果が異なる。
具体的には 2 つの表を全て組み合わせたものを作る。以下の 2 つの表
属性 | ||||
問屋コード | 店名 | 所在地 | ||
組 | レコード 1 | 220 | ウニクロ | 千葉県浦安市 |
レコード 2 | 221 | ハッサン | 北海道札幌市 |
と
属性 | |||||
問屋コード | 品物 | 色 | 在庫数 | ||
組 | レコード 1 | 220 | シャツ | グリーン | 4 |
レコード 2 | 220 | タオル | ブラウン | 2 | |
レコード 3 | 221 | ジャケット | ブラック | 15 |
の直積は
属性 | |||||||
問屋コード | 店名 | 所在地 | 品物 | 色 | 在庫数 | ||
組 | レコード 1 | 220 | ウニクロ | 千葉県浦安市 | シャツ | グリーン | 4 |
レコード 2 | 220 | ウニクロ | 千葉県浦安市 | タオル | ブラウン | 2 | |
レコード 3 | 221 | ハッサン | 北海道札幌市 | ジャケット | ブラック | 15 |
となる。
一つあるいは複数の関係表のデータをフィールドやレコードを取り出して、 新たに表を作ることである。射影、選択、結合の三種類がよく使われる。
自分の好きなことでデータベースを複数作り、 集合演算と直積演算を最低一つずつ選んで実行せよ。 データベースは .csv 型式で作り、全て添付せよ。 csv 型式はタブスペースやカンマで区切って作る。例:
日本, | 日本語, | 東京 |
韓国, | 韓国語, | ソウル |
中国, | 中国語, | 北京 |
フランス, | フランス語, | パリ |
米国, | 英語, | ワシントンDC |
を明記すること。
次回、どちらか一つの分析結果について発表する(5 分)。