汎用データ保存形式

我々が日常的に利用する「データ」は多くの場合 表形式で表現できる。これは全てのデータが同じ順番で 同じ項目の順番で書かれたものという前提が置ける。

全ての項目が揃った1単位のデータのことをレコードという、 レコードの中にあるひとつひとつの項目のことをフィールドという。 たとえば、電話帳のデータでいえば

漢字氏名 カタカナ氏名 電話番号その1 電話番号その2 メイルアドレスその1 メイルアドレスその2 住所

の全体を「レコード」、漢字氏名やカタカナ氏名などの最小項目単位を 「フィールド」という。表計算ソフトなどでは1レコードを1行に、 1フィールドを1セルに書き込んで表現する。表計算ソフトなどでは データの集合を保存するときにはデフォルトでそのソフト固有の保存形式で 記録している。このため、なんらかのデータを専用ソフトで作成して ファイルに保存したものは、その保存形式に対応したソフトを使わない 限り開くことができない。

CSV形式

複数のフィールドをフィールドごとにカンマ(,)で区切り、 1レコードを1行におさめたテキストファイル形式をCSV形式という(Comma Separated Value)。CSV形式はアプリケーションに依存しない一般的な データファイル形式で、データ処理を行なうプログラムであれば ほぼ全てのソフトウェアから利用できる。このため、誰にでも参照して もらいたいデータファイルはCSV形式にして保存・受け渡しするのが 基本である。

CSV形式は

ようにする。フィールドに空白文字かカンマを含む文字列が来るときは 必ずダブルクォーテーションで括る。たとえば、

という4つのフィールドを表すときは

Hello,123,"456","Hello, world"

のように記す。

全都道府県の人口と65歳以上の人口データベースをCSV形式で記したものが age65.csv である。

タブ区切り形式

CSV区切りに準じて汎用性の高いデータ保存形式がタブ区切り形式といえる。 これは、CSVでフィールドの区切りに用いたカンマをTAB文字(文字コード 0x09) に置き換えたものと考えると良い。

タブ区切り形式は、表計算プログラムとその他のアプリケーションプログラム との間でデータのやりとりを行なうときに利用できることがある。


目次