人間が読める文字だけで全て記述されているファイル
専用アプリケーションソフトを必要とせずに読める
人間が読めない文字も含むコンピュータが扱える文字 全てを利用して記述されたファイル
画像やワープロ文書ファイルのように中を見るためには 専用アプリケーションソフトを必要とする。
バイナリファイルの書式には
多くの画像ファイル(JPEG, PNG)や音声ファイル(MPEG)
やオープンソースのワープロソフトの文書ファイルなど
(公開されている)
一企業が作ったワープロや表計算の文書ファイル
(公開されていない)
がある。みんなで決めたものでない場合は、いつそのファイル 形式が使えなくなるかは作成した企業の都合で決まる。
テキストファイルの持つ
全ての文字を人間が読むことができる
ある程度意味のある塊ごとに改行文字が含まれる
という性質を利用して、ファイルの中から特定のパターンを探し出し、 それが含まれる行を選択・表示することを高速に行なうことができる。 検索を高速化効率化するための表現方法として 正規表現が広く用いられている。
文書から何かを検索するときに、そのデータに含まれている文字列のパターンを 汎用的に指定する方法であり、以下のような表記が使える。
「サトウ」と「サイトウ」どちらかを探したい場合
サイ?トウ
「イカラシ」または「イガラシ」どちらかをさがしたい場合(イの 後ろにくるのが「カ」なのか「ガ」なのかはっきりしないときの検索)
イ[カガ]ラシ
次の meibo.txt
を手許にコピーして検索実験を試みる。
: SATOHさんかSAITOHさんを検索 grep "SAI?TOH" meibo.txt : 母音が二回続く人を検索 [AIUEO] は括弧内5文字のうちどれか1つにマッチ grep "[AIUEO][AIUEO]" meibo.txt
上記UTF-8版CSVファイルを手許にコピーする。
「飯森山」で検索する。
grep -i iimoriyama ken_all_rome-utf8.csv
(-i は大文字小文字を区別せず探すオプション)
yuuji@e.koeki-u.ac.jp