テキストファイルと正規表現

ファイルの大分類

テキストファイル

人間が読める文字だけで全て記述されているファイル

専用アプリケーションソフトを必要とせずに読める

バイナリファイル

人間が読めない文字も含むコンピュータが扱える文字 全てを利用して記述されたファイル

画像やワープロ文書ファイルのように中を見るためには 専用アプリケーションソフトを必要とする。

バイナリファイルの書式には

がある。みんなで決めたものでない場合は、いつそのファイル 形式が使えなくなるかは作成した企業の都合で決まる。

検索と正規表現

テキストファイルの持つ

という性質を利用して、ファイルの中から特定のパターンを探し出し、 それが含まれる行を選択・表示することを高速に行なうことができる。 検索を高速化効率化するための表現方法として 正規表現が広く用いられている。

正規表現とは

文書から何かを検索するときに、そのデータに含まれている文字列のパターンを 汎用的に指定する方法であり、以下のような表記が使える。

正規表現の利用実験

次の meibo.txt を手許にコピーして検索実験を試みる。

: SATOHさんかSAITOHさんを検索
grep "SAI?TOH" meibo.txt

: 母音が二回続く人を検索 [AIUEO] は括弧内5文字のうちどれか1つにマッチ
grep "[AIUEO][AIUEO]" meibo.txt

もうひとつの実験

郵便番号データダウンロードより

上記UTF-8版CSVファイルを手許にコピーする。

「飯森山」で検索する。

grep -i iimoriyama ken_all_rome-utf8.csv

(-i は大文字小文字を区別せず探すオプション)

yuuji@e.koeki-u.ac.jp