基礎プログラミング I 第06 回 正規表現と検索 日本語を検索するには

日本語である範囲にある文字を検索したいときについて学ぶ。

ひらがなを探す

ひらがなを探すには、限定する [ - ] と Kinput2 を組み合わせる。 例えば、駅名がひらがなから始まるものを調べるときには次のように行う。

% egrep "^[ぁ-ん]" station.dat         
かみのやま温泉  山形県  かみのやまおんせん      Kaminoyamaonsen
さくらんぼ東根  山形県  さくらんぼひがしね      Sakuranbohigashine
あつみ温泉      山形県  あつみおんせん          Atsumionsen

小さいあ "ぁ" は la とすると入力することができる。

漢字を探す

常用漢字を探すには

%  egrep "[亜-腕]" station.dat

とする。特殊な漢字(常用漢字でないもの)に関しては、 文字コードの知識が必要である。

漢字を含んだ行たちだけを取り出すことができるようなデータの列を考え、 実行せよ。

本日の講義 / 講義ノート / 教員トップページ