基礎プログラミング I 第 6 回 (正規表現と検索) 「日本語で探すには」 講義ノート目次

日本語で探す方法を知る前に、日本語の漢字コードについて学ぶ。

漢字コード変換

Windows と UNIX は漢字コードが異なる。 自宅で作成した正しいプログラムも漢字コードが異なるため動かなくなる。 UNIX では、作ったデータのコードは EUC で作られている。 Emacs のミニバッファの上のバーの左端に、 [-E:] あるいは [-AあE:] があることを確認する。もしもこれ以外の文字がある場合は、 漢字コードを変換する。 Ctrl-x Ctrl-m f を押し、


Coding System for saving file (default, nil):

と表示されるので


Coding System for saving file (default, nil): euc-jp

とする。すると、ミニバッファの上のバーの左端に、 [-E:] あるいは [-AあE:] と表示される。

学内で作成していても、操作ミスで漢字コードを変換してしまい、 プログラムが動かないことがある。この場合も同じ方法を使って EUC に変換する。

Emacs や Firefox は utf-8 を使っており、ときどき UNIX 内でも漢字コードの問題が発生する。

日本語で検索

Kterm や Firefox 上で日本語入力を行うには、Kinput2 を使う。Kinput2 の ON/OFF の切り替えは Ctrl-o であった。

%egrep "さかた" station.dat

と入力すると日本語検索ができることを確かめよう。

Windows で使われる漢字コードは何か調べよ。 EUC の漢字コードのデータを探す egrep のオプションが egrep -e であるとき、どのようなオプションとなるか予想し、調べた結果を記せ。