文字には必ず文字コード(番号)がついている。エディタで見るときは、 "ABC..."のように見えても、実際にコンピュータのディスクに保存されるときに はコンピュータが理解できる数字に変換されて保存される。アルファベットなど のASCII文字は、どんな風に保存してもつねに同じ文字コードで保存される。 たとえば、大文字Aならば65で、Bならば62、小文字aならば97で、bならば98であ る。
ところが、日本語の場合は事情が違う。日本語を文字コードにするときの 方式が何とおりもある。覚えておくべき方式は以下の4つである。
最近(2004年前後以降)のシステム
日本語のみを扱うUnixシステムで主に利用する
電子メイルなど他のシステムの人とのメッセージ交換するときに 利用する
Macintosh や Windows の古いもの、一部のUnixで使用する
101/102教室で利用しているEmacsでは、上記4つの方式いずれも利用できる。 デフォルト(とくに何も指定しない状態)では何か日本語を含むファイルを書くと、 UTF-8コードで保存するようになっている。現在編集しているファイルが、 ディスクに保存されるときにどの文字コードで保存されるかは、 Emacsのモードラインを見れば分かる。
モードラインの左側にアルファベットの E, J, S, U のいずれかが表示される。 上の例の場合 E と書いてあるのでこのファイルは EUC でセーブされていると分 かる。
保存漢字コードを変更する場合には、次のキーを使う。
編集中のバッファをファイルに保存するときの漢字コード方式を変更する。 保存したい漢字コードに応じて、以下のように入力する。
utf-8
euc-jp
junet
sjis