情報交換概論 第 9 回 (音声解析のしくみ) 「日本語をローマ字読みで出力」 講義ノート目次

roy では kakasi と romkan を使う。 他にも方法がある。 自作のマシンでいろいろ試すべし。

kakasi -KH -JH で漢字と片仮名をひらがなになおす。ちなみに stable は EUC であるので、UTF-8 の espeak を使うためには nkf -e で変換、 nkf -w で出力等の変換が必要となる。

kakasi の devel は UTF-8 対応とのこと。

マシンによっては nkf -w16B または nkf -w16L など、 endian を気にする必要もあるので注意。

分かち書きは kakasi -w でできるが、漢字変換などを一度に実行できないので、 さらに kakasi を噛ませることで対応させる。

-JH で JIS X 208 漢字をひらがな、-KJ で JIS X 208 カタカナをひらがなにする。 -kH で JIS X 210 漢字をひらがなにする。

-Ja で漢字をローマ字、-Ka でカタカナををローマ字にすることができる。