とりあえず日本語を全て分解させてみよう。 日本語形態素解析には mecab や chasen が知られている。
大学の環境にない場合は、自分で ruby-mecab / ruby-chasen をインストールしよう。 本学では chasen を roy で使用できる模様。
読み仮名を全て平仮名からローマ字にするには、Ruby/Romkan / Kakasi などが使える。
辞書を入れ替えたら
% cd /path/to/*.cha (文法定義ファイルのありか) % makeda usename input1.dic input2.dic
chasen を使うと
%/opt/FESTIVAL/festival-pkgsrc/bin/chasen -e 文字列 結果表示
結果を流し込むのも可能。
cat 'jp.txt' | /opt/FESTIVAL/festival-pkgsrc/bin/chasen -e >& comp.txt
または kakasi を使って
/opt/FESTIVAL/festival-pkgsrc/bin/kakasi -Hj -Jj -C -w [~] 東北公益文科大学のるびおです。 東北 公益 文科 大学 のるびおです 。
-w はわかち書き
/opt/FESTIVAL/festival-pkgsrc/bin/kakasi -Hj -Jj -C [~] 東北公益文科大学のるびおです。 TouhokuKouekiBunkaDaigakunorubiodesu。
-C で、文節でアルファベットにしてくれる。
% cat jp.txt| /opt/FESTIVAL/festival-pkgsrc/bin/kakasi -Hj -Jj -C TouhokuKouekiBunkaDaigakunorubiodesu。>& result.txt
変換結果を流しこみ、これを 読ませるため festival を使ってみる。 --tts でファイルを読み込む。
/opt/FESTIVAL/festival-pkgsrc/bin/festival --tts "result.txt"
何を言っているのかわかりにくいが、しゃべっている。 diphone にしなくてもしゃべるようになったりするので、current の場合には注意しよう。