データベース応用 第 10 回 (学習アルゴリズム) 「Rubyで日本語解析」 講義ノート目次

とりあえず日本語を全て分解させてみよう。 日本語形態素解析には mecab や chasen が知られている。

大学の環境にない場合は、自分で ruby-mecab / ruby-chasen をインストールしよう。 本学では chasen を roy で使用できる模様。

読み仮名を全て平仮名からローマ字にするには、Ruby/Romkan / Kakasi などが使える。

辞書を入れ替えたら

% cd /path/to/*.cha (文法定義ファイルのありか)
% makeda usename input1.dic input2.dic

chasen を使うと

%/opt/FESTIVAL/festival-pkgsrc/bin/chasen -e 
文字列

結果表示

結果を流し込むのも可能。

cat 'jp.txt' | /opt/FESTIVAL/festival-pkgsrc/bin/chasen -e  >& comp.txt

または kakasi を使って

/opt/FESTIVAL/festival-pkgsrc/bin/kakasi -Hj -Jj -C -w      [~]
東北公益文科大学のるびおです。
東北 公益 文科 大学 のるびおです 。

-w はわかち書き

/opt/FESTIVAL/festival-pkgsrc/bin/kakasi -Hj -Jj -C       [~]
東北公益文科大学のるびおです。
TouhokuKouekiBunkaDaigakunorubiodesu。


-C で、文節でアルファベットにしてくれる。

% cat jp.txt| /opt/FESTIVAL/festival-pkgsrc/bin/kakasi -Hj -Jj -C TouhokuKouekiBunkaDaigakunorubiodesu。>& result.txt

変換結果を流しこみ、これを 読ませるため festival を使ってみる。 --tts でファイルを読み込む。

 /opt/FESTIVAL/festival-pkgsrc/bin/festival --tts "result.txt"

何を言っているのかわかりにくいが、しゃべっている。 diphone にしなくてもしゃべるようになったりするので、current の場合には注意しよう。