情報交換概論 第 9 回 (音声解析のしくみ) 「パターン認識」 講義ノート目次

音声、静止画像、動画等でも同じ考え方をする。以下のようなモジュール構成。

前処理部 -- 特徴抽出部 -- 識別部 (識別辞書とのやりとり) -- 認識

特徴抽出処理では、パターンの変動に影響されない情報で、 かつ識別に役立つ情報をベクトル形式で抽出する。

声の大きさや、誰が話しているのか、などではない情報。

パターンの前処理: アナログ信号をディジタル信号に変換する。 標本化と量子化 を用いる。

スペクトルサブトラクション spectrum subtraction など、 無音空間の情報を利用して雑音を特定し、 引算することによって調べることができる。

特徴抽出とは、入力パターンとクラス分類で処理が異なるが、 一般的な考え方を述べる。特徴を d 次元とし、

x = (x1, x2, ..., xd)t

と分類する。手本となるベクトルをプロトタイプと呼び、 クラスを c 種類用意したら、それぞれ p1, p2, ..., pc 個のベクトルが作れる。

プロトタイプの距離を測り、もっとも近いプロトタイプの属するクラス ωi を正解とする Nearest Neighbor 法をとる。