音声、静止画像、動画等でも同じ考え方をする。以下のようなモジュール構成。
前処理部 -- 特徴抽出部 -- 識別部 (識別辞書とのやりとり) -- 認識
特徴抽出処理では、パターンの変動に影響されない情報で、 かつ識別に役立つ情報をベクトル形式で抽出する。
声の大きさや、誰が話しているのか、などではない情報。
パターンの前処理: アナログ信号をディジタル信号に変換する。 標本化と量子化 を用いる。
スペクトルサブトラクション spectrum subtraction など、 無音空間の情報を利用して雑音を特定し、 引算することによって調べることができる。
特徴抽出とは、入力パターンとクラス分類で処理が異なるが、 一般的な考え方を述べる。特徴を d 次元とし、
x = (x1, x2, ..., xd)t
と分類する。手本となるベクトルをプロトタイプと呼び、 クラスを c 種類用意したら、それぞれ p1, p2, ..., pc 個のベクトルが作れる。
プロトタイプの距離を測り、もっとも近いプロトタイプの属するクラス ωi を正解とする Nearest Neighbor 法をとる。