アレイ用マイクの重要な役割とは?
ハードウェアの観点からマイクアレイの分類を紹介し、マイクアレイのフロントエンドのアルゴリズムを組んで、マイクアレイが何をするのかを確認します。
1.音源のローカライズ
人間には両耳があり、音によって音の方向を判断することができますが、ロボットも同様です。
例えば、ロボットのシーンでは、音が聞こえるとロボットが左を向くことを「ロボットの左側」と呼び、音が聞こえるとロボットが左を向くことを「ロボットの後ろ」と呼び、これが音源の定位の最も典型的な応用例です。 音声による目覚めの段階では、通常、音源の定位を利用して大まかな方向を検出します。
一般的に使われているのはTDOA(Time Difference of Arrival)という手法で、簡単に言うと、マイクに到達した信号の時間差を計算して音源の位置座標を算出するもので、ミリ秒単位の応答と計算が必要です。
2.人の声だけでなく、アンビエントノイズの抑制・強調
音声認識では、音声情報に周囲の雑音や人の声の干渉などのノイズが混じっていることが多く、通常は正常な音声がマスクされることはありませんが、音声の明瞭度に影響を与えることがあります。
例えば、家の中のシーンで、テレビやエアコンがついている状態でスピーカーに話しかけると、スピーカーは起きたときの角度でその部分を拾うため、その角度ではないノイズ(テレビの音やエアコンの音)を抑制することができます。 通常、シーンを利用してピックアップの角度を設定しますが、遠くなればなるほど角度は小さくなり、通常は60度から120度の間で設定します。
ノイズサプレッションは、家庭内での日常的な使用には効果的ですが、カクテルサウンドに代表されるような強いノイズ環境には適していません。
3.エコーキャンセル
特別な処置をしないと、ロボットは自分の発する音を認識し、延々と自己問答を繰り返したり、エラーを拾ったりする危険性があります。 この問題を解決するために、機械自体の音を消すのがエコーキャンセリングです。
例えば、家庭でのシナリオとして、スピーカーからはジェイの新曲が流れていますが、天気を確認したいときは「リトルX、今日の天気」と言います。
実際には、エコーキャンセリングは学生にはあまり理解されていないかもしれません。「自己認識」、つまり自分のビジネスを通して聞こえてくる音を認識する能力と呼ばれることもあります。
4.残響のキャンセル
場合によっては、17メートル離れたところから聞こえてくるようなエコーが発生することもあります。 しかし、機械の感覚は人間よりもはるかに敏感で、対処しなければ、文章が次から次へと出てくるパターンになってしまいます。 通常、残響とは、音波が室内を伝わる際に壁や天井、床などの障害物で反射し、直接音に重なる現象のことです。
例えば、スタジオではより顕著な反響を感じることができ、機械はそれを認識します。 残響消去とは、持ち込まれたエコーを除去し、初めてのコンテンツのみを認識することです。
このような社会問題を解決することで、基本的には、日常環境におけるビジネス上の通常のピックアップを分析することができ、全体の音声認識を確実なものにすることができます。
この記事へのコメント