三宝ソリューション合同会社音声認識システムとは

 

TOP>音声認識システム

三宝ソリューション合同会社音声認識システムとは

音声認識とは、人間の話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す処理のことです。

現在、音声認識システムのエンジン部分は統計的手法が良く用いられており、大量の発話を記録した学習用データから音声の特徴を学習し、入力された音声信号をそれらの特徴と照らし合わせながら、最も尤もらしい言語系列を認識結果として出力しています。

一般に、音声の音響的な特徴と言語的な特徴を分離して扱うことが多いのですが、前者は、認識対象(声)の音素がそれぞれどのような周波数特性を持っているかを表したもので、音響モデルと呼ばれています。音響モデルの表現としてしては、混合正規分布を出力確率とした隠れマルコフモデルが広く用いられています。

後者の言語的な特徴とは、音素の並び方に関する制約を表したもので、言語モデルと呼ばれています。日本語の文法上の特性などから、ある単語の次に発声が続く確率が高い単語を推定するなど、自然言語処理や形態要素解析などを用いる手法です。

言語モデルの表現として、認識対象の言語が大規模な場合(パソコン上での文書作成など)はn-gramが良く用いられ、 認識対象の言語が人手で網羅出来る程度に小さい場合(カーナビの音声操作など)は、文脈自由文法が良く用いられます。


一般に音声認識ソフトとして以下のようなソフトがあります。

  SmartVoice(NEC)
  VisualVoice(NEC)
  ViaVoice(IBM)
  Dragon NaturallySpeaking(Nuance)
  Julius/Julian(オープンソース)

個人向けに市販されている音声認識ソフトでは、雑音のない静かな環境下においてユーザーがいくつかのコツを知っていれば十分実用的な認識をすることが可能です。

しかし、屋内であっても複数の人間がいる会社や、屋外などの騒音のある環境では認識が困難であり、さらに、人それぞれの発声やイントネーションの違い(方言など)により、 音声認識率は非常に低くなり、不安定でもあります。 また、複数の話者による発声や、音声認識向けと意識していない発声(インタビューや会議など)を認識するのは困難です。

三宝ソリューションではこれらを解決した新しい音声認識システムの提供を行っています。