Q&A: Speech Intelligibility for Nuendo 11
会話の明瞭度と聞き取りやすさというのは同じことですか?
厳密な意味では、会話の明瞭度は与えられた状況において、話し言葉の要素(例: 単語)が正確に認識される比率として測定されます。より広い意味では、“intelligibility” という用語は、人が話し言葉を理解するために感じた労力を表すために用いられます。これは放送用途でも該当します。たとえ私が会話の中の全ての単語を理解することが技術的に可能だったとしても、たとえば背景音が大きすぎる場合は、認識するために多くの労力をかけています。この広い意味での会話の明瞭度を、私たちは Nuendo に搭載した新機能で測定することができます。
会話のどのような「特徴」が明瞭さの基準として考慮されますか?
話し言葉は音素と呼ばれる小さなブロックで構成されています。いくつかの音素が組み合わさって音節や単語となります。音素は自動音声認識エンジンにより検出され、意味のある言葉に変換されます。はっきりした話し言葉ならば、それぞれの瞬間には一つの音素しかありません。専門的に言えば、音声認識のために訓練された装置は、特定の音素が存在する高い可能性と、他の全ての音素が存在する低い可能性を認識します。話し言葉に障害が多ければ多いほど、この可能性の明瞭度は下がります。つまりどの音素が存在しているかを装置が検出する確実性が下がります。これが私たちが明瞭度を測定する方法です。
AI アルゴリズムをどうやって訓練するのでしょうか?
アルゴリズムは異なる課題をこなさねばなりません。まず話し言葉が存在するかどうかの検出です。ささいなことに思えますが、これは背景音が多彩で「言葉のような」音を含む場合はとても難しくなります。次に自動音声認識技術を使い、個々の音素を認識装置がどれだけ確実に検出できるかを計算します。最後にこの確実性を尺度としてマッピングします。これが、何百時間もの聞き取り実験で測定された人間の知覚に対応します。これら全てを確実に遂行するために、我々はディープラーニングを利用して、実際の話し言葉と難しい背景音を使った何千時間ものトレーニングを行いました。
“speech intelligibility” について詳しくは、Fraunhofer のウェブサイトをご覧ください(英語)
https://www.idmt.fraunhofer.de/en/hsa/research_fields/speech_intelligibility.html
* この技術は現在、英語とドイツ語のみ対応しています。
Contact person at Fraunhofer IDMT in Oldenburg:
Dr. Jan Rennies-Hochmuth
Head of Group ‘Personalized Hearing Systems’
Fraunhofer-Institute for Digital Media Technology IDMT
Hearing, Speech and Audio Technology
Marie-Curie-Str. 2
D-26129 Oldenburg, Germany