【技術解説】音声認識率について

音声認識の精度評価方法

一般的に音声認識の精度を評価する方法として、実際に話した内容の文章と、音声認識された結果を比較して行う音声認識率の評価があります。
電話での会話や会議での発言など、自然な会話を音声認識する場合は、認識結果に誤認識された言葉も複数含まれています。その音声認識結果と実際の会話を一字一句書き起こした正解文を比較することで、認識率が求められます。

音声認識システムで言葉を誤認識してしまう要素には、下記の種類があります。

  • 認識して欲しい単語とは違う単語で認識されている(誤った単語で認識されている)
  • 認識して欲しい単語が出力されていない(認識もれがある)
  • 発言に無い不必要な単語が含まれている(不要な単語が挿入されている)
認識率は、まずエラー率を求め、1からエラー率を引くことにより算出します。
エラー率計算方法はいくつかありますが、1文字ずつ比較して計算するCER(Character Error Rate)、単語の単位で比較して計算するWER(Words Error Rate)の2種類が主に使われます。
当社としては言葉の正解率を重視するためWERによる計算値を認識率の指標としています。

認識率を求めるために必要な準備

認識率を計算するためには、いくつかの準備が必要になります。

  1. 音声認識された結果のテキストを用意します。
    認識結果のテキストに「発話ごとの時間」や「話者の名前や番号」が含まれている場合は、取り除いて文章のみにします。
  2. 話した内容を一字一句書き起こして、音声に対する正解文を用意します。
    音声を書き起こす際は、音声認識システムからの出力結果形式に合わせる必要があります。
    「えー」「あー」「えーと」など、単語としては意味のない言葉もありますが、こちらが音声認識の出力結果に含まれている場合は、同様に書き起こします。
    他には、数字の表記、名前の表記(漢字 or ひらがな or カタカナ)、送り仮名なども音声認識された結果の形式に合わせます。
    また、会社名や名前の表記にはアルファベットを使っているものもありますが、そちらも音声認識の出力結果の形式に合わせます(カタカナ出力の場合は、カタカナで書き起こし)。

なぜ認識率が低いの・・・?

認識率を計算してみると、私の耳では聞き取れる音声なのになぜ認識率が低いの?というケースがあると思います。
人間の耳は、あいまいな音から必要な音のみをうまく推定して聞き分けて解釈することができますが、音声認識ではその技術がまだまだ進んでいません。
また、人間は会話のシーンや内容を含めてトータルで意味を理解して認識するのに対し、音声認識は会話の音声情報から、それに当てはまる文字を探し文章を組み立てていきます。そのため、発音の情報を正しく取得する必要があり、音声をなるべくきれいに録音することが認識率を向上させるコツになります。

録音の際のコツを列挙しますので、お試しください。

  1. マイクの種類と特性を知る
    会話を録音するマイクにはそれぞれの用途に応じた種類があり、音声を収音できる範囲や角度に違いがあります。例えば、正面方向のみ収音が可能な特性のマイクでは、背面方向からの音声はかなり小さな音で録音されてしまいます。マイクの特性に合わせて上手に録音してみましょう。
  2. 適切な音量で録音する
    極端に小さな音量で録音された音声や、音割れが発生している音声は、音声認識に必要な声の成分を正しく取得できないため、認識精度に影響してしまいます。
    音声認識をさせたい発言者の音声をなるべく適切な音量で録音できるように、マイクの位置を工夫してみましょう。
  3. 特殊な用語は予め登録する
    音声認識辞書へ学習されていない用語は音声認識できないため、意味の無い単語の羅列で出力されてしまいます。音声認識へ単語登録機能がある場合は、よく使う単語を予め登録してから試してみましょう。
  4. 録音音声のノイズを減らす
    録音した音声に、「ジー」や「ブー」などの一定のノイズが混ざり込む場合があります。この場合、録音機材の接続コネクタの緩みや断線が原因の場合もありますので、接続ケーブルを確認してみましょう。

音声認識を活用してみたいけど・・・?

スマートフォンの音声検索や、スマートスピーカーなど、音声認識を活用する場面は広がっており、魔法のツールのように見られている方も多いでしょう。これらは、一般的に活用される単語を数単語程度組み合わせた、短い発話の音声認識に特化しており、しかも目的に応じた単語を適切にマイクに向かって発話させることができるため、音声認識の利用方法としては適しています。
しかし、業務での利用を考えた場合はどうでしょう?電話や会議などの「長い会話」を音声認識したいと思う方が多いのではないでしょうか?この「長い会話」を音声認識する場合には、まだまだ工夫が必要です。

例えば、それぞれの会社には、商品名やサービス名であったり、社内のみで利用している専門の用語・略語があったりします。これらは一般的な音声認識辞書には登録されておりませんので、会社や組織ごと専用に音声認識辞書をカスタマイズする必要があります。

また、ご利用される環境に合わせた音響面のチューニングも必要になります。
これらが揃ってはじめて音声認識精度が向上しますので、導入を検討される際には当社のような専門の業者によるコンサルティングサービスをお受けいただくことをおすすめいたします。

当社は以下のようなコンサルティングサービスをご提供可能です。

  • 音声の収集装置や収集方法のアドバイス
  • 環境や目的に合わせた音声認識エンジンのアドバイス
  • 音声認識エンジンの評価(PoC)
  • 目的に合わせた音声認識エンジンのチューニング

評価やチューニングの際に必要となるのが認識精度(認識率)の測定です。
当社では書き起こしスタッフをかかえており、認識率測定ツールを持っておりますので、認識精度(認識率)の測定の対応可能となっています。

音声認識精度が低い場合でも、目的に応じて音声認識以外のソフトウェアやツールで補い、業務へ活用できるケースもございますので、まずは当社までご相談ください。

算出ツール

テキストを手作業で単語単位に分割し認識率を計算するには相当な労力がかかるため、当社では音声認識率の算出ツールを作成しています。
音声認識の出力テキストと正解文を事前に準備しツールへ入力すると、認識率を機械的に算出することができます。
実際にどのような回答が出るかをツールでご確認いただけます。

音声認識率算出ツールはこちら