WER・CERだけでは不十分?日本語音声認識を「名詞・固有名詞F1スコア」で再評価した結果
日本語音声認識は漢字や固有名詞の表記多く他言語に比べて難しい。そこで、WERやCERでは見えにくい「漢字・固有名詞の認識精度」を定量化するために、Sudachiによる形態素解析ベースのF1スコア評価を実装し、オープンソース音声認識モデル9種を再評価した一次ベンチマーク記事です。
日本語音声認識は漢字や固有名詞の表記多く他言語に比べて難しい。そこで、WERやCERでは見えにくい「漢字・固有名詞の認識精度」を定量化するために、Sudachiによる形態素解析ベースのF1スコア評価を実装し、オープンソース音声認識モデル9種を再評価した一次ベンチマーク記事です。
RTX5090を使い最新の日本語ASRモデルを同一条件でベンチマークした結果、精度・安定性ともにqwen/qwen3-asr-1.7b(WER: 0.1899)とwhisper(WER: 0.2099)が頭一つ抜け出しました。速度最優先ならparakeet-tdt-0.6b-v3(RTF: 0.002)、日本語メディア特化ならreazonspeech-espnet-v2が有力な選択肢です。WER評価にはMeCab分かち書き+句読点除去による正規化を実装し、モデル間の公平な比較を実現しています。
本記事は、IT企業名・サービス名・略語を含む実際の音声データで9つのASRモデルを評価した一次ベンチマークです。汎用的な日本語音声認識ベンチとは異なり、「openclawやARRをちゃんと書き起こせるか」という実務目線で評価しています。