WER・CERだけでは不十分?日本語音声認識を「名詞・固有名詞F1スコア」で再評価した結果
この記事は、WERやCERでは見えにくい「漢字・固有名詞の認識精度」を定量化するために、Sudachiによる形態素解析ベースのF1スコア評価を実装し、オープンソース音声認識モデル9種を再評価した一次ベンチマーク記事です。
要約:この記事でわかること
日本語音声認識(ASR)の精度評価において、WER(単語誤り率)やCER(文字誤り率)は標準的な指標として広く使われています。しかし**「漢字1文字の取り違えや固有名詞のミスが実用上どれだけ致命的か」はこれらの指標に反映されにくい**という問題があります。
そこで本記事では、形態素解析ライブラリ Sudachi を使って音声認識結果から「普通名詞(Common Noun)」と「固有名詞(Proper Noun)」を抽出し、それぞれ Precision・Recall・F1スコア で再評価しました。対象は以前公開したITドメイン特化ベンチマークと同一の9モデルです。
主な発見:
- CERが最良のQwen3-ASRは、固有名詞F1ではWhisperに劣る(0.58 vs 0.60)
- Whisperは文字誤り率こそ中程度だが、普通名詞・固有名詞ともにF1で全体トップ
- CERだけで判断するとWhisperを「やや劣るモデル」と誤認するリスクがある
- Parakeet・ReazonSpeech系は固有名詞F1が0.15〜0.25と低く、専門用語を含む実務用途には不向き
なぜWER・CERだけでは日本語ASR評価が不十分なのか
英語ASR評価では**WER(Word Error Rate)**が主流ですが、日本語には「分かち書き(単語間のスペース)」がないため、単語境界の定義が曖昧です。そのためCER(Character Error Rate:文字誤り率)が日本語評価の主流となっています。
しかしCERにも本質的な問題があります。
| 参照テキスト | 認識結果 | CER |
|---|---|---|
| 「会議の議事録を作成する」 | 「会議の議事論を作成する」 | 0.04(1文字ミス) |
| 「田中一郎が承認した」 | 「多中一郎が承認した」 | 0.04(1文字ミス) |
どちらもCERは同程度です。しかし実際の影響は全く異なります:
- 「議事録→議事論」:文脈からある程度推測できる
- 「田中一郎→多中一郎」:人名の誤認は法的・業務的に重大なエラー
さらに「固有名詞が1つ抜け落ちた文」と「助詞が1つ間違った文」ではCERが似ていても、情報の損失量は天と地ほど違います。
「AnthropicのClaudeを使って実装した」→「Claudeを使って実装した」
参照と認識結果のCER差:わずか数%。しかし企業名という一次情報が消えている。
こうした問題意識から、名詞・固有名詞に特化したF1評価指標を実装しました。
評価手法:どういう方向性で実装したか
テキスト正規化
名詞の一致判定に入る前に、参照テキストとASR出力の両方を正規化しています。具体的には、NFKC Unicode正規化で全角・半角の揺れを統一し、句読点を除去、漢数字や数値表現も統一した上で比較します。表記ゆれで不当にスコアが落ちないようにするための前処理です。
WER / CER の計算
jiwer の編集距離ベースの実装を使い、置換・削除・挿入のエラー数を参照テキストの長さで割って誤り率を出しています。日本語はスペース区切りがないため、WERの計算前にはMeCabで単語分割してからトークン比較します。CERは1文字ずつに分割して計算します。
名詞の抽出(Sudachi)
Sudachiの品詞情報(UniDic準拠)を使って形態素ごとに品詞を判定し、名詞-普通名詞-一般 or サ変可能 と 名詞-固有名詞 を分離して抽出しています。固有名詞は人名・地名・組織名を含む全サブカテゴリが対象です。
抽出する語形は辞書正規化形(normalized_form)ではなく**表層形(surface)**を使っています。辞書正規化形を使うと英語混じりの語句が意図しない形に変換されるケースがあったためです。表層形を使うことで「ASRが実際にどう書き起こしたか」をそのまま評価対象にできます。
Precision・Recall・F1スコアの意味(ASR文脈で)
- Precision(適合率):ASRが出力した名詞のうち、正解テキストにも存在する割合。「余剰・幻覚的な名詞を出していないか」を測る。
- Recall(再現率):正解テキストの名詞のうち、ASRが拾えた割合。「重要な名詞を落としていないか」を測る。
- F1スコア:PrecisionとRecallの調和平均。0〜1の値で、1.0が完全一致。
F1スコアの計算(multiset集計)
単純な集合(set)ではなく**出現回数を保持するCounter(multiset)**で名詞列を管理し、参照と予測の積集合から真陽性数を求めています。同じ名詞が複数回登場するケースでも出現回数ぶんカウントするため、「繰り返し言及された名詞の欠落」も正しくペナルティになります。
コーパス全体の集計(micro集計)
ベンチマーク全体のサマリーは、サンプルごとのF1を平均するのではなく、全サンプルの真陽性数・参照名詞数・予測名詞数を合算してからPrecision・Recallを再計算するmicro集計を採用しています。「コーパス全体で何個の名詞を正しく拾えたか」を名詞の実数ベースで表せるため、名詞数が異なる発話が混在しても発話数に引きずられません。
ベンチマーク結果:WER・CER・名詞F1の総合比較
| ASR モデル | WER↓ | CER↓ | CN_F1↑ | PN_F1↑ | RTF↓ |
|---|---|---|---|---|---|
| openai/whisper | 0.3256 | 0.1565 | 0.8831 | 0.6000 | 0.016 |
| mistralai/voxtral-mini-4b | 0.4220 | 0.1354 | 0.8821 | 0.5854 | 0.231 |
| coherelabs/cohere-transcribe | 0.4837 | 0.1701 | 0.8658 | 0.5652 | 0.011 |
| nvidia/parakeet-tdt-0.6b-v3 | 0.5236 | 0.1957 | 0.7810 | 0.2222 | 0.003 |
| reazon/reazonspeech-nemo-v2 | 0.5352 | 0.2327 | 0.7576 | 0.1500 | 0.021 |
| reazon/reazonspeech-k2-v2 | 0.5838 | 0.2852 | 0.7959 | 0.2500 | 0.028 |
| ibm/granite-4.0-1b-speech | 0.6149 | 0.3545 | 0.6435 | 0.1500 | 0.060 |
| qwen/qwen3-asr-1.7b | 0.6418 | 0.0823 | 0.8642 | 0.5778 | 0.047 |
| kotoba-tech/kotoba-whisper-v2.0 | 0.8695 | 0.6072 | 0.4621 | 0.1818 | 0.010 |
CN_F1:普通名詞F1スコア / PN_F1:固有名詞F1スコア / RTF:Real Time Factor(低いほど高速)
結果の深堀り:CERランキングが逆転する理由
Whisper vs Qwen3-ASR:CERとPN_F1の逆転現象
最も注目すべき発見は、CERとPN_F1のランキングが逆転することです。
| 指標 | Whisper | Qwen3-ASR | 差 |
|---|---|---|---|
| CER | 0.1565(9モデル中3位) | 0.0823(1位) | Qwenが約50%低い |
| PN_F1 | 0.6000(1位) | 0.5778(4位) | Whisperが0.02高い |
| CN_F1 | 0.8831(1位) | 0.8642(3位) | Whisperが僅差でリード |
Qwen3-ASRは助詞・接続詞・ひらがな部分のミスが極めて少なく、文字単位の再現精度が高い。その結果CERが低くなります。一方で固有名詞については、発音が近い別の語に崩れるケースが散見され、表層形ベースの評価では正解と一致しない形になります。
Whisperは多言語学習データの影響でカタカナ・英字混在の固有名詞に強く、企業名・サービス名をそのまま保持する傾向があります。これは自分の日常的な使用感とも一致しており、「Whisperは固有名詞が強い」という印象の根拠が数字で確認できた形です。
実務的な解釈:会議録・インタビュー書き起こしなど「誰が・どの会社が・何というサービスを使ったか」が重要なユースケースでは、CERの数値だけで判断するとWhisperを過小評価するリスクがあります。
速度王・Parakeetの落とし穴
NVIDIAのParakeet(RTF=0.004)は圧倒的な推論速度を誇りますが、固有名詞F1は0.2222と全モデル中下位です。英語圏のデータで学習されたため、日本語の固有名詞・専門用語を苦手としています。リアルタイム字幕・大量音声のバッチ前処理など速度が最優先の場面には向きますが、人名・企業名が重要な書き起こしには不向きです。
Voxtral MiniのCN_F1スコア
普通名詞F1(CN_F1)ではWhisperが0.8831でトップ、Voxtral Miniが0.8821でほぼ同率の2位です。両者の差はわずか0.001で、一般的な技術用語の認識精度はほぼ横並びと言えます。ただしVoxtral Miniの処理速度(RTF=0.231)はWhisper(0.016)と比べて大きく劣るため、精度が同程度ならWhisperを選ぶ理由が強くなります。
用途別おすすめモデル(名詞F1を加味した選択)
| 用途 | 推奨モデル | 理由 |
|---|---|---|
| 人名・企業名重視の議事録 | Whisper | PN_F1最高(0.60)、CN_F1も1位(0.88) |
| 文字レベルの高精度書き起こし | Qwen3-ASR | CER最低(0.082)、一般名詞も良好(0.86) |
| 速報・リアルタイム字幕 | Parakeet | RTF=0.003、ただしPN_F1は要注意 |
| 総合バランス | Whisper | CER・CN_F1・PN_F1すべてで上位に安定 |
今後の課題:名詞F1を超えた評価指標へ
1. 意味的CER(Semantic CER)
現状のCERは完全文字一致が前提です。しかし「コーヒー」「珈琲」「coffee」は同義であり、本来ペナルティなしにすべきです。形態素解析+類義語辞書(WordNetなど)による表記揺れ吸収、あるいは多言語埋め込みモデルによるセマンティック類似度補正が実装候補です。
2. 専門用語ヒット率(Term Hit Rate)
ドメイン固有の用語リストをあらかじめ用意し、参照テキストに登場した用語のうちASRが正しく書き起こせた割合をヒット率として計測します。医療・法律・技術系ASRには特に有効で、「疾病名のヒット率」「法律条文番号のヒット率」など目的特化した評価ができます。
3. データセットの拡大
今回のベンチマークは15発話と小規模です。医療用語・法律用語を含む音声サンプルの追加や、専門分野ごとのサブセット評価を予定しています。
データセットが小さいと、1〜2発話の認識差がスコアに大きく影響します。本ベンチマークの数値は参考値として捉え、実際の用途での小規模検証を併用することを推奨します。
まとめ
日本語ASRの評価において、WER・CERは必要条件ではあっても十分条件ではありません。特に固有名詞・専門用語の認識精度が実務上のボトルネックになるケースでは、今回紹介した「名詞F1スコア」のような補完的な指標が欠かせません。
実装の方向性をまとめると、比較前にUNFKC正規化・句読点除去などの正規化を行い、Sudachiの品詞タグで 名詞-普通名詞 と 名詞-固有名詞 を分離して抽出、辞書正規化形ではなく表層形を評価対象にする、というのが基本的な設計です。集計はサンプルF1の平均ではなくmicro集計(TP・参照数・予測数を全サンプル合算して再計算)を採用しています。
FAQ
Q. WERとCERはどちらを使うべきですか?
日本語ASRにはCERが適しています。日本語は分かち書きをしないため、単語境界の定義が曖昧でWERはライブラリの設定に依存してブレやすいです。今回の実装でも日本語WERはMeCabで単語分割してから計算していますが、MeCabの分割結果自体にばらつきがあるため注意が必要です。CER単体では名詞誤認の深刻さを捉えられないため、本記事のF1指標を補完的に使うことを推奨します。
Q. Sudachiの代わりにMeCabやJanomeを使っても同じ結果になりますか?
辞書の違いにより結果が異なります。特に固有名詞の抽出精度はSudachi(SudachiDict-full)が最も優れています。MeCabはipadicを使う場合、新語・企業名の登録が少なく、固有名詞として分類されないケースがあります。また本実装はSudachiの品詞体系(UniDic準拠)に依存しているため、他のツールに差し替えると品詞判定の粒度が変わり、同じ数値にはなりません。
Q. micro集計とmacro集計(サンプルF1の平均)で結果は大きく変わりますか?
変わり得ます。短い発話(名詞が少ない)に固有名詞ミスが集中している場合、macro集計ではそのサンプルのF1が大きく下がりコーパス全体のスコアを引き下げます。一方micro集計では名詞の実数ベースで評価されるため、名詞の多い発話の影響が相対的に大きくなります。「コーパス全体でどれだけ名詞を拾えたか」を素直に表したい場合はmicro集計が適切です。
Q. 固有名詞F1が低いモデルでも、後処理で改善できますか?
はい。LLMベースの後処理(Post-Correction)が有効です。ASR出力をLLMに渡して固有名詞を文脈から補正させることで、単体ASRより高い精度を達成できるケースがあります。特にWhisperにLLM後処理を組み合わせると、CERと固有名詞F1の両方をさらに伸ばせる可能性があります。
Q. このベンチマークを自分のデータで再現できますか?
Sudachi(sudachidict-full)をインストールして同じ流れで実装すれば、名詞F1の計算自体は再現できます。ASRモデルの推論コードは前回のベンチマーク記事を参照してください。データセットは非公開ですが、自前の音声データと参照テキストがあれば同じパイプラインをそのまま適用できます。
Q. 医療や法律などの専門ドメインにも同じ手法は使えますか?
基本的な手法は流用できますが、Sudachiの標準辞書に含まれない専門用語は固有名詞として正しく抽出されない場合があります。医療ドメインでは専門辞書の追加登録を検討してください。また専門用語を直接評価したい場合は本記事で紹介したTerm Hit Rateアプローチが補完的に有効です。
関連するブログ
この記事に近いテーマのブログをピックアップしています。
【2026年最新】日本語音声認識(ASR / STT)モデル比較:Whisper・Qwen3・Cohere・Graniteをベンチマーク
RTX5090を使い最新の日本語ASRモデルを同一条件でベンチマークした結果、精度・安定性ともにqwen/qwen3-asr-1.7b(WER: 0.1899)とwhisper(WER: 0.2099)が頭一つ抜け出しました。速度最優先ならparakeet-tdt-0.6b-v3(RTF: 0.002)、日本語メディア特化ならreazonspeech-espnet-v2が有力な選択肢です。WER評価にはMeCab分かち書き+句読点除去による正規化を実装し、モデル間の公平な比較を実現しています。
記事を読む →【2026年版】IT用語に強い日本語音声認識(STT/ASR)モデル比較|Whisper・Qwen・他の精度検証
本記事は、IT企業名・サービス名・略語を含む実際の音声データで9つのASRモデルを評価した一次ベンチマークです。汎用的な日本語音声認識ベンチとは異なり、「openclawやARRをちゃんと書き起こせるか」という実務目線で評価しています。
記事を読む →