← ブログ一覧へ戻る

#benchmark

「benchmark」のタグが付いた記事は 3 件です。

WER・CERだけでは不十分?日本語音声認識を「名詞・固有名詞F1スコア」で再評価した結果 og preview

WER・CERだけでは不十分?日本語音声認識を「名詞・固有名詞F1スコア」で再評価した結果

asrbenchmark

日本語音声認識は漢字や固有名詞の表記多く他言語に比べて難しい。そこで、WERやCERでは見えにくい「漢字・固有名詞の認識精度」を定量化するために、Sudachiによる形態素解析ベースのF1スコア評価を実装し、オープンソース音声認識モデル9種を再評価した一次ベンチマーク記事です。

【2026年最新】日本語音声認識(ASR / STT)モデル比較:Whisper・Qwen3・Cohere・Graniteをベンチマーク og preview

【2026年最新】日本語音声認識(ASR / STT)モデル比較:Whisper・Qwen3・Cohere・Graniteをベンチマーク

asrbenchmark

RTX5090を使い最新の日本語ASRモデルを同一条件でベンチマークした結果、精度・安定性ともにqwen/qwen3-asr-1.7b(WER: 0.1899)とwhisper(WER: 0.2099)が頭一つ抜け出しました。速度最優先ならparakeet-tdt-0.6b-v3(RTF: 0.002)、日本語メディア特化ならreazonspeech-espnet-v2が有力な選択肢です。WER評価にはMeCab分かち書き+句読点除去による正規化を実装し、モデル間の公平な比較を実現しています。