#asr

「asr」のタグが付いた記事は 7 件です。

【2026年版】IT用語に強い日本語音声認識（STT/ASR）モデル比較｜Whisper・Qwen

April 30, 2026asr benchmark

IT企業名・SaaS略語を含む実音声で9つのASRモデルを比較。Whisper・Qwen3-ASR・Granite 4.0のIT用語認識精度を実測。

【2026年最新】日本語音声認識（ASR / STT）モデル比較：Whisper・Qwen3・Cohere・Graniteをベンチマーク

April 30, 2026asr benchmark

WhisperやQwen3-ASR、ReazonSpeech、Parakeetなど8モデルを同条件で比較。WER・速度・用途別おすすめをまとめました。

高精度の日本語音声認識モデルを無償公開

April 29, 2026asr

日本語ASRのCER最強モデルQwen3-ASR-1.7Bを固有名詞特化でファインチューニング。CERと固有名詞F1の両軸でWhisperを上回る最高水準を実現。Hugging Faceで無償公開中。macOSアプリSonophieでも利用可能。

WER・CERだけでは不十分？日本語音声認識を「名詞・固有名詞F1スコア」で再評価した結果

April 21, 2026asr benchmark

日本語音声認識は漢字や固有名詞の表記多く他言語に比べて難しい。そこで、WERやCERでは見えにくい「漢字・固有名詞の認識精度」を定量化するために、Sudachiによる形態素解析ベースのF1スコア評価を実装し、オープンソース音声認識モデル9種を再評価した一次ベンチマーク記事です。

複数ASRモデルを組み合わせた高品質訓練データ作成パイプライン——Whisper×Qwen3×LLMの設計思想と実装

April 16, 2026asr dataset

WhisperとQwen3-ASRの転写結果をdiff形式でLLMに統合させ、単一モデルの限界を超える高品質なASR訓練データを生成する2段階パイプラインの解説記事です。Whisperは漢字・固有名詞に強く、Qwen3はCER全体で優位という異なる強みを持つモデルを組み合わせ、Forced Alignmentで単語レベルのタイムスタンプを付与します。後段のチャンク分割スクリプトでは文末スコアリングによる自然な20〜30秒チャンク生成とWhisper再転写によるCER品質チェックまでを自動化しています。

IBM Granite Speech 1Bを日本語音声でファインチューニングしてCER 20%以上に改善した話

April 8, 2026asr finetune

IBM Granite Speech（`granite-4.0-1b-speech`）を100時間の日本語音声データでファインチューニングし、CERを0.37から0.14まで改善しました。公式スクリプトのProjector+LoRAのみの学習では精度改善に限界があり、`lm_head`とLanguage Modelの後ろから8層を追加で学習させることが最大要因になりました。Qwen3-ASR-1.7B（CER 0.14）と同等の精度を1Bパラメータで達成しています。

VibeVoice-ASRを量子化してDERはどう変わるか？4bit・8bit・originalを実測比較

March 6, 2026asr quantization

VibeVoice-ASRを4bit・8bit量子化してDERを実測したところ、量子化が精度を下げるとは限らず、ドラマ系音声では4bitがオリジナルより8.5ポイント改善した