← ブログ一覧へ戻る

#asr

「asr」のタグが付いた記事は 5 件です。

複数ASRモデルを組み合わせた高品質訓練データ作成パイプライン——Whisper×Qwen3×LLMの設計思想と実装 og preview

複数ASRモデルを組み合わせた高品質訓練データ作成パイプライン——Whisper×Qwen3×LLMの設計思想と実装

asrdataset

WhisperとQwen3-ASRの転写結果をdiff形式でLLMに統合させ、単一モデルの限界を超える高品質なASR訓練データを生成する2段階パイプラインの解説記事です。Whisperは漢字・固有名詞に強く、Qwen3はCER全体で優位という異なる強みを持つモデルを組み合わせ、Forced Alignmentで単語レベルのタイムスタンプを付与します。後段のチャンク分割スクリプトでは文末スコアリングによる自然な20〜30秒チャンク生成とWhisper再転写によるCER品質チェックまでを自動化しています。

【2026年最新】日本語音声認識(ASR / STT)モデル比較:Whisper・Qwen3・Cohere・Graniteをベンチマーク og preview

【2026年最新】日本語音声認識(ASR / STT)モデル比較:Whisper・Qwen3・Cohere・Graniteをベンチマーク

asrbenchmark

RTX5090を使い最新の日本語ASRモデルを同一条件でベンチマークした結果、精度・安定性ともにqwen/qwen3-asr-1.7b(WER: 0.1899)とwhisper(WER: 0.2099)が頭一つ抜け出しました。速度最優先ならparakeet-tdt-0.6b-v3(RTF: 0.002)、日本語メディア特化ならreazonspeech-espnet-v2が有力な選択肢です。WER評価にはMeCab分かち書き+句読点除去による正規化を実装し、モデル間の公平な比較を実現しています。

IBM Granite Speech 1Bを日本語音声でファインチューニングしてCER 20%以上に改善した話 og preview

IBM Granite Speech 1Bを日本語音声でファインチューニングしてCER 20%以上に改善した話

asrfinetune

IBM Granite Speech(`granite-4.0-1b-speech`)を100時間の日本語音声データでファインチューニングし、CERを0.37から0.14まで改善しました。公式スクリプトのProjector+LoRAのみの学習では精度改善に限界があり、`lm_head`とLanguage Modelの後ろから8層を追加で学習させることが最大要因になりました。Qwen3-ASR-1.7B(CER 0.14)と同等の精度を1Bパラメータで達成しています。