日本語最高水準の音声認識モデルを無償公開した
この記事では、Qwen3-ASR-1.7Bを固有名詞に特化してファインチューニングしたモデルの技術的背景・評価方法・使い方を解説します。モデルはHugging Faceで無償公開中です。
結論
「最高水準」の根拠は2つある。
1つ目はCER(文字誤り率)。過去のベンチマーク記事で検証したとおり、日本語ASRにおいてQwen3-ASRは現時点で最もCERが低い。これは事実であり、Whisper・ReazonSpeech・Graniteを含む主要モデルとの比較で示している。
しかしCERだけでは不十分だ。CERが低くても固有名詞を正しく書き起こせなければ、実務では使い物にならない。
2つ目の根拠が固有名詞F1スコア。固有名詞に絞った評価記事で示したとおり、Qwen3-ASRはCERでは最強だが、固有名詞の認識精度ではWhisperに劣るという問題があった。今回公開するモデルはこの弱点をファインチューニングで解消し、CERでも固有名詞F1でもWhisperを上回る。この2軸を両立したモデルが「最高水準」と言える理由だ。
👉 モデルはこちら(無償公開)
neosophie/Qwen3-ASR-1.7B-JA — Hugging Face
👉 日本語音声認識アプリ(macOS)
Sonophie — Neosophie
なぜQwen3-ASRを選んだのか
日本語ASRモデルのベンチマークについては別記事で詳しく検証していますが、結論としてQwen3-ASRは現時点で最もCERが低いモデルです。
詳細はベンチマーク記事に譲るが、CERの序列は以下のとおりだ。値が低いほど良い。
CER(Character Error Rate / 文字誤り率)とは
認識結果と正解テキストの差異を文字単位で計算した指標。値が低いほど精度が高い。
しかし、CERだけですべての性能を語るには限界がある。
CERでは測れない固有名詞問題
固有名詞F1スコアという評価軸
CERは文字の一致率を見る指標なので、「ByteDance」が「バイトダンス」と書かれても誤りと判定されない。しかし実際の文書で「バイトダンス」と書くべきところに「ByteDance」が出てきたら、後処理が必要になる。
そこで固有名詞・普通名詞に絞ったF1スコアによる評価を行った。
指標の読み方
- WER(Word Error Rate):単語単位の誤り率。低いほど良い
- CER(Character Error Rate):文字単位の誤り率。低いほど良い
- CN_F1(Common Noun F1):普通名詞の認識F1スコア。高いほど良い
- PN_F1(Proper Noun F1):固有名詞の認識F1スコア。高いほど良い
ベンチマーク結果
ITドメインデータセット(技術系の音声・会議・解説動画を想定)
| ASR | WER↓ | CER↓ | CN_F1↑ | PN_F1↑ |
|---|---|---|---|---|
| neosophie/qwen3-asr-1.7b-ja(ours) | 0.2162 | 0.0892 | 0.8754 | 0.6512 |
| qwen/qwen3-asr-1.7b | 0.3003 | 0.0823 | 0.8642 | 0.5909 |
| whisper | 0.3441 | 0.1565 | 0.8831 | 0.5641 |
なぜ固有名詞認識が実体験に直結するか
CERが1ポイント下がることより、固有名詞が正しく書き起こされる方が「認識精度が良くなった」と感じます。
例えば:
- 議事録に「バイトダンス」ではなく「ByteDance」と出てほしい
- 「Pull Request」が「プルリクエスト」になっていると読みにくい
- 「position: absolute」が「ポジションアブソルート」と書かれると検索できない
こういった細かい表記ミスは、後から手で直すと非常に手間がかかります。
日本語ASRが難しい本質的な理由
日本語は世界的に見ても表記体系が複雑な言語です。ひらがな・カタカナ・漢字・アラビア数字・アルファベットが混在し、同じ音声に対して複数の「正しい書き方」が存在します。
表記揺れの具体例
音声: 「バイトダンス」
正解A(一般文書): バイトダンス
正解B(技術文書): ByteDance
音声: 「いちまんにせんさんびゃくよんじゅうご」
正解A: 一万二千三百四十五
正解B: 1万2345(読みやすい)
音声: 「AイコールAプラス1」
正解A: A=A+1
正解B: A=A+1(コード文脈)
どの表記が「正しい」かは文脈によって変わります。エンジニアは英字・記号表記を好み、他の職種では漢字表記が好まれるケースもあります。
汎用的なASRモデルは「音声を文字に変換する」ことに最適化されており、「どの表記が適切か」という判断は苦手です。これがドメイン特化ファインチューニングの必要性につながります。
ファインチューニングで改善した具体的な変換例
今回のモデルが対応する変換の例を示します。
カタカナ→適切な表記への変換
| 音声(カタカナ) | 変換後 |
|---|---|
| バイトダンス | ByteDance |
| プルリクエスト | Pull Request |
| グーグルスライド | Google Slides |
| ポジションアブソルート | position: absolute |
| サードパーティークッキー | third-party cookie |
漢数字→アラビア数字への変換
| 音声 | 変換後 |
|---|---|
| 一万二千三百四十五 | 1万2345 |
| 十人 | 10人 |
数式・コードの表記統一
| 音声 | 変換後 |
|---|---|
| AイコールAプラス1 | A=A+1 |
モデルの使い方
Hugging Faceからの利用
pip install transformers torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor
import torch
model_id = "neosophie/Qwen3-ASR-1.7B-JA"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(
model_id,
torch_dtype=torch.float16,
device_map="auto"
)
# 音声ファイルを読み込んで推論
import librosa
audio, sr = librosa.load("your_audio.wav", sr=16000)
inputs = processor(audio, sampling_rate=sr, return_tensors="pt")
with torch.no_grad():
generated_ids = model.generate(**inputs)
transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(transcription)
モデルの詳細な使用方法・ライセンスはHugging Faceのモデルページを参照してください。
GUIアプリで使いたい場合
コードを書かずに使いたい方には、このモデルを搭載したmacOSアプリ Sonophie を提供しています。
グローバルショートカットで起動 → 音声認識 → クリップボードにコピーという流れで、会議の議事録作成やインタビューの文字起こしに使えます。
技術的な補足:ファインチューニングの設計思想
なぜ1.7Bという小さいモデルか
- ローカル推論・エッジデバイスでの動作を想定
- large-v3クラスのモデルと比較してもCERが同等以下
- メモリ使用量が少なく、CPUのみでも動作可能
ファインチューニングデータの構成
固有名詞を中心とした音声・テキストペアを収集し、表記揺れのパターンを学習させています。技術用語・企業名・製品名・プログラミング用語を中心に構築しました。
このモデルは日本語の技術・ビジネス領域に最適化されています。医療・法律・行政など専門性の高い領域では別途評価が必要です。
FAQ
Q. WhisperとQwen3-ASR、どちらを使えばいいですか?
A. CERを優先するならQwen3-ASRが現時点で優秀です。ただし固有名詞が多い用途では、今回公開したファインチューニング済みモデルの使用を推奨します。
Q. GPU環境がなくても動きますか?
A. 1.7Bモデルなので、CPUのみでも動作します。ただし推論速度はGPU環境に比べて大幅に遅くなります。float16やint8量子化も検討してください。
Q. 英語の音声にも使えますか?
A. このモデルは日本語特化でファインチューニングしているため、英語音声への性能は保証していません。英語はオリジナルのQwen3-ASRをご利用ください。
Q. 商用利用は可能ですか?
A. ライセンスはHugging Faceのモデルページを確認してください。ベースモデルであるQwen3-ASRのライセンスに準拠します。
Q. カスタム固有名詞を追加できますか?
A. 現時点では追加学習のサポートは行っていませんが、Hugging Face上のモデルをベースに独自でファインチューニングすることは可能です。
Q. Sonophieはどのプラットフォームに対応していますか?
A. 現在はmacOSのみ対応しています。
まとめ
- 日本語ASRにおけるCERの限界:固有名詞認識は別指標(F1スコア)で評価が必要
- Qwen3-ASRはCER最強だが固有名詞ではWhisperに劣るという課題があった
- 固有名詞特化のファインチューニングでこの課題を解消
- モデルはHugging Faceで無償公開中
- GUIで使いたい方向けにmacOSアプリ Sonophie も提供
👉 まずはモデルを試してみてください
neosophie/Qwen3-ASR-1.7B-JA
関連するブログ
この記事に近いテーマのブログをピックアップしています。
【2026年版】IT用語に強い日本語音声認識(STT/ASR)モデル比較|Whisper・Qwen
IT企業名・SaaS略語を含む実音声で9つのASRモデルを比較。Whisper・Qwen3-ASR・Granite 4.0のIT用語認識精度を実測。
記事を読む →【2026年最新】日本語音声認識(ASR / STT)モデル比較:Whisper・Qwen3・Cohere・Graniteをベンチマーク
WhisperやQwen3-ASR、ReazonSpeech、Parakeetなど8モデルを同条件で比較。WER・速度・用途別お すすめをまとめました。
記事を読む →