日本語最高水準の音声認識モデルを無償公開した

この記事では、Qwen3-ASR-1.7Bを固有名詞に特化してファインチューニングしたモデルの技術的背景・評価方法・使い方を解説します。モデルはHugging Faceで無償公開中です。

結論

「最高水準」の根拠は2つある。

1つ目はCER(文字誤り率)過去のベンチマーク記事で検証したとおり、日本語ASRにおいてQwen3-ASRは現時点で最もCERが低い。これは事実であり、Whisper・ReazonSpeech・Graniteを含む主要モデルとの比較で示している。

しかしCERだけでは不十分だ。CERが低くても固有名詞を正しく書き起こせなければ、実務では使い物にならない。

2つ目の根拠が固有名詞F1スコア固有名詞に絞った評価記事で示したとおり、Qwen3-ASRはCERでは最強だが、固有名詞の認識精度ではWhisperに劣るという問題があった。今回公開するモデルはこの弱点をファインチューニングで解消し、CERでも固有名詞F1でもWhisperを上回る。この2軸を両立したモデルが「最高水準」と言える理由だ。

👉 モデルはこちら(無償公開)
neosophie/Qwen3-ASR-1.7B-JA — Hugging Face

👉 日本語音声認識アプリ(macOS)
Sonophie — Neosophie


なぜQwen3-ASRを選んだのか

日本語ASRモデルのベンチマークについては別記事で詳しく検証していますが、結論としてQwen3-ASRは現時点で最もCERが低いモデルです。

詳細はベンチマーク記事に譲るが、CERの序列は以下のとおりだ。値が低いほど良い。

CER(Character Error Rate / 文字誤り率)とは
認識結果と正解テキストの差異を文字単位で計算した指標。値が低いほど精度が高い。

しかし、CERだけですべての性能を語るには限界がある。


CERでは測れない固有名詞問題

固有名詞F1スコアという評価軸

CERは文字の一致率を見る指標なので、「ByteDance」が「バイトダンス」と書かれても誤りと判定されない。しかし実際の文書で「バイトダンス」と書くべきところに「ByteDance」が出てきたら、後処理が必要になる。

そこで固有名詞・普通名詞に絞ったF1スコアによる評価を行った。

指標の読み方

  • WER(Word Error Rate):単語単位の誤り率。低いほど良い
  • CER(Character Error Rate):文字単位の誤り率。低いほど良い
  • CN_F1(Common Noun F1):普通名詞の認識F1スコア。高いほど良い
  • PN_F1(Proper Noun F1):固有名詞の認識F1スコア。高いほど良い

ベンチマーク結果

ITドメインデータセット(技術系の音声・会議・解説動画を想定)

ASRWER↓CER↓CN_F1↑PN_F1↑
neosophie/qwen3-asr-1.7b-ja(ours)0.21620.08920.87540.6512
qwen/qwen3-asr-1.7b0.30030.08230.86420.5909
whisper0.34410.15650.88310.5641

なぜ固有名詞認識が実体験に直結するか

CERが1ポイント下がることより、固有名詞が正しく書き起こされる方が「認識精度が良くなった」と感じます。

例えば:

  • 議事録に「バイトダンス」ではなく「ByteDance」と出てほしい
  • 「Pull Request」が「プルリクエスト」になっていると読みにくい
  • 「position: absolute」が「ポジションアブソルート」と書かれると検索できない

こういった細かい表記ミスは、後から手で直すと非常に手間がかかります。


日本語ASRが難しい本質的な理由

日本語は世界的に見ても表記体系が複雑な言語です。ひらがな・カタカナ・漢字・アラビア数字・アルファベットが混在し、同じ音声に対して複数の「正しい書き方」が存在します。

表記揺れの具体例

text
音声: 「バイトダンス」
正解A(一般文書): バイトダンス
正解B(技術文書): ByteDance
text
音声: 「いちまんにせんさんびゃくよんじゅうご」
正解A: 一万二千三百四十五
正解B: 1万2345(読みやすい)
text
音声: 「AイコールAプラス1」
正解A: A=A+1
正解B: A=A+1(コード文脈)

どの表記が「正しい」かは文脈によって変わります。エンジニアは英字・記号表記を好み、他の職種では漢字表記が好まれるケースもあります。

汎用的なASRモデルは「音声を文字に変換する」ことに最適化されており、「どの表記が適切か」という判断は苦手です。これがドメイン特化ファインチューニングの必要性につながります。


ファインチューニングで改善した具体的な変換例

今回のモデルが対応する変換の例を示します。

カタカナ→適切な表記への変換

音声(カタカナ)変換後
バイトダンスByteDance
プルリクエストPull Request
グーグルスライドGoogle Slides
ポジションアブソルートposition: absolute
サードパーティークッキーthird-party cookie

漢数字→アラビア数字への変換

音声変換後
一万二千三百四十五1万2345
十人10人

数式・コードの表記統一

音声変換後
AイコールAプラス1A=A+1

モデルの使い方

Hugging Faceからの利用

bash
pip install transformers torch
python
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor
import torch

model_id = "neosophie/Qwen3-ASR-1.7B-JA"

processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id,
    torch_dtype=torch.float16,
    device_map="auto"
)

# 音声ファイルを読み込んで推論
import librosa
audio, sr = librosa.load("your_audio.wav", sr=16000)

inputs = processor(audio, sampling_rate=sr, return_tensors="pt")
with torch.no_grad():
    generated_ids = model.generate(**inputs)

transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(transcription)

モデルの詳細な使用方法・ライセンスはHugging Faceのモデルページを参照してください。

GUIアプリで使いたい場合

コードを書かずに使いたい方には、このモデルを搭載したmacOSアプリ Sonophie を提供しています。

Sonophie — 日本語に強い音声認識アプリ

グローバルショートカットで起動 → 音声認識 → クリップボードにコピーという流れで、会議の議事録作成やインタビューの文字起こしに使えます。


技術的な補足:ファインチューニングの設計思想

なぜ1.7Bという小さいモデルか

  • ローカル推論・エッジデバイスでの動作を想定
  • large-v3クラスのモデルと比較してもCERが同等以下
  • メモリ使用量が少なく、CPUのみでも動作可能

ファインチューニングデータの構成

固有名詞を中心とした音声・テキストペアを収集し、表記揺れのパターンを学習させています。技術用語・企業名・製品名・プログラミング用語を中心に構築しました。

このモデルは日本語の技術・ビジネス領域に最適化されています。医療・法律・行政など専門性の高い領域では別途評価が必要です。


FAQ

Q. WhisperとQwen3-ASR、どちらを使えばいいですか?
A. CERを優先するならQwen3-ASRが現時点で優秀です。ただし固有名詞が多い用途では、今回公開したファインチューニング済みモデルの使用を推奨します。

Q. GPU環境がなくても動きますか?
A. 1.7Bモデルなので、CPUのみでも動作します。ただし推論速度はGPU環境に比べて大幅に遅くなります。float16やint8量子化も検討してください。

Q. 英語の音声にも使えますか?
A. このモデルは日本語特化でファインチューニングしているため、英語音声への性能は保証していません。英語はオリジナルのQwen3-ASRをご利用ください。

Q. 商用利用は可能ですか?
A. ライセンスはHugging Faceのモデルページを確認してください。ベースモデルであるQwen3-ASRのライセンスに準拠します。

Q. カスタム固有名詞を追加できますか?
A. 現時点では追加学習のサポートは行っていませんが、Hugging Face上のモデルをベースに独自でファインチューニングすることは可能です。

Q. Sonophieはどのプラットフォームに対応していますか?
A. 現在はmacOSのみ対応しています。


まとめ

  • 日本語ASRにおけるCERの限界:固有名詞認識は別指標(F1スコア)で評価が必要
  • Qwen3-ASRはCER最強だが固有名詞ではWhisperに劣るという課題があった
  • 固有名詞特化のファインチューニングでこの課題を解消
  • モデルはHugging Faceで無償公開中
  • GUIで使いたい方向けにmacOSアプリ Sonophie も提供

👉 まずはモデルを試してみてください
neosophie/Qwen3-ASR-1.7B-JA

Contact

仕事の依頼などのお問い合わせはこちら

新規プロジェクトのご相談、開発のご依頼、協業のご相談などがあれば、お気軽にご連絡ください。

関連するブログ

この記事に近いテーマのブログをピックアップしています。