日本語最高水準の音声認識モデルを無償公開した

April 27, 2026

この記事では、Qwen3-ASR-1.7Bを固有名詞に特化してファインチューニングしたモデルの技術的背景・評価方法・使い方を解説します。モデルはHugging Faceで無償公開中です。

結論

「最高水準」の根拠は2つある。

1つ目はCER（文字誤り率）。過去のベンチマーク記事で検証したとおり、日本語ASRにおいてQwen3-ASRは現時点で最もCERが低い。これは事実であり、Whisper・ReazonSpeech・Graniteを含む主要モデルとの比較で示している。

しかしCERだけでは不十分だ。CERが低くても固有名詞を正しく書き起こせなければ、実務では使い物にならない。

2つ目の根拠が固有名詞F1スコア。固有名詞に絞った評価記事で示したとおり、Qwen3-ASRはCERでは最強だが、固有名詞の認識精度ではWhisperに劣るという問題があった。今回公開するモデルはこの弱点をファインチューニングで解消し、CERでも固有名詞F1でもWhisperを上回る。この2軸を両立したモデルが「最高水準」と言える理由だ。

👉 モデルはこちら（無償公開）
neosophie/Qwen3-ASR-1.7B-JA — Hugging Face

👉 日本語音声認識アプリ（macOS）
Sonophie — Neosophie

なぜQwen3-ASRを選んだのか

日本語ASRモデルのベンチマークについては別記事で詳しく検証していますが、結論としてQwen3-ASRは現時点で最もCERが低いモデルです。

詳細はベンチマーク記事に譲るが、CERの序列は以下のとおりだ。値が低いほど良い。

CER（Character Error Rate / 文字誤り率）とは
認識結果と正解テキストの差異を文字単位で計算した指標。値が低いほど精度が高い。

しかし、CERだけですべての性能を語るには限界がある。

CERでは測れない固有名詞問題

固有名詞F1スコアという評価軸

CERは文字の一致率を見る指標なので、「ByteDance」が「バイトダンス」と書かれても誤りと判定されない。しかし実際の文書で「バイトダンス」と書くべきところに「ByteDance」が出てきたら、後処理が必要になる。

そこで固有名詞・普通名詞に絞ったF1スコアによる評価を行った。

指標の読み方

WER（Word Error Rate）：単語単位の誤り率。低いほど良い
CER（Character Error Rate）：文字単位の誤り率。低いほど良い
CN_F1（Common Noun F1）：普通名詞の認識F1スコア。高いほど良い
PN_F1（Proper Noun F1）：固有名詞の認識F1スコア。高いほど良い

ベンチマーク結果

ITドメインデータセット（技術系の音声・会議・解説動画を想定）

ASR	WER↓	CER↓	CN_F1↑	PN_F1↑
neosophie/qwen3-asr-1.7b-ja（ours）	0.2162	0.0892	0.8754	0.6512
qwen/qwen3-asr-1.7b	0.3003	0.0823	0.8642	0.5909
whisper	0.3441	0.1565	0.8831	0.5641

なぜ固有名詞認識が実体験に直結するか

CERが1ポイント下がることより、固有名詞が正しく書き起こされる方が「認識精度が良くなった」と感じます。

例えば：

議事録に「バイトダンス」ではなく「ByteDance」と出てほしい
「Pull Request」が「プルリクエスト」になっていると読みにくい
「position: absolute」が「ポジションアブソルート」と書かれると検索できない

こういった細かい表記ミスは、後から手で直すと非常に手間がかかります。

日本語ASRが難しい本質的な理由

日本語は世界的に見ても表記体系が複雑な言語です。ひらがな・カタカナ・漢字・アラビア数字・アルファベットが混在し、同じ音声に対して複数の「正しい書き方」が存在します。

表記揺れの具体例

text

音声: 「バイトダンス」
正解A（一般文書）: バイトダンス
正解B（技術文書）: ByteDance

text

音声: 「いちまんにせんさんびゃくよんじゅうご」
正解A: 一万二千三百四十五
正解B: 1万2345（読みやすい）

text

音声: 「AイコールAプラス1」
正解A: A＝A＋1
正解B: A=A+1（コード文脈）

どの表記が「正しい」かは文脈によって変わります。エンジニアは英字・記号表記を好み、他の職種では漢字表記が好まれるケースもあります。

汎用的なASRモデルは「音声を文字に変換する」ことに最適化されており、「どの表記が適切か」という判断は苦手です。これがドメイン特化ファインチューニングの必要性につながります。

ファインチューニングで改善した具体的な変換例

今回のモデルが対応する変換の例を示します。

カタカナ→適切な表記への変換

音声（カタカナ）	変換後
バイトダンス	ByteDance
プルリクエスト	Pull Request
グーグルスライド	Google Slides
ポジションアブソルート	position: absolute
サードパーティークッキー	third-party cookie

漢数字→アラビア数字への変換

音声	変換後
一万二千三百四十五	1万2345
十人	10人

数式・コードの表記統一

音声	変換後
AイコールAプラス1	A=A+1

モデルの使い方

Hugging Faceからの利用

bash

pip install transformers torch

python

from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor
import torch

model_id = "neosophie/Qwen3-ASR-1.7B-JA"

processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id,
    torch_dtype=torch.float16,
    device_map="auto"
)

# 音声ファイルを読み込んで推論
import librosa
audio, sr = librosa.load("your_audio.wav", sr=16000)

inputs = processor(audio, sampling_rate=sr, return_tensors="pt")
with torch.no_grad():
    generated_ids = model.generate(**inputs)

transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(transcription)

モデルの詳細な使用方法・ライセンスはHugging Faceのモデルページを参照してください。

GUIアプリで使いたい場合

コードを書かずに使いたい方には、このモデルを搭載したmacOSアプリ Sonophie を提供しています。

Sonophie — 日本語に強い音声認識アプリ

グローバルショートカットで起動 → 音声認識 → クリップボードにコピーという流れで、会議の議事録作成やインタビューの文字起こしに使えます。

技術的な補足：ファインチューニングの設計思想

なぜ1.7Bという小さいモデルか

ローカル推論・エッジデバイスでの動作を想定
large-v3クラスのモデルと比較してもCERが同等以下
メモリ使用量が少なく、CPUのみでも動作可能

ファインチューニングデータの構成

固有名詞を中心とした音声・テキストペアを収集し、表記揺れのパターンを学習させています。技術用語・企業名・製品名・プログラミング用語を中心に構築しました。

このモデルは日本語の技術・ビジネス領域に最適化されています。医療・法律・行政など専門性の高い領域では別途評価が必要です。

FAQ

Q. WhisperとQwen3-ASR、どちらを使えばいいですか？
A. CERを優先するならQwen3-ASRが現時点で優秀です。ただし固有名詞が多い用途では、今回公開したファインチューニング済みモデルの使用を推奨します。

Q. GPU環境がなくても動きますか？
A. 1.7Bモデルなので、CPUのみでも動作します。ただし推論速度はGPU環境に比べて大幅に遅くなります。float16やint8量子化も検討してください。

Q. 英語の音声にも使えますか？
A. このモデルは日本語特化でファインチューニングしているため、英語音声への性能は保証していません。英語はオリジナルのQwen3-ASRをご利用ください。

Q. 商用利用は可能ですか？
A. ライセンスはHugging Faceのモデルページを確認してください。ベースモデルであるQwen3-ASRのライセンスに準拠します。

Q. カスタム固有名詞を追加できますか？
A. 現時点では追加学習のサポートは行っていませんが、Hugging Face上のモデルをベースに独自でファインチューニングすることは可能です。

Q. Sonophieはどのプラットフォームに対応していますか？
A. 現在はmacOSのみ対応しています。

まとめ

日本語ASRにおけるCERの限界：固有名詞認識は別指標（F1スコア）で評価が必要
Qwen3-ASRはCER最強だが固有名詞ではWhisperに劣るという課題があった
固有名詞特化のファインチューニングでこの課題を解消
モデルはHugging Faceで無償公開中
GUIで使いたい方向けにmacOSアプリ Sonophie も提供

👉 まずはモデルを試してみてください
neosophie/Qwen3-ASR-1.7B-JA

Contact

仕事の依頼などのお問い合わせはこちら

新規プロジェクトのご相談、開発のご依頼、協業のご相談などがあれば、お気軽にご連絡ください。

お問い合わせフォームへ

日本語最高水準の音声認識モデルを無償公開した

結論

なぜQwen3-ASRを選んだのか

CERでは測れない固有名詞問題

固有名詞F1スコアという評価軸

ベンチマーク結果

なぜ固有名詞認識が実体験に直結するか

日本語ASRが難しい本質的な理由

表記揺れの具体例

ファインチューニングで改善した具体的な変換例

カタカナ→適切な表記への変換

漢数字→アラビア数字への変換

数式・コードの表記統一

モデルの使い方

Hugging Faceからの利用

GUIアプリで使いたい場合

技術的な補足：ファインチューニングの設計思想

なぜ1.7Bという小さいモデルか

ファインチューニングデータの構成

FAQ

まとめ

仕事の依頼などのお問い合わせはこちら

関連するブログ

【2026年版】IT用語に強い日本語音声認識（STT/ASR）モデル比較｜Whisper・Qwen

【2026年最新】日本語音声認識（ASR / STT）モデル比較：Whisper・Qwen3・Cohere・Graniteをベンチマーク