Contact

Blog

Neosophieのプロダクト開発、技術、カルチャーについての発信。

【2026年最新】日本語ASRモデル比較:Whisper・Qwen3・Voxtral・ReazonSpeechをRTX5090で徹底ベンチマーク og preview
asrbenchmark

【2026年最新】日本語ASRモデル比較:Whisper・Qwen3・Voxtral・ReazonSpeechをRTX5090で徹底ベンチマーク

RTX5090を使い8種類の日本語ASRモデルを同一条件でベンチマークした結果、精度・安定性ともにqwen/qwen3-asr-1.7b(WER: 0.1899)とwhisper(WER: 0.2099)が頭一つ抜け出しました。速度最優先ならparakeet-tdt-0.6b-v3(RTF: 0.002)、日本語メディア特化ならreazonspeech-espnet-v2が有力な選択肢です。WER評価にはMeCab分かち書き+句読点除去による正規化を実装し、モデル間の公平な比較を実現しています。

Neosophie Team

WeSpeakerで話者分離(Speaker Diarization)を試してみた【日本語音声での検証結果】 og preview
diarization

WeSpeakerで話者分離(Speaker Diarization)を試してみた【日本語音声での検証結果】

WeSpeakerはSpeech Embeddingに特化したOSSで、ResNet34・ResNet152・多言語モデルのSimAMResNet34を日本語音声で評価しました。結果はDER 65〜83%と精度が低く、英語ベースの学習データと日本語音韻特性の乖離が主な原因と考えられます。日本語音声での話者分離には、日本語対応モデルや別フレームワークの検討が現実的な選択肢です。

Neosophie Team

【2026年】NeMo・VibeVoice・Pyannoteで話者分離(Speaker Diarization)を徹底検証してみた og preview
diarization

【2026年】NeMo・VibeVoice・Pyannoteで話者分離(Speaker Diarization)を徹底検証してみた

NeMo・VibeVoice・Pyannoteの3大ツールで話者分離(Speaker Diarization)を実際に検証。討論系動画ではVibeVoiceがDER 9%台と実用レベルの精度を達成した一方、ドラマ系は最良でも27%と課題が残る結果に。データ特性によってモデルの優劣が大きく変わるため、用途別の選び方を徹底解説する。

Neosophie Team

海外AIの最前線を追うAIエンジニアが毎日見ているサイト一覧 og preview
rssai

海外AIの最前線を追うAIエンジニアが毎日見ているサイト一覧

AIの最前線を追う現役エンジニアが、日々チェックしている海外AI情報源を公開。OpenAIやDeepMindの公式ブログ、Hugging Faceの論文トレンド、GitHub Trending、Hacker Newsまで、研究・OSS・実装レベルの一次情報を効率よく追う方法をまとめました。SNSに頼らずノイズを減らして最新動向を把握したい人向けの実践的ガイドです。

Neosophie Team

【Mac対応】完全オフラインで使える無料文字起こしアプリ「Local Whisper」を開発した話 og preview
oss

【Mac対応】完全オフラインで使える無料文字起こしアプリ「Local Whisper」を開発した話

Macで無料&完全オフラインで使える文字起こしアプリ「Local Whisper」。whisper.cpp + CoreMLでApple Silicon上でも高速動作。マイク音声・Web会議の相手の声にも対応し、データ外部送信なし・サブスク不要。Silero VADやaudio_ctx最適化による低遅延リアルタイム化の工夫も解説します。

Neosophie Team