Neosophie

Blog

Neosophieのプロダクト開発、技術、カルチャーについての発信。

#ai #asr #benchmark #books #dataset #diarization #finetune #lipsync #llm #metrics #oss #quantization #rag #rss #tool #tts

May 1, 2026diarization

【2026年】話者分離モデル比較：NeMo SortFormer・VibeVoice・Pyannoteを実測

オープンソース話者分離モデル NeMo（SortFormer・MSDD）・VibeVoice ASR・Pyannoteを実音声で比較。DERスコアと用途別おすすめをまとめました。

Neosophie Team

April 30, 2026asr benchmark

【2026年版】IT用語に強い日本語音声認識（STT/ASR）モデル比較｜Whisper・Qwen

IT企業名・SaaS略語を含む実音声で9つのASRモデルを比較。Whisper・Qwen3-ASR・Granite 4.0のIT用語認識精度を実測。

Neosophie Team

April 30, 2026rss ai

現役AIエンジニアが厳選：LLM最新情報をノイズなく速く掴む17サイト【2026年版】

LLM・生成AIの最新情報を速く・正確に・ノイズ少なく追うために、現役AIエンジニアが厳選した一次情報源17サイトを紹介。研究・論文・実装・OSS・コミュニティ別に整理し、RSS活用法まで解説します。

Neosophie Team

April 30, 2026asr benchmark

【2026年最新】日本語音声認識（ASR / STT）モデル比較：Whisper・Qwen3・Cohere・Graniteをベンチマーク

WhisperやQwen3-ASR、ReazonSpeech、Parakeetなど8モデルを同条件で比較。WER・速度・用途別おすすめをまとめました。

Neosophie Team

April 29, 2026asr

高精度の日本語音声認識モデルを無償公開

日本語ASRのCER最強モデルQwen3-ASR-1.7Bを固有名詞特化でファインチューニング。CERと固有名詞F1の両軸でWhisperを上回る最高水準を実現。Hugging Faceで無償公開中。macOSアプリSonophieでも利用可能。

Neosophie Team

April 29, 2026llm finetune

カスタムLogitsProcessorでHuggingFace TransformersのJSON繰り返しハルシネーションを修正

HuggingFace TransformersでカスタムLogitsProcessorを実装するステップバイステップガイド。ファインチューニング済みQwenの推論時に、JSONのContentフィールド内のみを対象にno-repeat-ngramを選択的に適用し、繰り返しハルシネーションを抑制する。

Neosophie Team

April 27, 2026oss

Macで無料・オフライン文字起こし：whisper.cpp + CoreMLでリアルタイム対応

whisper.cpp + CoreMLでMac上でオフライン文字起こし。マイク・Web会議の声に対応、データ送信なし・無料で使える。

Neosophie Team

April 27, 2026tts

【2026年最新】日本語オープンソースTTS比較：Qwen3-TTS・Chatterbox・Fish Speech

Qwen3-TTS・Chatterbox・Fish Speech・CosyVoice・IndexTTS2を実際に動かして比較。音質・日本語対応・ライセンスをまとめて解説。

Neosophie Team

April 21, 2026asr benchmark

WER・CERだけでは不十分？日本語音声認識を「名詞・固有名詞F1スコア」で再評価した結果

日本語音声認識は漢字や固有名詞の表記多く他言語に比べて難しい。そこで、WERやCERでは見えにくい「漢字・固有名詞の認識精度」を定量化するために、Sudachiによる形態素解析ベースのF1スコア評価を実装し、オープンソース音声認識モデル9種を再評価した一次ベンチマーク記事です。

Neosophie Team

April 16, 2026asr dataset

複数ASRモデルを組み合わせた高品質訓練データ作成パイプライン——Whisper×Qwen3×LLMの設計思想と実装

WhisperとQwen3-ASRの転写結果をdiff形式でLLMに統合させ、単一モデルの限界を超える高品質なASR訓練データを生成する2段階パイプラインの解説記事です。Whisperは漢字・固有名詞に強く、Qwen3はCER全体で優位という異なる強みを持つモデルを組み合わせ、Forced Alignmentで単語レベルのタイムスタンプを付与します。後段のチャンク分割スクリプトでは文末スコアリングによる自然な20〜30秒チャンク生成とWhisper再転写によるCER品質チェックまでを自動化しています。

Neosophie Team

April 8, 2026asr finetune

IBM Granite Speech 1Bを日本語音声でファインチューニングしてCER 20%以上に改善した話

IBM Granite Speech（`granite-4.0-1b-speech`）を100時間の日本語音声データでファインチューニングし、CERを0.37から0.14まで改善しました。公式スクリプトのProjector+LoRAのみの学習では精度改善に限界があり、`lm_head`とLanguage Modelの後ろから8層を追加で学習させることが最大要因になりました。Qwen3-ASR-1.7B（CER 0.14）と同等の精度を1Bパラメータで達成しています。

Neosophie Team

March 19, 2026tts

OpenVoiceでゼロショット音声クローニング＋感情制御を試した実録

OpenVoice V1は14秒の参照音声から話者の声色を抽出し、8種の感情スタイルで音声を生成できるゼロショット音声クローニングライブラリ

Neosophie Team

March 12, 2026books

現役AIエンジニアが実務のために読んだ本5選【精度改善・プロダクト開発に直結】

AIのAPIは使えても精度改善できない理由は、モデル内部の理解不足にある。紹介する5冊はHuggingFace・Chip Huyenなど第一線の実務家が書いたO'Reilly本で、海外MLエンジニアのスタンダード。

Neosophie Team

March 12, 2026diarization metrics

話者分離の評価指標を完全解説｜DER・JER・Purity・Boundary Errorの計算方法と使い分け

DER単体では「なぜ失敗しているか」が分からないため、miss/FA・confusion・Purity/Coverage・Boundary Errorを組み合わせて「VADの問題かクラスタリングの問題か」「過分割か統合不足か」を切り分けることが重要だ。実測では短発話のmiss=0%&conf=56%という数値が「VADは正常、話者割り当てが主因」を確定する決め手になった。評価時はcollar・skip_overlapの設定を必ず統一・明記することが再現性の絶対条件だ。

Neosophie Team

March 10, 2026rag

Embedding RAGの限界とPageIndex（ベクターレスRAG）の検証

BM25+Embeddingのハイブリッド検索を一通り試したが、精度向上に限界を感じた。そこでベクターDBもEmbeddingも使わないPageIndexを自社サイトに導入し、URLのツリー構造をLLMが目次のようにたどる方式でページを特定する仕組みを構築した。LangGraphで6ノードのエージェントを実装し、実ログとともに動作を検証した。

Neosophie Team

March 10, 2026diarization

WeSpeakerで話者分離（Speaker Diarization）を試してみた【日本語音声での検証結果】

WeSpeakerはSpeech Embeddingに特化したOSSで、ResNet34・ResNet152・多言語モデルのSimAMResNet34を日本語音声で評価しました。結果はDER 65〜83%と精度が低く、英語ベースの学習データと日本語音韻特性の乖離が主な原因と考えられます。日本語音声での話者分離には、日本語対応モデルや別フレームワークの検討が現実的な選択肢です。

Neosophie Team

March 7, 2026lipsync

SadTalker・LatentSyncでLip Sync（リップシンク）を検証してみた

SadTalkerは静止画＋音声から喋る動画を生成、LatentSyncは既存動画の口の動きを音声に合わせて差し替えるOSSツールで、用途が異なる2ツールを実機検証した。

Neosophie Team

March 6, 2026asr quantization

VibeVoice-ASRを量子化してDERはどう変わるか？4bit・8bit・originalを実測比較

VibeVoice-ASRを4bit・8bit量子化してDERを実測したところ、量子化が精度を下げるとは限らず、ドラマ系音声では4bitがオリジナルより8.5ポイント改善した

Neosophie Team

March 6, 2026tool

GradioでHugging Face Datasetをオフライン表示する

Hugging FaceのDataset ViewerはGradio + datasetsライブラリを使えば、ローカルキャッシュから高速に動くビューアをPythonだけで自作できる。音声・画像のインライン再生もdecode=False + base64埋め込みで実現。スクリプト1本でページネーション・Streamingモード対応まで完備する。

Neosophie Team