April 8, 2026asrfinetuneIBM Granite Speech 1Bを日本語音声でファインチューニングしてCER 20%以上に改善した話IBM Granite Speech(`granite-4.0-1b-speech`)を100時間の日本語音声データでファインチューニングし、CERを0.37から0.14まで改善しました。公式スクリプトのProjector+LoRAのみの学習では精度改善に限界があり、`lm_head`とLanguage Modelの後ろから8層を追加で学習させることが最大要因になりました。Qwen3-ASR-1.7B(CER 0.14)と同等の精度を1Bパラメータで達成しています。Neosophie Team
March 28, 2026asrbenchmark【2026年最新】日本語ASRモデル比較:Whisper・Qwen3・cohere・graniteをRTX5090で徹底ベンチマークRTX5090を使い最新の日本語ASRモデルを同一条件でベンチマークした結果、精度・安定性ともにqwen/qwen3-asr-1.7b(WER: 0.1899)とwhisper(WER: 0.2099)が頭一つ抜け出しました。速度最優先ならparakeet-tdt-0.6b-v3(RTF: 0.002)、日本語メディア特化ならreazonspeech-espnet-v2が有力な選択肢です。WER評価にはMeCab分かち書き+句読点除去による正規化を実装し、モデル間の公平な比較を実現しています。Neosophie Team
March 19, 2026ttsOpenVoiceでゼロショット音声クローニング+感情制御を試した実録OpenVoice V1は14秒の参照音声から話者の声色を抽出し、8種の感情スタイルで音声を生成できるゼロショット音声クローニングライブラリNeosophie Team
March 17, 2026tts オープンソースTTSモデル完全比較2026:Qwen3-TTS・Chatterbox・Fish Speech・CosyVoice・IndexTTS2を実際に動かして検証した5つのオープンソースTTSモデルを実際に動かして比較した。商用ライセンスの落とし穴(Fish Speech・IndexTTS2)を中心に、機能・ライセンス・コードをセットで解説Neosophie Team
March 12, 2026rssaiAIエンジニアが毎日チェックする情報収集サイト17選【2026年最新】LLM・生成AIの最新情報を速く・正確に・ノイズ少なく追うために、現役AIエンジニアが厳選した一次情報源17サイトを紹介。研究・論文・実装・OSS・コミュニティ別に整理し、RSS活用法まで解説します。Neosophie Team
March 12, 2026ossMac で無料&オフライン文字起こしアプリを自作した話:whisper.cpp + CoreML でリアルタイムに近い精度を実現Macで無料&完全オフラインで使える文字起こしアプリ「Local Whisper」。whisper.cpp + CoreMLでApple Silicon上でも高速動作。マイク音声・Web会議の相手の声にも対応し、データ外部送信なし・サブスク不要。Silero VADやaudio_ctx最適化による低遅延リアルタイム化の工夫も解説します。Neosophie Team
March 12, 2026books現役AIエンジニアが実務のために読んだ本5選【精度改善・プロダクト開発に直結】AIのAPIは使えても精度改善できない理由は、モデル内部の理解不足にある。紹介する5冊はHuggingFace・Chip Huyenなど第一線の実務家が書いたO'Reilly本で、海外MLエンジニアのスタンダード。Neosophie Team
March 12, 2026diarizationmetrics話者分離の評価指標を完全解説|DER・JER・Purity・Boundary Errorの計算方法と使い分けDER単体では「なぜ失敗しているか」が分からないため、miss/FA・confusion・Purity/Coverage・Boundary Errorを組み合わせて「VADの問題かクラスタリングの問題か」「過分割か統合不足か」を切り分けることが重要だ。実測では短発話のmiss=0%&conf=56%という数値が「VADは正常、話者割り当てが主因」を確定する決め手になった。評価時はcollar・skip_overlapの設定を必ず統一・明記することが再現性の絶対条件だ。Neosophie Team
March 11, 2026llmfinetuneLogits ProcessorでQwen(LLM)のハルシネーション対策カスタムLogits Processorを使い、JSONのContentフィールド内に限定してno-repeat-ngramを適用することで、Qwenファインチューニング時の繰り返しハルシネーションを副作用なく抑制した。repetition_penaltyやno_repeat_ngram_sizeは全体に効きすぎるため実用上の副作用があるが、スコープを絞ることでその問題を回避できる。TransformersのLogits Processor APIは柔軟で、Qwen以外のモデルにも同じアプローチが使える。Neosophie Team
March 10, 2026ragEmbedding RAGの限界とPageIndex(ベクターレスRAG)の検証BM25+Embeddingのハイブリッド検索を一通り試したが、精度向上に限界を感じた。そこでベクターDBもEmbeddingも使わないPageIndexを自社サイトに導入し、URLのツリー構造をLLMが目次のようにたどる方式でページを特定する仕組みを構築した。LangGraphで6ノードのエージェントを実装し、実ログとともに動作を検証した。Neosophie Team
March 10, 2026diarizationWeSpeakerで話者分離(Speaker Diarization)を試してみた【日本語音声での検証結果】WeSpeakerはSpeech Embeddingに特化したOSSで、ResNet34・ResNet152・多言語モデルのSimAMResNet34を日本語音声で評価しました。結果はDER 65〜83%と精度が低く、英語ベースの学習データと日本語音韻特性の乖離が主な原因と考えられます。日本語音声での話者分離には、日本語対応モデルや別フレームワークの検討が現実的な選択肢です。Neosophie Team
March 10, 2026diarizationNeMo・VibeVoice・Pyannoteで話者分離(Speaker Diarization)を徹底検証してみたNeMo・VibeVoice・Pyannoteの3大モデルで話者分離(Speaker Diarization)を実際に検証。討論系動画ではVibeVoiceがDER 9%台と実用レベルの精度を達成した一方、ドラマ系は最良でも27%と課題が残る結果に。データ特性によってモデルの優劣が大きく変わるため、用途別の選び方を徹底解説する。Neosophie Team
March 7, 2026lipsyncSadTalker・LatentSyncでLip Sync(リップシンク)を検証してみたSadTalkerは静止画+音声から喋る動画を生成、LatentSyncは既存動画の口の動きを音声に合わせて差し替えるOSSツールで、用途が異なる2ツールを実機検証した。Neosophie Team
March 6, 2026asrquantizationVibeVoice-ASRを量子化してDERはどう変わるか?4bit・8bit・originalを実測比較VibeVoice-ASRを4bit・8bit量子化してDERを実測したところ、量子化が精度を下げるとは限らず、ドラマ系音声では4bitがオリジナルより8.5ポイント改善したNeosophie Team
March 6, 2026toolGradioでHugging Face Datasetをオフライン表示するHugging FaceのDataset ViewerはGradio + datasetsライブラリを使えば、ローカルキャッシュから高速に動くビューアをPythonだけで自作できる。音声・画像のインライン再生もdecode=False + base64埋め込みで実現。スクリプト1本でページネーション・Streamingモード対応まで完備する。Neosophie Team