May 1, 2026diarization【2026年】話者分離モデル比較:NeMo SortFormer・VibeVoice・Pyannoteを実測オープンソース話者分離モデル NeMo(SortFormer・MSDD)・VibeVoice ASR・Pyannoteを実音声で比較。DERスコアと用途別おすすめをまとめました。Neosophie Team
April 30, 2026asrbenchmark【2026年版】IT用語に強い日本語音声認識(STT/ASR)モデル比較|Whisper・QwenIT企業名・SaaS略語を含む実音声で9つのASRモデルを比較。Whisper・Qwen3-ASR・Granite 4.0のIT用語認識精度を実測。Neosophie Team
April 30, 2026rssai現役AIエンジニアが厳選:LLM最新情報をノイズなく速く掴む17サイト【2026年版】LLM・生成AIの最新情報を速く・正確に・ノイズ少なく追うために、現役AIエンジニアが厳選した一次情報源17サイトを紹介。研究・論文・実装・OSS・コミュニティ別に整理し、RSS活用法まで解説します。Neosophie Team
April 30, 2026asrbenchmark【2026年最新】日本語音声認識(ASR / STT)モデル比較:Whisper・Qwen3・Cohere・GraniteをベンチマークWhisperやQwen3-ASR、ReazonSpeech、Parakeetなど8モデルを同条件で比較。WER・速度・用途別お すすめをまとめました。Neosophie Team
April 29, 2026asr高精度の日本語音声認識モデルを無償公開日本語ASRのCER最強モデルQwen3-ASR-1.7Bを固有名詞特化でファインチューニング。CERと固有名詞F1の両軸でWhisperを上回る最高水準を実現。Hugging Faceで無償公開中。macOSアプリSonophieでも利用可能。Neosophie Team
April 29, 2026llmfinetuneカスタムLogitsProcessorでHuggingFace TransformersのJSON繰り返しハルシネーションを修正HuggingFace TransformersでカスタムLogitsProcessorを実装するステップバイステップガイド。ファインチューニング済みQwenの推論時に、JSONのContentフィールド内のみを対象にno-repeat-ngramを選択的に適用し、繰り返しハルシネーションを抑制する。Neosophie Team
April 27, 2026ossMacで無料・オフライン文字起こし:whisper.cpp + CoreMLでリアルタイム対応whisper.cpp + CoreMLでMac上でオフライン文字起こし。マイク・Web会議の声に対応、データ送信 なし・無料で使える。Neosophie Team
April 27, 2026tts【2026年最新】日本語オープンソースTTS比較:Qwen3-TTS・Chatterbox・Fish SpeechQwen3-TTS・Chatterbox・Fish Speech・CosyVoice・IndexTTS2を実際に動かして比較。音質・日本語対応・ライセンスをまとめて解説。Neosophie Team
April 21, 2026asrbenchmarkWER・CERだけでは不十分?日本語音声認識を「名詞・固有名詞F1スコア」で再評価した結果日本語音声認識は漢字や固有名詞の表記多く他言語に比べて難しい。そこで、WERやCERでは見えにくい「漢字・固有名詞の認識精度」を定量化するために、Sudachiによる形態素解析ベースのF1スコア評価を実装し、オープンソース音声認識モデル9種を再評価した一次ベンチマーク記事です。Neosophie Team
April 16, 2026asrdataset複数ASRモデルを組み合わせた高品質訓練データ作成パイプライン——Whisper×Qwen3×LLMの設計思想と実装WhisperとQwen3-ASRの転写結果をdiff形式でLLMに統合させ、単一モデルの限界を超える高品質なASR訓練データを生成する2段階パイプラインの解説記事です。Whisperは漢字・固有名詞に強く、Qwen3はCER全体で優位という異なる強みを持つモデルを組み合わせ、Forced Alignmentで単語レベルのタイムスタンプを付与します。後段のチャンク分割スクリプトでは文末スコアリングによる自然な20〜30秒チャンク生成とWhisper再転写によるCER品質チェックまでを自動化しています。Neosophie Team
April 8, 2026asrfinetuneIBM Granite Speech 1Bを日本語音声でファインチューニングしてCER 20%以上に改善した話IBM Granite Speech(`granite-4.0-1b-speech`)を100時間の日本語音声データでファインチューニングし、CERを0.37から0.14まで改善しました。公式スクリプトのProjector+LoRAのみの学習では精度改善に限界があり、`lm_head`とLanguage Modelの後ろから8層を追加で学習させることが最大要因になりました。Qwen3-ASR-1.7B(CER 0.14)と同等の精度を1Bパラメータで達成しています。Neosophie Team
March 19, 2026ttsOpenVoiceでゼロショット音声クローニング+感情制御を試した実録OpenVoice V1は14秒の参照音声から話者の声色を抽出し、8種の感情スタイルで音声を生成できるゼロショット音声クローニングライブラリNeosophie Team
March 12, 2026books現役AIエンジニアが実務のために読んだ本5選【精度改善・プロダクト開発に直結】AIのAPIは使えても精度改善できない理由は、モデル内部の理解不足にある。紹介する5冊はHuggingFace・Chip Huyenなど第一線の実務家が書いたO'Reilly本で、海外MLエンジニアのスタンダード。Neosophie Team
March 12, 2026diarizationmetrics話者分離の評価指標を完全解説|DER・JER・Purity・Boundary Errorの計算方法と使い分けDER単体では「なぜ失敗しているか」が分からないため、miss/FA・confusion・Purity/Coverage・Boundary Errorを組み合わせて「VADの問題かクラスタリングの問題か」「過分割か統合不足か」を切り分けることが重要だ。実測では短発話のmiss=0%&conf=56%という数値が「VADは正常、話者割り当てが主因」を確定する決め手になった。評価時はcollar・skip_overlapの設定を必ず統一・明記することが再現性の絶対条件だ。Neosophie Team
March 10, 2026ragEmbedding RAGの限界とPageIndex(ベクターレスRAG)の検証BM25+Embeddingのハイブリッド検索を一通り試したが、精度向上に限界を感じた。そこでベクターDBもEmbeddingも使わないPageIndexを自社サイトに導入し、URLのツリー構造をLLMが目次のようにたどる方式でページを特定する仕組みを構築した。LangGraphで6ノードのエージェントを実装し、実ログとともに動作を検証した。Neosophie Team
March 10, 2026diarizationWeSpeakerで話者分離(Speaker Diarization)を試してみた【日本語音声での検証結果】WeSpeakerはSpeech Embeddingに特化したOSSで、ResNet34・ResNet152・多言語モデルのSimAMResNet34を日本語音声で評価しました。結果はDER 65〜83%と精度が低く、英語ベースの学習データと日本語音韻特性の乖離が主な原因と考えられます。日本語音声での話者分離には、日本語対応モデルや別フレームワークの検討が現実的な選択肢です。Neosophie Team
March 7, 2026lipsyncSadTalker・LatentSyncでLip Sync(リップシンク)を検証してみたSadTalkerは静止画+音声から喋る動画を生成、LatentSyncは既存動画の口の動きを音声に合わせて差し替えるOSSツールで、用途が異なる2ツールを実機検証した。Neosophie Team
March 6, 2026asrquantizationVibeVoice-ASRを量子化してDERはどう変わるか?4bit・8bit・originalを実測比較VibeVoice-ASRを4bit・8bit量子化してDERを実測したところ、量子化が精度を下げるとは限らず、ドラマ系音声では4bitがオリジナルより8.5ポイント改善したNeosophie Team
March 6, 2026toolGradioでHugging Face Datasetをオフライン表示するHugging FaceのDataset ViewerはGradio + datasetsライブラリを使えば、ローカルキャッシュから高速に動くビューアをPythonだけで自作できる。音声・画像のインライン再生もdecode=False + base64埋め込みで実現。スクリプト1本でページネーション・Streamingモード対応まで完備する。Neosophie Team