【2026年】NeMo・VibeVoice・Pyannoteで話者分離(Speaker Diarization)を徹底検証してみた
NeMo・VibeVoice・Pyannoteの3大ツールで話者分離(Speaker Diarization)を実際に検証。討論系動画ではVibeVoiceがDER 9%台と実用レベルの精度を達成した一方、ドラマ系は最良でも27%と課題が残る結果に。データ特性によってモデルの優劣が大きく変わるため、用途別の選び方を徹底解説する。
NeMo・VibeVoice・Pyannoteの3大ツールで話者分離(Speaker Diarization)を実際に検証。討論系動画ではVibeVoiceがDER 9%台と実用レベルの精度を達成した一方、ドラマ系は最良でも27%と課題が残る結果に。データ特性によってモデルの優劣が大きく変わるため、用途別の選び方を徹底解説する。
WeSpeakerはSpeech Embeddingに特化したOSSで、ResNet34・ResNet152・多言語モデルのSimAMResNet34を日本語音声で評価しました。結果はDER 65〜83%と精度が低く、英語ベースの学習データと日本語音韻特性の乖離が主な原因と考えられます。日本語音声での話者分離には、日本語対応モデルや別フレームワークの検討が現実的な選択肢です。