【2026年】話者分離モデル比較:NeMo SortFormer・VibeVoice・Pyannoteを実測
オープンソース話者分離モデル NeMo(SortFormer・MSDD)・VibeVoice ASR・Pyannoteを実音声で比較。DERスコアと用途別おすすめをまとめました。
オープンソース話者分離モデル NeMo(SortFormer・MSDD)・VibeVoice ASR・Pyannoteを実音声で比較。DERスコアと用途別おすすめをまとめました。
DER単体では「なぜ失敗しているか」が分からないため、miss/FA・confusion・Purity/Coverage・Boundary Errorを組み合わせて「VADの問題かクラスタリングの問題か」「過分割か統合不足か」を切り分けることが重要だ。実測では短発話のmiss=0%&conf=56%という数値が「VADは正常、話者割り当てが主因」を確定する決め手になった。評価時はcollar・skip_overlapの設定を必ず統一・明記することが再現性の絶対条件だ。
WeSpeakerはSpeech Embeddingに特化したOSSで、ResNet34・ResNet152・多言語モデルのSimAMResNet34を日本語音声で評価しました。結果はDER 65〜83%と精度が低く、英語ベースの学習データと日本語音韻特性の乖離が主な原因と考えられます。日本語音声での話者分離には、日本語対応モデルや別フレームワークの検討が現実的な選択肢です。