OpenVoiceでゼロショット音声クローニング+感情制御を試した実録
OpenVoice V1は14秒の参照音声から話者の声色を抽出し、8種の感情スタイルで音声を生成できるゼロショット音声クローニングライブラリ
OpenVoice V1は14秒の参照音声から話者の声色を抽出し、8種の感情スタイルで音声を生成できるゼロショット音声クローニングライブラリ
5つのオープンソースTTSモデルを実際に動かして比較した。商用ライセンスの落とし穴(Fish Speech・IndexTTS2)を中心に、機能・ライセンス・コードをセットで解説