🤖 IndexTTS2: 情感与时长可控的零样本语音合成系统

IndexTTS2 是一个强大的自回归零样本文本转语音系统,实现了前所未有的语音生成控制能力。通过先进的情感表达、精确的时长控制和即时语音克隆功能,它可以生成自然、富有表现力的多语言语音合成。采用 Apache 2.0 许可证发布,完全开源且可用于商业用途。

当前余额:0 音符
音符与字数比例:1 音符 生成 1 字
会员类型:普通会员
折扣后可用字数:0 字
会员折扣:普通会员 8折 | 永久会员 6折

文字转语音

0 / 1000 字

上传的音频仅单个说话者,稳定的音量、语气和情感,品质要求:无背景噪音,无房间回声,采样率越高越好

参数设置

选择语音的情感控制方式。

0.65

调整情感在语音中的权重,0为无情感影响,1为最强情感影响。

调整生成语音的随机性,值越大越随机。

调整对重复内容的惩罚力度,值越大越不允许重复。

音色管理

选择已保存的音色后,将使用该音色的参考音频,无需重新上传

任务列表(定时删除音频,请及时下载)

暂无任务记录

IndexTTS2 的核心功能

探索使 IndexTTS2 成为富有表现力、可控文本转语音生成理想选择的强大功能。

零样本语音克隆

仅需几秒钟音频即可即时克隆任何声音,无需训练。在不同内容和情感中实现高保真语音重现和说话人一致性。

情感表达控制

将音色与情感解耦以实现独立控制。使用文本描述引导情感表达(开心、悲伤、兴奋、愤怒),同时保持声音身份和自然度。

精确时长控制

首个将准确时长控制与自然生成相结合的自回归 TTS。实现精确的语音时间控制,而不牺牲表现力或韵律质量。

多语言支持

原生支持中文(普通话)、英文和中英文混合合成。跨语言边界保持自然的发音和语调。

拼音发音控制

通过拼音标注对中文文本进行高级发音控制。解决歧义发音并确保复杂上下文中的准确汉字朗读。

高自然度与清晰度

与现有模型相比,具有更优的词错误率(WER)和情感保持度。实现类人自然度评分,具有卓越的清晰度和可懂度。