网站地址:MiniMax 语音和音乐

MiniMax Speech 2.6:最强 Voice Agent 来袭插图今天,我们给大家带来最新的语音模型MiniMax Speech 2.6,全面升级突破Voice Agent场景,超低延时,专业格式无障碍,更高自然度

MiniMax是全球领先的通用人工智能科技公司,致力于与所有人共创智能,自主研发了一系列多模态通用大模型,并面向全球推出一系列AI原生产品,已服务逾 2亿名用户。

自MiniMax Speech发布以来,正以卓越的语音技术和极致的性价比,成为全球语音智能领域的核心基础设施之一。

无论是支撑 ChatGPT 高级语音模式的 LiveKit,GitHub 热门开源框架 Pipecat,还是 YC 孵化的语音平台 Vapi,都选择了 MiniMax Speech 作为底层技术引擎。在智能硬件领域,Haivivi Bubble Pal、Fuzozo、Rokid Glasses等新锐产品,也以 MiniMax Speech 驱动其自然语音交互体验。

MiniMax一直以技术创新驱动新质生产力,打破语言与文化的边界,让自然、流利的交互,源源不断抵达全球各地,连接每一种声音。

1. 超低延时,更灵敏:整体交互更顺畅

我们对音频生成链路进行了全面优化,使端到端延迟低于250毫秒,达到了行业顶尖水平。在实时对话等对响应速度有严苛要求的场景中,音频生成不再是瓶颈,确保整体交互更流畅。

2. 专业格式无障碍,更聪明:信息传递更流畅

Speech 2.6 现已支持多种语言的网址、邮箱、电话号码、日期及金额等非标准文本格式的直接转换。无论您是结合大语言模型使用,还是需要在业务中处理动态变化的实体信息,都无需再进行繁琐的文本预处理。输入即正确,实现信息传递更流畅。

3. 更高自然度与Fluent LoRA:声音表达更流利

进一步提升了音韵自然度之外,Speech 2.6 还提供了Fluent LoRA。此前Speech 2.5就提供了便捷、高还原度的音色复刻功能,用户能够保留原始音色的口音、口癖等特色。这一能力满足了实际使用场景中多样化的语音需求。

现在,音色复刻时,您无需再为不完美的原始素材而烦恼。即使是带有口音或不流利的非母语录音,也可通过 Fluent LoRA,在完美复刻音色的同时,生成符合目标文本的流利、自然的语音,让您的声音表达更流利。

MiniMax 语音大模型能够根据上下文,智能预测文本的情绪、语调等信息,并生成超自然、高保真、个性化的语音。在社交、播客、有声书、新闻资讯、教育、数字人等多种场景中展现出强大的实力。

 

计费项 模型 接口说明 单价
元/万字符
同步语音合成
T2A
speech-2.6-hd
speech-02-hd
支持音量、语调、语速调整和混音功能,支持比特率、采样率相关参数调整特性,支持音频时长、音频大小等返回参数,适用于需要短文本快速得到结果的场景,比如闲聊、对话等场景 3.5
同步语音合成
T2A
speech-2.6-turbo
speech-02-turbo
支持音量、语调、语速调整和混音功能,支持比特率、采样率相关参数调整特性,支持音频时长、音频大小等返回参数,适用于需要短文本快速得到结果的场景,比如闲聊、对话等场景 2
异步长文本语音合成
T2A Async
speech-2.6-hd-
speech-02-hd
支持基于文本到语音的异步生成,单次文本生成传输最大支持 100 万字符,生成的完整音频结果支持异步的方式进行检索。 3.5
异步长文本语音合成
T2A Async
speech-2.6-turbo
speech-02-turbo
支持基于文本到语音的异步生成,单次文本生成传输最大支持 100 万字符,生成的完整音频结果支持异步的方式进行检索。 2

 

计费项 模型 接口说明 单价
元/音色
音色设计
Voice Design
所有模型 支持基于用户输入的声音描述 prompt,来生成音色(voice_id);并支持使用该生成的音色(voice_id)在同步语音合成、异步长文本语音合成接口中进行语音合成。 9.9
调用本接口获得新设计的音色时,不会立即收取音色设计费用。音色生成费用将在首次使用此音色进行语音合成时收取。
本接口内的试听语音合成会收取 2 元/万字符的费用。
快速复刻
Voice Cloning
所有模型 基于大语言模型的音色克隆更加精准快速,无需数小时时长的超高质量原音频、无需传统 TTS 的超长工期,可以在极短时间内完成音色复刻,并通过大语言模型加持,使复刻后的音色与原音色进行高质量还原,从而满足客户需求。 9.9
调用本接口获得复刻音色时,不会立即收取音色复刻费用。音色的复刻费用将在首次使用此复刻音色进行语音合成时收取。
试听字符根据选择的试听模型收费。
注:计费项是字符数,以10000个字符(输入)为单位,1个汉字算2个字符,英文字母、希腊字母、标点符号、特殊符号、空格、回车等算1个字符。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。