MiniMax发布新一代语音大模型-（南京）软件科技有限公司

动态行业资讯

动态

MiniMax发布新一代语音大模型

发布时间：2025-05-20 08:00:35 阅读量: 409

【导语】近日，AI领域的独角兽企业MiniMax稀宇极智震撼发布新一代语音大模型Speech-02，并在国际权威语音评测榜单Artificial Analysis和Hugging Face TTS Arena上力压OpenAI、ElevenLabs等国际巨头，夺得双榜冠军。Speech-02在字错率、相似度等核心技术指标上取得SOTA结果，发音更清晰稳定，且商用定价仅为ElevenLabs的四分之一，展现出高性能与高性价比的双重优势。目前，该模型已在多个领域实现应用。

近(jìn)日(rì)，AI独(dú)角(jiǎo)兽(shòu)MiniMax稀(xī)宇(yǔ)极(jí)智(zhì)发(fā)布(bù)新(xīn)一(yī)代(dài)语(yǔ)音(yīn)大(dà)模(mó)型(xíng)Speech-02，宣(xuān)布(bù)该(gāi)模(mó)型(xíng)在(zài)国(guó)际(jì)最(zuì)权(quán)威(wēi)的(de)两(liǎng)项(xiàng)语(yǔ)音(yīn)评(píng)测(cè)榜(bǎng)单(dān)Artificial Analysis（全球(qiú)知名AI基准测试机构）和Hugging Face TTS Arena （抱抱脸文本转语音竞技场）上，超越OpenAI、ElevenLabs等国际巨头，登上双榜榜首。

国际权威语音评测榜单Artificial Analysis 来源：以下图片均由Minimax方提供

据介绍，Speech-02在语音模型核心技术指标：字错率WER和相似度SIM等客观指标上取得了SOTA结果，用户盲听主观评价反馈也显示其更自然、真实。

与Seed-TTS、CosyVoice 2和真实音频相比，Speech-02在中英文的零样本语音克隆中均实现了更低的字错率（Word Error Rate, WER），表明其发音错误率更低且更清晰稳定。在SIM方面，Speech-02在所有24种测试语言中均显著优于ElevenLabs的multilingual_v2模型，前者生成的语音更逼近真人输出。