官方网站-首页【导语】近日,AI领域的独角兽企业MiniMax稀宇极智震撼发布新一代语音大模型Speech-02,并在国际权威语音评测榜单Artificial Analysis和Hugging Face TTS Arena上力压OpenAI、ElevenLabs等国际巨头,夺得双榜冠军。Speech-02在字错率、相似度等核心技术指标上取得SOTA结果,发音更清晰稳定,且商用定价仅为ElevenLabs的四分之一,展现出高性能与高性价比的双重优势。目前,该模型已在多个领域实现应用。
近(jìn)日(rì),AI独(dú)角(jiǎo)兽(shòu)MiniMax稀(xī)宇(yǔ)极(jí)智(zhì)发(fā)布(bù)新(xīn)一(yī)代(dài)语(yǔ)音(yīn)大(dà)模(mó)型(xíng)Speech-02,宣(xuān)布(bù)该(gāi)模(mó)型(xíng)在(zài)国(guó)际(jì)最(zuì)权(quán)威(wēi)的(de)两(liǎng)项(xiàng)语(yǔ)音(yīn)评(píng)测(cè)榜(bǎng)单(dān)Artificial Analysis(全球(qiú)知名AI基准测试机构)和Hugging Face TTS Arena (抱抱脸文本转语音竞技场)上,超越OpenAI、ElevenLabs等国际巨头,登上双榜榜首。

国际权威语音评测榜单Artificial Analysis 来源:以下图片均由Minimax方提供
据介绍,Speech-02在语音模型核心技术指标:字错率WER和相似度SIM等客观指标上取得了SOTA结果,用户盲听主观评价反馈也显示其更自然、真实。
与Seed-TTS、CosyVoice 2和真实音频相比,Speech-02在中英文的零样本语音克隆中均实现了更低的字错率(Word Error Rate, WER),表明其发音错误率更低且更清晰稳定。在SIM方面,Speech-02在所有24种测试语言中均显著优于ElevenLabs的multilingual_v2模型,前者生成的语音更逼近真人输出。

Hugging Face TTS Arena 评测榜单
值得关注的是,Speech-02性能登顶的同时,其商用定价仅为全球头部语音模型ElevenLabs的四分之一,具有高性能和性价比双重优势。目前,MiniMax已在文旅导览、金融服务、语音助手、AI教育等领域应用其大模型服务。
