当前的位置: 首页 > 文章列表 > 手机平板 > Qwen3-TTS重磅登场:多国语言多地方言全精通

— Qwen3-TTS重磅登场:多国语言多地方言全精通 —

更新时间:2025-12-08 18:17:55 编辑:丁丁小编

Qwen家族又添一员猛将——Qwen3-TTS。这次不仅仅是简单的版本迭代,简直是给语音合成领域扔了一颗深水炸弹。更让人眼馋的是,官方直接甩出了百万字符的免费额度,这羊毛不薅都对不起自己。

以前的AI读稿子,听起来总有一股毫无感情的机械味儿,但Qwen3-TTS这次显然是冲着打破次元壁来的。据悉,新模型一口气内置了49种高品质官方音色。这可不是简单的男声女声切换,而是涵盖了从温柔少女到方言大叔的全方位角色库。

想象一下,上一秒还是字正腔圆的新闻播音员,下一秒就能无缝切换成操着一口地道四川话的隔壁大爷,甚至还能来几句粤语或东北话。支持10种语言加上9种中国方言,这意味着同一个文本,只需点一下鼠标,就能秒级变身。旁白、客服、直播、教育……不管什么场景,它都能拿捏得死死的,而且完全不需要重新训练。

这背后的技术含量可不低。技术文档显示,该模型采用了自回归声学模型配合韵律预测模块。说人话就是,它能看懂标点符号,还能理解情感标签。哪里该升调、哪里该停顿、哪里该叹气,它自己心里都有数。

咱们来聊聊硬核的数据。在48kHz的高采样率下,其MOS(平均主观意见分)得分飙到了4.53。要知道,行业平均水平也就4.1左右。这就好比一个是刚入门的朗读练习生,一个是经过专业训练的配音演员,差距一耳就能听出来。而在多语言语音合成的公开测试集上,英文和中文的词错误率(WER)分别降到了2.8%和1.9%,比某些国际主流商用引擎还低了一大截,妥妥刷新了开源界的天花板。

更有意思的是,这技术已经悄悄走进了校园。据了解,同步上线的还有一个神奇的一键朗读插件。老师只要把PPT传上去,系统就能自动生成讲解音频,甚至还能用方言来读单词。目前上海已经有120所中小学在试用这个功能,帮学生用家乡话听写单词,这画面光是想想都觉得既亲切又带感。

说回大家最关心的价格。目前的免费层相当良心:每月100万字符,49种音色随便用。如果额度不够,付费层也就0.8元/万字符,还支持SSML和实时流式合成。

至于未来?有知情人士透露,预计在2025年第一季度,官方还将开放10秒音色克隆接口。到时候,上传一段短音频就能生成专属的说话人模型。再加上80kHz的超采样版本,看来播客、有声书和虚拟偶像市场,马上又要迎来一场腥风血雨了。

本文转载于:https://www.sohu.com/a/962845468_223764 如有侵犯,请联系dddazheyh@163.com删除

热门优惠券

更多