“中文语音技术要由中国人做到最好,中文语音产业要掌握在我们自己手上。”二十多年前,正是凭借这股不屈不挠的信念,科大讯飞在刘庆峰的带队下艰难创业,闯出了在中文语音产业的一片天。2024年开年,科大讯飞赋能语音产业再进一步,科大讯飞正式发布星火语音大模型,实现了语音技术与大模型技术的协同共振,开启了万物互联时代以语音大模型赋能千行百业的无限可能。
1月30日,科大讯飞在合肥总部正式发布星火语音大模型,其诸多亮点引发行业关注。根据发布会披露的信息,星火语音大模型效果惊艳,根据开源Fleurs集、语音交互实际应用场景构建测试集SPMASR-EVAL-V1.0对星火语音大模型和OpenAI Whisper V3的横向测试结果显示,星火语音大模型在首批37个主流语种的效果均保持胜出;而在多语种语音合成方面,星火语音大模型的首批40个语种平均MOS分绝对提升0.25,拟人度超83%。这充分说明,科大讯飞不仅有能力在中文语音领域做到最好,在多语种技术实力方面也是国际领先水平。
“大模型带来了语音技术发展的全新机会。”刘庆峰在发布会上强调。星火语音大模型的重磅发布,是对智能语音技术的一次革新。科大讯飞作为人工智能领域的先行者,致力于让机器“能听会说,能理解会思考”,而有了领先的多语种语音合成和超拟人语音合成技术,机器的声音也可以像人类那样绘声绘色、情绪饱满,充满激情或温度。刘庆峰表示:“借助大模型,我们让一段语音具备更加丰富的属性,有语种、有内容、有韵律、有音色,还有情绪。”
得益于星火语音大模型让机器更“声情并茂”地表达,使得它在千行百业能够发挥出“1+1>2”的加持作用。在发布会上,刘庆峰宣布星火语音大模型全面赋能汽车、客服、陪伴机器人、家庭等更多场景应用。
以大家熟知的汽车领域为例,目前中国正处于燃油车到新能源汽车的转型期,汽车电动化、智能化与网联化成为大势所趋。科大讯飞率先将自主可控的星火大模型深入融合汽车座舱系统,让汽车根据语音意图快速处理复杂的任务,使得汽车语音交互不仅限于指令下达,还可以自由聊天与知识提问,全方位解决用户不同用车环境下的各类情景问题,真正做到只需动口不动手。而随着星火语音大模型的发布,在助力车机实现更清晰、自然与情感化的语音合成功能基础上,还大幅强化了海外语音能力。据悉,目前包括奇瑞、广汽、长城、长安在内的多家头部车企与讯飞星火展开了合作,助力中国汽车“出海”远征,畅销全球!
此外在客服领域,凭借星火大模型超拟人对话和更深刻的理解能力,“数字客服”能更准确理解用户真实需求与意图,并通过不同的情绪表达与用户交流,让用户感觉是在跟“人”对话,而不是冰冷的机器。当然,星火语音大模型还可以在心理咨询、辅助问诊、旅游导览等领域发挥重大作用。
在发布会上,星火语音大模型面向开发者正式全面开放。刘庆峰称:“全新的语音大模型会赋能整个行业,我相信万物互联时代一定会在新技术推动下加速到来,讯飞星火V3.5和语音大模型的联动会极大地推动产业升级”。显然,星火语音大模型将为智能技术的应用、推广和扩展提供更坚实的基座,加速万物互联的时代的产业升级,成为引爆智能语音技术革新的“奇点”。