科大讯飞语音合成技术再突破，AI 语音进入情感交互新纪元

2025-07-08 09:26 来源：本站

在科技飞速发展的当下，人工智能领域的每一次突破都如同在黑暗中点亮一盏明灯，为我们的生活带来更多的可能性与便捷性。作为中文语音市场占有率超过70%的行业引领者，科大讯飞在语音合成技术领域实现了全新升级，“一句话声音复刻”与“超拟人合成”两大核心能力取得重大突破，在行业内引发了广泛关注。

一句话复刻：从“小时级录音”到“秒级建模”的技术跃迁

在传统语音复刻场景中，往往需要数十小时的音频素材才能完成声音建模。如今，科大讯飞通过星火语音大模型底座与三阶段层次化建模框架，将这一流程压缩至“一句话”——首先依托大模型捕捉发音规律与韵律特征，再通过melVQ-AE模型解耦语义与音色，最终以高精度声码器还原波形。这种技术突破的关键，在于创新性引入“音色最小互信息约束”，将发音内容与音色特征分离，配合全局声纹嵌入与强化学习策略，使音色相似度与发音准确度双双提升30%以上。

“过去用户需要录制大量语音，现在只需说一句话，AI就能还原其说话时的停顿习惯、气息流转，甚至方言口音。”科大讯飞研究院院长刘聪指出，这种“轻量级”复刻模式不仅将应用门槛降低90%以上，更让声音从工具属性升级为“情感载体”。例如在数字内容创作领域，用户仅凭一张照片与一句录音，即可通过讯飞智作平台生成唇形同步率达98%的专属数字人，天津大学教师已借助该技术打造个性化慕课IP，大幅简化教学视频制作流程。

超拟人合成：让AI声音拥有“对话情商”

当对话场景从单轮转向多轮，AI语音的“情感智能”成为新痛点。科大讯飞此次推出的上下文感知语音生成系统，能融合历史对话文本与音频特征，通过跨模态编码器实时分析情绪转变。在真人对话测试中，当话题从“天气”转向“工作烦恼”时，合成语音会自动调整语气，从轻松明快转为温和安抚，自然度接近真人水平。这种“情商化”技术已在智能汽车领域落地——蔚来ET9、新ES6等车型搭载的NOMI助手，成为行业首个应用生成式语音框架的车载系统，而奇瑞、广汽等车企也正通过该技术重塑车内交互体验。

技术赋能千行百业：从车载场景到医疗教育的全维渗透

语音技术的突破正催生多元场景创新。在教育领域，星火大模型赋能的AI学习机新增“AI1对1互动问诊”功能，通过多轮对话诊断学情并生成学习方案；医疗场景中，搭载情感合成技术的导诊机器人用方言与老年患者交流，对话自然度提升200%。数据显示，科大讯飞语音技术已服务全国5万所学校、600家医院及众多金融机构，其技术底座正成为推动AI与实体经济融合的核心引擎。

从“能说话”到“会表达”，科大讯飞的技术进阶标志着AI语音正式迈入“情感化、个性化”时代。正如企业技术负责人所言：“当声音成为情感的载体，技术将不再局限于工具价值，而是为千行百业创造全新的交互可能。”这种突破不仅重构了人机对话的边界，更让AI真正成为理解人类情感的“智能伙伴”。

48小时人气榜

微信扫一扫

扫描二维码进入郑州信息热线。追求重磅、独家、原创、有用。财经资讯、政策解读、股市情报、投资机会……每日发布，全年不休。