京东旗舰店

News

新闻中心

关于参与申报2024年度广东省科技进步奖项目的公示

2024-12-23 6

2024年广东省科技进步奖公示


面向高清话质的智能语音交互关键技术研发及应用


项目简介:

声学信息人机交互对人工智能产业发展具有重要战略意义,远场交互是声学信息人机交互产业的创新升级方向。云会议是基于智能语音交互技术的一种高效、便捷、低成本的新型会议模式。在互联网时代社会各业倡导远程办公的大环境下,云会议具有广泛的应用前景和推广价值。在智能语音交互会议系统中,复杂环境下的噪声、混响、回声和干扰声严重影响了语音质量,破坏了参会体验。因此,针对音视频云会议系统的远场拾音与语音增强问题是行业发展的急迫需求。分布式的云服务提供方法及音视频负荷分担方法也对会议系统的流畅性至关重要。

团队在国家重点研发计划和国家自然科学基金支持下,面向声学信息人机交互产业落地的重大需求,历经多年研发和自主创新,突破了多项智能语音交互的声学感知关键技术,包括复杂声音场景下的麦克风阵列、前端声学处理和语音通信技术,完成了具有自主知识产权的融合复杂场景语音增强算法的音视频云会议系统设计,建立了全场景极真声音还原的智能语音交互系统。

主要技术创新包括:(1)为提高增强语音的听觉质量和有效降噪,提出了多种复杂噪声环境下的轻量化语音增强模型方法,使深度语音增强模型在中低端终端亦可有效部署。为提升算法对新场景的适应能力,提出了一种语音增强迁移模型,解决了新场景无标签训练难题。(2)提出了面向复杂交互场景的变步长回声消除与啸叫抑制方法,有效降低了双讲模式下的非线性回声和啸叫。设计出快速响应路径变化的回声消除方法,使设备在移动时也能准确消除回声。提出根据增益大小切换通话模式的方式来进行啸叫消除的策略,进一步从源头抑制了啸叫产生的可能性。(3)提出了基于滑动窗注意力模型的语音关键词检测方法,具有训练收敛速度快,模型计算复杂度低等优点,适用于资源受限终端的语音交互控制。(4) 研发出适合于云会议语音交互的高信噪比、单指向性 MEMS 麦克风制造工艺,实现了高动态噪声下的有效拾音。(5)针对公有云方案导致远程操作反应慢和私有云方案导致云会议系统利用率低的技术问题,提出一种桌面云服务提供方法及装置,提高了基于移动通信业务的云会议交互系统处理速度,减少数据传输的延时。提出一种移动边缘计算应用负荷分担的方法和控制器,提高基于移动通信业务的云会议系统处理速度,减少数据传输的延时。

项目共发表SCI论文27篇,专著1部,EI期刊论文2篇,获得国家发明专利41项,实用新型专利42项。项目实施以来取得了良好经济效益和行业口碑。技术成果形成了具有自主知识产权的系列产品,大规模应用于比亚迪、吉利等国内头部车企,以及字节跳动、小米、长虹、大华等国内著名视听企业,以及。2021-2023年,新增税收共计4.6千万元,新增销售额超17亿元。云平台和终端设备等产品线新增销售额4.2亿元,新增利润9千万元。极大促进了智能交互产业的更新换代,间接为我国带来近数万亿新增产值。



Baidu
map