陈婧团队在2024 ICASSP听觉脑电解码国际挑战赛中取得佳绩


通过外部设备将脑电信号

还原成清晰的言语

让语言障碍者通过“冥想”就能与人交流

这一原本在科幻片中的场景

如今随着脑机接口技术飞速发展

已经接近成为现实

 

       由国际声学、语音与信号处理会议(International Conference on Acoustics, Speech and Signal Processing,ICASSP)发起的“听觉脑电解码国际挑战赛”(ICASSP2024 Grand Challenge-Auditory EEG)近期在韩国首尔公布比赛结果。北京大学智能学院、北京大学分子医学南京转化研究院研究员陈婧率领团队,在该挑战赛设置的两个赛道中分别获得冠军和亚军,也是唯一一支在两个赛道中均获奖的团队。

 

 

       脑机接口指在脑与外部设备之间创建的直接连接,实现脑与设备的信息交换。其应用场景包括情绪的检测与评估、辅助睡眠、治疗癫痫、意念控制、脑创伤患者的治疗与康复训练等等。从脑电信号中解码出语音的言语解码技术,由于鲜明的技术突破性和社会公益价值,成为其中较为引人注目的一项应用。

       言语解码被认为有潜力帮助瘫痪病人恢复与外界言语交流的能力。然而,当前言语解码技术大都依赖采用颅内电极(ECoG)信号,这限制了这项技术的应用范围。考虑到非侵入式的脑电记录(EEG)具有便携性、无创性的优势,越来越多的研究者期望实现基于EEG的语音解码。由于广阔的应用场景与良好的社会效益,这一赛道吸引了众多顶尖科研团队进行角逐比拼。

       本次听觉脑电解码国际挑战赛(Auditory EEG Challenge, ICASSP 2024)由国际声学、语音与信号处理会议(ICASSP)发起,该会议是全世界最大,也是最全面的信号处理及其应用方面的顶级会议。

       本次挑战赛吸引了来自全球各地高校和研究机构众多团队,其中分类赛道共有59支队伍正式提交(产生3支获奖队伍),回归赛道共有49支队伍正式提交(产生2支获奖队伍)。北京大学分子医学南京转化研究院研究员陈婧所带领的团队在两个赛道中分别获得亚军和冠军,是本次比赛中唯一一支在两个赛道中均获奖的团队。

 

图1 陈婧团队(PKU_SHRC)在ICASSP2024听觉脑电挑战中获得分类赛道亚军和回归赛道冠军

 

       今年的挑战赛试图研究听者在自然连续语音刺激下,大脑活动(EEG)和语音刺激之间的关系。该挑战赛共设置分类和回归两个赛道。其中,分类赛道是给定一个脑电片段,要求从包含匹配语音片段和4个不匹配语音片段的集合中挑选出匹配的语音片段。回归赛道则要求从脑电中重构语音刺激的梅尔谱。

       在分类赛道上,陈婧团队联合语音的高层级特征(语义、句法、音素)和低层级特征(包络、梅尔谱),利用神经网络和对比学习训练将多层级语音特征和脑电进行关联,提出了一种多层级语音特征输入的对比学习框架。该框架使用了包络、梅尔谱、wav2vec、gpt这些不同层级的语音特征,并通过消融实验证明了使用多层级语音特征的重要性。最终,该算法准确率达到60.29%(机会水平为20%),该网络在分类赛道中获得亚军。

图2 研究团队在分类赛道上提出的多层级语音特征输入的对比学习框架

 

表1 针对多层级特征的消融实验证明了使用多层级特征的必要性

 

       在回归赛道上,陈婧团队提出了一种迭代式的、使用大量拼接操作的深度卷积神经网络ConvConcatNet。ConvConcatNet共包括6个模块,其中每个模块中都会将中间结果与原始脑电进行拼接,在每个模块的最后使用空间注意力层对每个通道赋予权重。

       这样的设计期望模拟人脑对声音的加工过程:听觉皮层最先对声音反应,因此在前几个模块会有更高的权重;大脑其它更高功能区域会在一定时间滞后以后再对声音反应,因此会在后几个模块有更高的权重。最终,该网络框架重构梅尔谱相较于其他参赛队伍提交的结果,与真实梅尔谱的最相似,在回归赛道中获得冠军。

图3 研究团队提出的迭代式网络框架ConvConcatNet

 

       该项研究得到南京市科技局项目“基于汉语言的非侵入式脑机接口编解码关键技术研发”支持,程和平教授是该项目的指导专家,陈婧研究员是项目负责人。这次挑战赛的成绩标志着陈婧团队在言语解码领域取得了重要进展,也为从无创神经信号中解码语音提供了新的可能性。