(资料图片)
北京日报客户端 | 记者 刘苏雅
中国科学院自动化研究所自然语言处理研究组正式发布了目前国际上规模最大、包含信息最丰富的汉语同步多模态神经影像数据集。其覆盖了近万个汉语词汇,将为全方位研究大脑在真实场景下理解词汇、短语和句子时如何调动不同脑区,以及不同脑区之间如何协同工作等科学问题提供重要支撑。相关论文发表于《自然》杂志子刊《科学数据》(Scientific Data)。
大脑在加工语言时,需要实时调动多个脑区的神经元进行协同工作。构建高时空分辨率的神经影像数据,能帮助我们更好地了解各个脑区以及脑区之间的协同合作,对于研究大脑的语言加工机制至关重要。但当前已有的开源数据主要针对英文采集,只包括单一模态的神经影像数据,且数据规模有限,无法探索更全面、更深入的大脑语言加工机制。
为突破上述问题,研究团队请12名被试者收听时长约6小时的故事,收集、采集、整理他们的功能核磁共振、脑磁图、扩散磁共振成像和静息态核磁共振等数据。同时为便于利用计算模型进行脑语言处理机制的研究,所有故事材料都由人工标注了句法结构树,计算了文本中每个词汇对应的音频时间点、词频等。从而形成了当前国际上最大规模用于脑语言处理机制研究的多模态同步神经影像数据集,所有测试指标均超越或可比于已有的同类数据集。
我们的大脑究竟怎样调动各脑区去理解语言?不同脑区之间如何协同工作?关于这些问题,该数据集都能提供研究支撑。其将在探索自然语言计算模型与人脑语言处理机制的关系,以及利用神经影像数据提升现有语言计算模型的性能,从而构建新一代受脑启发的神经语言模型等工作中发挥重要作用。