我院构建并发表中文概念语义特征数据库A Chinese Conceptual semantic feature dataset (CCFD)

时间:2021-02-02浏览:225

2月2日,我院研究团队科研论文《A Chinese Conceptual Semantic Feature Dataset (CCFD)》在《Behavior Research Methods》期刊发表,论文作者:邓雅菱、王晔、邱晨阳、胡振超、孙雯洋、宫妍竹、赵雪、何伟、曹立宏,邓雅菱和曹立宏为论文通讯作者。

本研究建立了一个数据量上千的中文版概念语义特征数据库。共有1410个概念,都是对以汉语为母语的被试而言很熟悉的实体概念,涵盖7个大类,28个小类,平均每个概念有约37个特征。根据概念的特征计算出的概念之间的相似性分析结果显示,同一类别内的概念具有相似性,不同类别之间的概念相似性较低,但也并非完全无关。这与我们日常对事物的认识是一致的,即使是不同类别的物体,我们仍然可以以非类别的关系产生一定的关联,如经常在同一场景中出现的筷子和面条,前者属于餐具,后者属于食物。

通过与已有的标准化的英文版数据库进行各方面对比,本研究提出的CCPD无论从数据量还是质量上看,都是可观的。与英文版数据库最大的区别在于具体的概念和特征有所不同,尤其是食物这一大类有很大的区别,食物中包含一些人们非常熟悉却又非常具有文化差异的概念,如臭豆腐、皮蛋、冰糖葫芦等只有中国人才熟悉的概念,因此,这是一个更适合中文被试和中文研究的数据库。通过对比中英文的概念特征数据库,也可以系统地考察中西方的差异,包括概念的差异、相同概念的不同特征的差异等。

通过分析概念各个特征被提及的频次,可以看到哪些特征是核心特征,哪些特征是边缘特征,如何根据这些特征定义一个概念,也是语言和认知心理学家研究的重要问题。并且本数据库的数据显示,根据这些概念所具有的特征可以对概念进行分类,甚至可以按层级分类。但是人脑如何表征概念的范畴和概念的层级关系还有待探索。本数据库可以为此类研究提供数据支持。本研究还发现,不同类别的概念拥有的共享特征和特有特征的数量具有差异,自然生物,如动物、植物等概念具有更多的共享特征,而人造物,如工具等概念具有更少的共享特征,这与以往的研究结果是一致的(Clarke & Tyler, 2015)。

很多关于记忆和语言的研究会采用语义启动范式,研究者通过操纵前后呈现的两个词之间的相关程度来激发操纵启动效应,比起不相关的提示词,相关的提示词能使被试更快地识别出目标词。如何确定概念之间的相关程度,进而选择合适的启动词和目标词,是相关研究的关键。本研究通过各个特征及其权重计算了概念之间的距离,未来的语义启动范式研究可以此作为度量启动词与目标词之间相关程度的指标之一。因此,本研究为语义启动范式提供了丰富的数据支持。

在人工智能的知识图谱领域中,研究者们试图在数据库系统上利用图谱这种抽象载体来表示知识这种认知内容,从而服务于机器翻译、智能问答等领域(Balaid, Abd Rozan, Hikmi, & Memon,2016)。知识图谱数据库的概念数量相比于人为评定的数据库的概念数量大很多,但这些概念的特征通常是从互联网海量数据中抽取出来的,并采用逻辑严密的结构来表征他们之间的关系。这与人脑对概念的学习和表征不同,人脑对概念的学习并不是一次性获得并存储概念的所有特征,而是在生活中不同时刻习得概念的各个特征,而且学习的过程也分为快速学习和慢速学习两种,当新学习的内容与已有知识结构一致时,可以快速整合到新皮层已有知识中,而当与已有知识不一致时,则需要耗费较长时间在内侧颞叶皮层和海马体内进行加工,再缓慢整合到新皮层中。新皮层中分布式存储着概念的各种模态的特征,如狗的形象在视觉皮层表征,狗的叫声在听觉皮层表征,同时,关于狗的各种特征的语义表征则在前颞叶区域。虽然人脑对概念的表征不是完全精确的,但却有很强的灵活性,这也是人脑智能的重要体现。通过对人脑知识表征方式的研究,建立更类似于大脑拥有的知识图谱(我们称为类脑知识图谱),或许能为人工智能提供更好的数据基础服务。

希望通过本数据库的建立为语言学、心理学、神经科学、人工智能等领域相关研究者提供有关概念语义表征标准化的数据支持。如果大家在使用过程中发现了错误,希望您能直接联系我们,我们及时更改,为后续研究者提供更准确的数据支持。如果有对人脑概念学习和表征感兴趣的研究者,也欢迎合作交流。



文献获取地址:http://link.springer.com/article/10.3758/s13428-020-01525-x