北京大学发布中华民族语言文字接触交融大数据模型

　　新京报讯（记者杨菲菲）12月16日，在北京大学语言学实验室成立100周年之际，中华民族语言文字接触交融大数据模型正式发布，有声博物馆项目也正式启动建设。

　　“语言是一个社会性的行为，它和社会形态的发展密切相关。现在我们提出来中华民族语言共同体意识，语言是一个非常重要的基础。”北京大学语言学实验室主任、中文系教授孔江平表示，团队在田野调查中对120个语言点进行了语言基本信息、文字活力、语言活力、语言词汇演化、语言认同等多项调查。

北京大学语言学实验室主任、中文系教授孔江平在现场进行分享。新京报记者李木易摄

　　据悉，2021年12月，北京大学语言学实验室获批教育部哲学社会科学实验室，在教育部经费的支持下，北京大学语言学实验室于2022年春启动了“中华民族语言文字接触交融大数据模型建设“项目。项目组织国内12所大学和科研机构的约20名专家的研究团队，近200名博士生和研究生，对中华民族语言文字接触交融进行了大规模的田野调查，历经四年，初步完成了基础的调查工作和大型数据库建设。

　　调查发现，与人们普遍认知的“要么说普通话，要么说民族语言”不同，民族语言正在不断融入国家的通用语言。孔江平解释，语言是人类文明的基石，也是思维的工具、文化的载体，在公共社会场合，汉语普通话的使用在不断增加；家庭依然是民族语言的使用高地。

　　同时，研究团队还开展了基于有声文化的中华民族共同体意识研究。孔江平解释，团队采用人工智能的方法，建设基于演化的中华民族有声文化大型数据库，建设中华民族优秀有声文化“基因库”，构建利于了解研究中华民族情感认同的大数据模型。

　　此外，孔江平团队也借助中华民族语言文字接触交融大数据模型对语言学基础研究有了更多的探索。

　　“语言的产生，特别是声音的出现，一直是国际语言学研究的难题。”孔江平表示，鉴于现在有头盖骨和下颌骨的古人类化石数量和年代受限，并不能构建出人类声音的完整演化过程。孔江平团队将黑猩猩的声道和人类的声道进行拟合，并合成声音，致力于发现人类语音的涌现规律。

　　让沉睡在田野中的、即将消亡的声音活起来、传承下去，中华民族语言文字接触交融大数据模型将发挥重要作用。

　　孔江平介绍，目前国家已经开展了多期“语保”工程，记录了大量语言文字，也有很多珍贵的资料，但在工业革命时期人类往城市迁徙以后，很多语言的生态消失了，很难找到将语言保留下来的方法。大模型的出现给语言保护提供了新的可能。“我们现在尝试做了一个机器翻译系统和一个语言合成系统，从理论上来讲，哪怕一种语言消失了，我们只要给出相应的汉语，那系统就会自动生成对应的语言。”

北京大学语言学实验室成立一百周年系列活动启动，有声博物馆项目建设同步启动。新京报记者李木易摄

　　当天，有声博物馆项目也在北大启动。根据规划，有声博物馆未来将设置历史分馆、现代社会分馆、自然分馆、动物分馆、声律分馆、格律分馆、曲律分馆、乐律分馆、语言障碍分馆等。

　　资料显示，北京大学语言实验室前身是“北京大学语音乐律实验室”，创办于1925年，创始人为刘复（字半农）。这是中国成立最早的语音学实验室，是北大人文历史的重要篇章，也标志着中国现代语音学研究的开端。

　　编辑缪晨霞

　　校对柳宝庆

站内搜索：