建设应急多语种语料库,助力国家应急语言服务

建设应急多语种语料库,助力国家应急语言服务

来源: 中国日报网
2020-06-04 10:20 
分享
分享到
分享到微信

新冠肺炎疫情发生以来,国内上下众志成城、共克时艰,疫情防控已取得阶段性成效。在国内疫情明显好转之际,境外新冠肺炎的蔓延,使得国际合作抗疫、防范境外输入成为重中之重。防范境外输入过程中,暴露出应急外语人才储备不足问题,凸显了对外应急语言服务研究的必要性,揭示了应急外语服务多语种语料库建设的重要性。广泛收集全球范围内的各种应急外语语料,积极开展应急外语语料库的建设和研究,发挥语料库在公共应急管理中语言数据赋能作用,为我国各类突发应急事件中的对外语言服务提供大规模、强有力的多语种语料后台支持已经刻不容缓。

一、建设应急外语服务多语种语料库的时代背景

紧迫性 近年来,全球范围内各种自然灾害、事故灾难、公共卫生和社会安全事件频发,灾害程度越来越大。如何有效应对突发事件, 做好应急管理工作是我国政府在新时期面临的一项艰巨任务。此外,随着全球化的发展变化,人员跨境流动规模空前,流动范围愈加广泛。在此背景下,突发事件中对外应急语言服务人才短缺问题愈发明显,建设应急外语服务多语种语料库,助力应急外语人才培养和高端智库研究已经成为时代的呼声。

方向性 党的十九届四中全会明确要求,要“推进数字政府建设,加强数据有序共享。

可行性 近年来,计算机的关键技术继续发展,网络技术不断突破,超高速、智能化、一体化的信息平台不断建成。这些以数据要素为基础的信息平台,发挥了信息聚合、数据共享、资源调配、数据赋能等作用,为公共应急管理决策提供了有力支撑。目前国内外已开展了互联网疾病监测系统及其语料库的构建研究,Global Health Monitor等监测系统已付诸实践。这些成功的经验,也为应急外语服务多语种语料库建设提示了可行性。

稀缺性 目前,针对突发事件的应急多语种语料库建设极其薄弱。调查发现,欧美尚无应急多语种语料库。日本自2006年开始研发应急语言支援系统,2014年起开始构建多语种平行语料库,但功能和用途还比较单一,语种极为有限。在国内,应急语言服务概念刚被提出,上海大学虽构建有突发事件语料库但2015年后停止更新,且语料仅为汉语新闻。建设应急外语服务多语种语料库,能够填补目前国内在相关领域的研究空白,响应国家“完善国家公共应急管理体系建设”、“加强国家数字社会建设”号召,契合构建“人类命运共同体”的理念。

二、建设应急外语服务多语种语料库的遵循原则

1、内容架构原则

多语种 语料素材收录尽可能多的语言类型。以联合国的6种工作语言汉语、英语、法语、俄语、阿拉伯语与西班牙语为主,兼顾其他非通用外语语种的语料,以满足对外应急语言服务中的多语种需求。语料以单语语料为主,也包括双语平行语料,以为语言互译提供相应检索服务。

多场景 语料素材应对尽可能多的应急场景。参照“国家突发公共事件总体应急预案”“突发事件应对法”“突发事件流行病学”“中文新闻信息分类”及有关研究成果,预设“自然灾害”“事故灾难”“公共卫生”“社会安全”4个大类,分层次下设子类和小类,在基本大类保持不变的前提下,对相应类目进行持续扩充,以满足应急语言服务所求常变、所需多样的特点。

多题材 语料素材包含尽可能多的题材类型。结合语料库建设的专用性、实用性、时效性,兼顾语料获取的便捷性,以门类为主、语体为辅,重点择取新闻报道、政策法规、科学研究、公示导览等多个题材类型,同时对时效性较强的语料素材标注时间及来源信息,以满足高精度的受限检索需求。

多层次 语料素材加工为不同程度的文本形式。多语种应急语料库包括生语料、分词语料、词性标注语料。其中,主要外语语料进行词性标注加工为熟语料,除此以外的语料为未加工的生语料。通过语料加工层次区分,实现不同目的的检索功能。

2、技术架构原则

专业性 应急外语服务多语种语料库旨在建设具有专门用途的专业性语料库,在研制和语料的选取层面宜参照相关政策文件及研究成果,注重应急术语的专业性表达,利用IaaS硬件服务器有效衔接语料收集、语料加工、语料共享、语料赋能等环节,打造以语料要素为核心,具备创新、共享、协调、开放属性的应急外语服务多语种语料库。

易操性 遵循云计算的三层架构,并结合移动互联网、大数据、5G、AI人工智能等新兴互联网技术,以微服务技术为依托,大数据服务与应用支撑服务为核心的云平台支撑,在保证数据安全稳定的基础上,提供简洁、直观、易懂的操作界面,迅速、灵活、便利的数据查询端口,实现多语种智能语音输入帮助功能,以高效的反馈用户需求。

时效性 当今社会信息化的大背景下,新概念、新理论层出不穷、日新月异,这一客观现实要求语料库的建设必须坚持与时俱进。一方面,必须动态、及时、高效地应对语料的更新、扩展以及补充,做好语料库的增容;另一方面,对于新创制的语料要注重规范化和标准化,提高其永久使用价值。

安全性 对于语料库的研制和维护,应基于《中华人民共和国网络安全法》等法律法规,根据安全基础和语料库应用情况,积极提高防护意识,在语料的采集和存储、编码和转换、应用与输出等全生命周期链中,保障数据的安全与稳定,实现数据风险的监测、预警与处置,确保语料数据可信、可控和可管。

三、建设应急外语服务多语种语料库的服务应用

服务国家和地方公共应急管理决策。通过检索提取分析对象数据,掌握国内外类似事件的情况,从而对事件的发展走势做出预警判断,为国家和各级地方政府有及时采取应急措施和制定防范计划等提供科学决策依据。

服务国家和地方应急外语翻译需求。发挥语料库数据处理优势,为应急公告发布和宣传翻译提供平台支持。一是提升应急翻译处理效率;二是提高应急语言翻译准确性;三是助力应急事件的多场景应用。

服务国家和地方应急外语智库研究。广泛汇聚国内外专家力量,依托应急多语种语料库开展应急外语语言研究、应急外语翻译研究、对外宣传研究、舆情监测研究、应急简明外语创制,助力应急状态下国家对外宣传、对外话语体系建构、人类命运共同体建设。

服务国家和地方应急外语人才培养。以应急多语种语料库为素材,基于语料库语言学和语料库翻译学,科学编写应急外语人才训练素材和教材,提高人才培养效度。基于数据分析提取有高针对性的紧急词汇和高频词汇,对非外语工作人员展开必要的应急外语教育或提供应急外语手册以备所需。

建立应急外语服务多语种语料库,兼备时代价值、学术价值以及应用价值,既能满足时代发展带来的迫切需要;又能填补国内专门用途的应急外语服务多语种语料库缺失的空白,为科学研究、学科建设、人才培养提供重要实践平台;还能助力突发事件应急管理,实现更有预见性的风险防范、更有科学性的应急决策、更有针对性的服务运行,为提升社会治理体系和公共应急管理能力现代化水平提供有力支撑。

当然,我们不能忽视建设应急外语服务多语种语料库面临的挑战与难题,例如“平台支持”“人才短缺”“组织协调”“制度保障”等,这也预示着语料库的建设不是一蹴而就,而需要久久为功,应急外语服务多语种语料库建设应该着眼实际、聚焦需求、凝练特色、借助合力,只有这样才能更好地面对时代发展提出的迫切要求以及现实需要发出的时代召唤。

【作者简介】:朱鹏霄,教授,博士生导师,天津外国语大学日语学院院长

中国日报网版权说明:凡注明来源为“中国日报网:XXX(署名)”,除与中国日报网签署内容授权协议的网站外,其他任何网站或单位未经允许禁止转载、使用,违者必究。如需使用,请与010-84883777联系;凡本网注明“来源:XXX(非中国日报网)”的作品,均转载自其它媒体,目的在于传播更多信息,其他媒体如需转载,请与稿件来源方联系,如产生任何问题与本网无关。
版权保护:本网登载的内容(包括文字、图片、多媒体资讯等)版权属中国日报网(中报国际文化传媒(北京)有限公司)独家所有使用。 未经中国日报网事先协议授权,禁止转载使用。给中国日报网提意见:rx@chinadaily.com.cn