《国家通用语言文字法》是自然语言处理的法律保证 - 冯志伟
《中华人民共和国国家通用语言文字法》(以下简称《国家通用语言文字法》)已经颁布10年了,它首次以国家专项法律的形式,确定了普通话和规范汉字作为国家通用语言文字的地位,推动了普通话和规范汉字在全国范围内的普及,并加速在海外传播,推进了我国语言文字的规范化、标准化、信息化,成为我国自然语言处理这门新兴学科的发展在法律上的有力保证。
网络世界主要由语言文字构成
当今的自然语言处理与网络技术密切相关。随着网络技术的发展,互联网逐渐变成一个多语言的网络世界,互联网上的机器翻译、信息检索等自然语言处理技术的需要变得更加紧迫。目前,人们在互联网上开始越来越多地使用汉语、西班牙语等英语之外的语言。从2000年到2005年,互联网上使用英语的人数仅增加了126.9%,而在此期间,互联网上使用俄语的人数增加了664.5%,使用中文的人数增加了309.6%。
互联网上使用英语之外其他语言的人数增多,使得英语在互联网上独霸天下的局面已被彻底打破,互联网确实已经变成了多语言的网络世界。在这种情况下,网络上不同自然语言之间的计算机自动处理也就变得越来越迫切了。网络上多语言的机器翻译、信息检索、信息抽取等正在迅猛发展,语言辨别、跨语言信息检索、语言理解助手等自然语言处理的多语言在线处理技术已经成为互联网技术的重要支柱。
在信息时代,科学技术的发展日新月异,新的信息、新的知识如雨后春笋般不断出现,导致了“信息爆炸”的局面。现在,世界上出版的科技刊物达165,000种,平均每天有大约2万篇科技论文发表。专家估计,目前我们每天在因特网上传输的数据量,已经超过了整个19世纪全部数据的总和。而所有这些信息主要都是以语言文字作为载体的,也就是说,网络世界主要是由语言文字构成的。
可以预见,知识突飞猛进的增长和网络技术日新月异的进步,一定会把自然语言处理的研究推向一个崭新的阶段。自然语言处理已经给有着悠久传统的古老的语言学注入新的生命力,在自然语言处理的推动下,语言学有可能真正成为当代科学百花园中一门名副其实的领先学科。
政府对自然语言处理技术投入巨大
自然语言处理不仅有着重大的学术意义,而且对社会经济的发展也有着现实的或潜在的经济价值。当前,许多国家对自然语言处理十分重视。仅以机器翻译为例,20世纪末期,欧洲共同体为了把Eurotran多语言机器翻译系统实用化,五年内投资2800万美元;而日本对机器翻译的专项投资为140亿日元。
我国政府对自然语言处理技术也非常重视,投入了大量经费。在国家重大基础研究发展计划973项目中,1999年至2003年国家科技部首批立项的重大基础研究发展规划项目“图像、语音、自然语言理解与知识挖掘”将自然语言理解列为重要的研究内容。在这个项目的支持下,建立了中文语言数据联盟。目前,该联盟有会员单位70多个,各类语言资源80多种,其中30%的语言资源免费提供给会员,在全世界范围内实现了中文语言数据资源的共享。 国家863计划投入大量资金用于自然语言处理技术的开发。2002年的重大项目“奥运多语言智能信息服务系统关键技术及示范系统研究”突出以人为本的信息服务,通过网络手段对各国记者和观众提供综合、全面、多语种、可定制的信息服务,使得任何人在任何时间、任何场合,都可以获取有关奥运的信息,从而通过“科技奥运”来实现“人文奥运”的目标。国家自然科学基金委员会也支持自然语言处理的研究,先后设立了重点项目、面上项目和青年基金项目,对于自然语言的词汇、句子、语义、篇章等方面进行了有效的探索。
国家哲学社会科学规划办公室也立项支持自然语言处理研究,设立了相应的社会科学基金研究项目。2003年立项的“计算语言学方法研究”,总结了国内外的计算语言学方法,使之系统化、理论化、具体化。这个课题中总结出来的一些方法已经运用于中文信息处理的研究,效果良好。
从上述可以看出,我国对自然语言处理的大力支持,促进了自然语言处理的发展。目前,我国的自然语言处理已经取得了显著成绩,语料库技术得到了充分发展,建立了一批具有重要影响的语言资源库,面向信息处理的汉语基础研究有了长足的进展,理论成果初见成效,应用技术开发蓬勃发展,产业化进程硕果累累。在我国开发的这些语言资源库和自然语言处理系统中,部分技术已经达到或者基本达到实用化水平。例如,各种类型的汉语语料库、汉字输入系统、网络内容管理和监控系统等。
在实际应用的驱动下,自然语言处理技术不断与各种新技术结合,开发出越来越多的实用技术。例如,网络内容管理和监控的研究,不仅与自然语言处理技术有关,而且与网络技术、情感计算、图像理解等技术有关;语音自动翻译技术涉及机器翻译、语音识别、语音合成、语音通信等多种技术。
自然语言处理形式模型研究异彩纷呈
自然语言处理有着明确的应用目标,语音合成、语音识别、信息检索、信息抽取、机器翻译等,这些都是自然语言处理的重要应用领域。我在最近出版的《自然语言处理的形式模型》一书中指出,由于现实的自然语言极为复杂,不可能直接作为计算机的处理对象,为了使现实的自然语言成为可以由计算机直接处理的对象,在这众多的应用领域中,我们需要根据处理的要求,把自然语言处理抽象为一个问题,再把这个问题在语言学上加以形式化,建立语言的“形式模型”,使之能以一定的数学形式,严密而规整地表示出来,并且把这种严密而规整的数学形式表示为算法,建立自然语言处理的“计算模型”,使之能够在计算机上实现。
在自然语言处理中,算法取决于形式模型,形式模型是自然语言计算机处理的本质,而算法只不过是实现形式模型的手段而已。因此,这种建立语言形式模型的研究是非常重要的,它应当属于自然语言处理的基础理论研究。由于自然语言是非常复杂的,这样的形式模型的研究往往是一个“强不适定问题”,也就是说,在用形式模型建立算法来求解自然语言处理的问题时,往往难以满足问题解的存在性、唯一性、稳定性这三条基本要求,有时不能满足其中一条,有时甚至三条都不能满足。因此,对于这样的强不适定性问题求解,应当加入适当的约束条件,使问题的一部分在一定范围内变成“适定问题”,从而顺利地求解这个问题。
自然语言处理的研究经过50多年的艰苦奋斗,已经建立了基于短语结构语法的形式模型、基于合一运算的形式模型、基于词汇主义的形式模型、语义自动处理的形式模型、统计机器翻译的形式模型等,出现了异彩纷呈的局面。
目前,我国自然语言处理已经通过计算机科学、语言学、心理学、认知科学、人工智能等多学科的通力合作,把人类知识的威力与计算机的计算能力结合起来,给自然语言处理的形式模型提供了大量的、丰富的约束条件,成功地解决了自然语言处理的许多困难,取得了很大的成绩。
自然语言处理的法律保证
由于现实的自然语言复杂性高而规范性差,自然语言处理的各种技术手段在解决这些复杂而不规范的问题时,都有一定的局限性,往往显得束手无策。因此,我们还可以通过国家立法的手段,来推进语言文字的规范化、标准化和信息化,明确我国公民正确使用语言文字的责任,提高全民族的语言文字素质,提高普通话和规范汉字的声望。这样,就可以增加语言文字的规范程度,减少自然语言处理的困难程度,从而保证自然语言处理技术的顺利实施。推行十年的《国家通用语言文字法》已经成为我国自然语言处理的有力的法律保证。〔作者系国家语委21世纪语言文字规范(标准)审定委员会委员,教育部语言文字应用研究所研究员〕
|