载《现代传播》2001年4期
互联网时代对现代汉语的挑战
孟华 (青岛海洋大学 中国语言文化学院,山东 青岛 266071)
摘要:二十一世纪的互联网时代对现代汉语将产生的巨大影响是:汉语由国家、民族的符号转向超文本;汉语表达主体的个体化;日益增强的要求汉语数字化的压力。因此,新世纪汉语的规范对象、规范标准,国家的语言政策,汉语的研究重点都将发生转移。 关键词:互联网时代;现代汉语;超文本;失语症;个体化;数字化
进入二十一世纪后,对中国社会产生持久而深刻影响的有两个事件:一是WTO的准入,一是互联网在中国的普及。这将使中国的门户彻底开放,古老的中华文明将纳入文化多元化、经济一体化的世界秩序之中。互联网时代对民族的语文建设方向将产生重大影响,现代汉语面临的挑战也是前所未有的——
一 汉语由国家、民族的符号转向超文本
国家的统一,民族的独立是二十世纪中国历史发展的主旋律,在这个时代背景下,汉语作为民族联系的纽带和国家意识的载体,它更强调民族语言的纯洁性和与其他语言文化的区别功能。尤其是二十世纪中后期,我们经历了长时期的冷战思维,世界被意识形态分割为东西方两极,中国社会被纳入一个准战时体制,与世界交流的大门关闭了。社会文化的封闭性、单元性,使得汉语作为一个自足的符号系统,保持了相对的纯洁和稳定。汉语发展的主要动力,来自于国内上层建筑和经济基础之间的矛盾张力;文革时期流行一时的红色词汇和黑色词汇,以及那些具有强烈的唯意志色彩的句式和表达方式,可看作是激进的上层建筑和滞重的经济基础间二元冲突的表现。 到了二十一世纪,中国将逐渐融入世界秩序,汉语由单一的民族国家符号逐步转向双重指涉:一方面作为民族和国家意识的载体,另一方面又作为世界多元语言文化体系中的一个单元、一个节点而指涉其他语言文化。也就是说,汉语与其他语言的关系尤其是和英语的关系,将上升到非常重要的地位,尤其是在互联网上,汉英关系成为汉语发展和变革的主要因素。据有关资料,互联网上的英语信息占80%以上,因此英语对汉语的渗透是不可避免的。例如,大量夹杂英语的汉语句子像B TO B电子商务,IBM公司,PC厂商,Internet业务,IT产业, TCP/IP协议,Wendows,E-mail,ICP,BBS……充斥着汉语文本,这些英汉混合词语或句式的出现主要是交流上的便捷、准确表达的需要,当然也有文化观念的问题。数字化的符号如拉丁字母、阿拉伯数字更容易在互联网上实现,在汉语文本里,像电子邮件地址、域名也都是按照国际惯例使用数字化的符号而不是汉字。此外,大量的外来概念通过英语的渗透而涌入汉语,成为汉语词汇系统更新的最直接的催化剂。在英汉全面接触的背后,是一支日益增大的双语队伍,随着英语教育和世界汉语的的普及和对外交流工作的开展,年轻人中的英汉双语者充当了这两种语言交互影响(主要是英语影响汉语)的媒体。在这种背景下,汉语与英语的关系成为汉语发展的主要动力,汉语由国家、民族的符号变成一个超文本、一个互文本,这是本世纪汉语性质将发生的最深刻变化:汉语由二十世纪的同质文化认同功能转向异质文化的交流功能,二十一世纪的英汉之间不是隔绝、对抗,其主要矛盾是如何在更方便地进行代码转换、对译的基础上,保持汉语的民族性。
二 汉语表达主体意识的个体化
二十世纪,国家的意志成为汉语最主要的主体意识,这种主体意识的实现即对汉语的控制和规范。国家意志对汉语的控制是围绕建立现代化的、强大的民族国家这一目标服务的,有其历史的必然合理性。但其负面作用是容易造成个体表达的“失语”现象。1999年2月24日《人民日报》刊登的长篇通讯《二十岁的生命礼赞——追记新时期的好战士李向群》中有一个细节:一日中午,李向群和一新战士掏牛粪上交连队,新战士说:“脏兮兮的,干脆到老乡家买一担交差吧。”李擦擦脸上的汗水说:“不行。粪可以买到,艰苦奋斗的精神哪里买呀!”——这句话很难说是一名战士在现实生活中的真实话语,它表达的其实是一种空洞的干巴巴的政治思想理念。这就是人们所批评的汉语表达的“泛政治化倾向”,有人将这类话语概括为“三没”“五无”:没错,没味、没用;无风格,无个性,无魅力,无说服力,无感染力。这种“没”或“无”,就是个体表达的“失语症。” 这种“失语症”还表现在对语言纯洁性规范性的要求大于个体自由表达的要求。对汉语世界的整肃与纯洁运动,是通过少数知识精英制定语言政策和规范、通过国家权力对媒体的控制来达到的。这种控制之所以有效,除了政治文化的因素以外,还与媒体的属性有关。二十世纪的中国,是以印刷以及电子音像符号为主要的记录语言的媒体,这种媒体产生的书面言语作品的特点是与话语的相对分离,它可以在单方的控制下产生。这些文本在社会面世,首先要受到宣传、出版、发行部门的检查,错句病句,错字别字,以及一切不规范现象都在得到有效的控制。同时,从中学到大学的汉语教育似乎是在培养语言警察,学生们发展了一种识别、改正错字病句的能力,学生们从小就被要求按照西方的“主、谓、宾、定、补、状”的框架,去规范缺少逻辑分析精神的汉语。这种体现国家、民族主体意识的汉语教育,更重视的是学生们对汉语的规范能力而不是表达能力。需要指出的是,汉语的规范主要在书面语和广播语言的范围。在中国的十三亿人口中,能说一口标准的普通话的人只占少数,不同地区的人甚至不能相互通话,广义上的汉语口语规范只能是一种乌托邦。因此,汉语的规范化主要是书面语的规范。国家通过对超然于口语之上的文本语言的控制,来维持汉语的纯洁性和规范性。 但是到了本世纪,这种情况将发生巨大的改变。这就是汉语从文本到话语的转变。 所谓的话语是交际者双方、语言符号以及指涉对象均在现场的语言交流现象,与之相对的文本则是交际者和指涉对象不在现场,出现的仅仅是符号。与文本符号相比,话语是当下的、互相问答的、双向平等的交流过程,语言媒体由交际者双方控制。而文本则是非当下的交流,文本的发出者可在接受者不在现场的情况下制作文本。由于文本符号在交流上的单向性或“离境性”,人们可以对其进行加工和有效控制。这就是在上个世纪中国社会对汉语进行现代化建设和规范化建设的基本依据和基本历史条件。 进入二十一世纪后,随着世界经济的一体化和信息时代的到来,中国将快速进入互联网时代。互联网本质上是一个符号系统,它的特点是全方位地模拟话语交流。它是高情景的,即交际者、符号和指涉对象的同时在场,进行实时的、交互的交流。当然这种高情景是虚拟的。 在互联网时代,汉语的文本符号将由低情景、单向性的印刷、音像文本变为多媒体的电子话语或叫做“拟话语”。拟话语最大的特点是边缘性。它消解了书面语和口语、传统的规范汉语和非规范汉语、正式出版物和非正式出版物、作者和读者之间的界限。传统的书信接受者并不在现场,写信者可从容地控制语言,对书信进行斟酌、选择、修改和加工。但在互联网的谈天室里,网友之间的谈话既是书面的(电子书写,而非语音传递)又是口语的(不假思索,当下应答)。在互联网上,传统规范的汉语由自足的、静态符号系统变成一个动态的超文本,它时刻受到各种语言(主要是英语)、各种文体、各种变更语言规范尝试的冲击和挑战。另外,网络媒体的语言更接近口语和心理语言,语言结构具有未完成的特点。因此离散式结构、成分的省缺、跳跃、非连贯性、变异等句式充斥网络,使得汉语无法保持它传统上的“纯洁性”。在互联网上人人都既是读者又是作者,人人都可发表自己的意见和看法,而这些语言由于人的文化素养的差异会变得极为驳杂,你不能像传统出版社那样因为他的语言不规范而取消他的表达权。互联网更尊重个人自由表达的权力,这就消解了出版物与非出版物的界线,个人发布在网页上的信息旨在向公众传播,这在本质上已经具有了出版物的意义,但它又不同于传统的出版物,你不能采取传统的新闻检查的方式有效地控制它们……总而言之,互联网使得汉语的表达主体趋向个体化了。整个二十世纪汉语的规范化工作,是建立在媒体的可单向控制的基础上的,国家通过对媒体的控制来规范汉语,汉语的表达主体主要是国家、民族的意志。进入二十一世纪后,国家对媒体的控制力将大大减弱,个人自由表达思想的权力空前改善,汉语的表达主体趋向个体化,这样以控制媒体的方式规范汉语以及汉语的传统规范标准都将受到严重挑战。因此在二十一世纪,汉语主体的群体意志和个体意识之间新的相互制约、对话、渗透的游戏规则,将成为汉语主要的行为规范。
三 汉语的数字化问题变得更加迫切
“五四”新文化运动的历史贡献之一,是在汉语中引入了标点符号系统。正是这一套小小的标点符号,使汉语的书面形式开始区分句子单位。在此之前,汉语虽然有“句读”,但它不是一个逻辑分析的概念,几百字的古文甚至几十万字的古书,其字词句基本上是连串堆积在一起的,这就培养了国人一种制造模糊、利用歧义(或多义)的辨证思维艺术。标点符号引入汉语后,书面语中句子单位的析出或曰句子单位的标记化,在中华古老的周易辨证性思维方式中便注入了强大的逻辑分析精神。从此我们有了句子、分句以及词的概念,由此产生了像并列、因果、假设、让步之类的逻辑关系概念,并且使这些概念通过书面语的习得而成为每一个中国人日常的行为理念,这些逻辑分析精神一旦浸入语言结构,就会变成为新的世界观,成为所谓科学精神、现代意识、新文化观念滋生的土壤。马克思说存在决定意识,语言就是一种最基本的存在。所以,说“五四”以降句子单位的标记化是中华文明现代化的一个标志性、基础性工程,这个估计大概不会过高。 然而,汉语书面语单位标记化的历史进程在近百年来却一直停留在句子这一级单位上,至今汉语的词一级单位还未能标记化,还是不分词连写。由于汉语不分词连写,导致词与词之间、词与非词之间界限的模糊,从而产生歧义,成为汉语信息处理最大的瓶颈之一。“词的界限是计算机处理语言的一个非常重要的因素,如果不知道书面文本中单词的界限,所有高层次的信息处理工作(如自动句法分析,自动语义分析)都将寸步难行,因而诸如文献自动检索、机器翻译、自然语言理解等工作都将遇到难以克服的困难。”(冯志伟2000) 除了信息处理的问题以外,我们更关注的是分词连写代表了一种数字化编码方式,一种数字化的文化,一种由间接的二级代码信息处理转为直接的一级代码信息处理的数字性文化精神。 分词连写和不分词连写的基本差异就是保留或消灭歧义。分词连写遵循的是非此即彼的唯一性原则,即一个单位赋予一个唯一的形式,以免造成误解;不分词连写遵循的是亦此亦彼的可能性原则,即一个形式包含若干个单位,它可能是甲也可能是乙。信息论中,在一定条件下必然要发生的现象,叫必然性事件;可能发生或可能不发生的现象叫随机事件。分词连写就是必然事件,不分词连写则是随机事件。在必然事件中,人们使用的是唯一性编码规则,两项之中只有一项是正确的,你必须选它。在随机事件中使用的是可能性编码规则,选择哪一项须根据实际情况而定。 问题是分词和不分词的编码规则差异,发生在语言文字这样的文化代码系统上。从符号学的观点看,文化是一种集体智能,一套形成集体记忆或共同世界观的信息交换、积累、储存系统及其规则。因此,文化可包括两个方面的内容:其一作为文化交流、记载的代码系统,包括建筑、服饰、文学艺术等,而最典型、基本的文化代码是语言文字;其二是文化代码的交流、记载的规则,如不同的语法规则或集体无意识的行为方式。汉语书面语的不分词连写就是这样一种文化编码规则:它反映了无标记、可能性的编码精神,而这种精神又是凝聚在日常的语言结构中,因此它就具有了文化代码和编码规则的意义,这种文化精神无时无刻不在影响着每个使用汉语的中国人,成为支配我们日常行为的结构主体或集体智能。可见,汉语是否实行分词连写,实际上关乎文化建设大计,一旦汉语分词连写,它所携带的逻辑分析精神对汉民族集体智能的影响是巨大的、不可估量的。 不分词连写的汉语其实反映了一种非数字化的文化编码方式。 在今天的互联网时代,可能性和唯一性文化编码规则被表述为非数字化思维和数字化思维。也就是说,分词连写是数字化的,不分词连写是非数字化的。最能说明这个数字化问题的,是周易阴阳符号和二进制算术符号。 德国哲学家莱布尼兹发明的二进制算术符号,就是用“0”和“1”两个数字代替十进制的“1、2、3、4、5、6、7、8、9、0”十个数字。二进制的“0”和“1”分别代表了“是”和“非”两个抽象范畴,代表项和被代表项之间严格对应,这体现了一一对应的有标记性,而有标记性恰恰是唯一性编码规则的体现。假如我们约定用“11010、11001、11000、10111……”这些二进制符号分别代表对象“A、B、C、D……”,那么代码和对象之间必须保持严格一一对应的关系:任何一个数字的改变,都会导致指代对象的改变;同样,所指代的对象只能用特定的代码来表示。 周易符号则呈现为意义上的多元性,即周易阴阳符号的代表项和被代表项之间有多义、无标记性。阴和阳可以指宇宙的万事万物: “阴”可以是状态:柔、静、消、屈、来、退、死等;也可以是具体事物:女、母、月、坤、水、臣、地、夜等。 “阳”可以是状态:刚、动、息、伸、往、进、生等;也可以是具体事物:男、父、日、乾、山、君、天、昼等。 现在,二进制算术符号已经成为计算机的工作语言,计算机是用0和1的无穷组合和线性排列来描写整个世界的。二进制符号的有标记、唯一性编码规则,在今天被称为“数字化”或“数字化思维”。数字化思维所代表的有标记、唯一性编码规则,是整个信息时代或互联网时代最深层、最基本的结构基础。而以周易符号为代表的无标记、可能性编码规则,被称为非数字化的规则或思维方式。因此,我们说,汉语的不分词连写反映了一种非数字化的周易精神。 互联网是数字化的。世界上大多数的语言都是分词连写的,从这个角度说这些语言的数字化程度都高于汉语。这样,数字化的语言和数字化的互联网之间,就具有一种编码规则的同构性,不同民族的数字化语言略加调整,就可适应互联网上通行的基本编码规则。也就是说,这些分词连写的语言在进入互联网时省略了分词这一道编码程序,直接可进入互联网。这就是一级代码信息处理方式:由于数字化语言和数字化互联网的同构性,使得这种语言在信息处理时不必进行二次分词的信息编码便可直接进入互联网。 而汉语可能是世界上最不数字化的语言之一,它要进入互联网时代,最大的瓶颈是要进行二次代码转换。 所谓的二次代码转换,指非数字化的符号在进入数字化符号系统时,必须按照数字化有标记、唯一性编码原则进行重新编码才获得准入。就像进入WTO世界贸易体系一样,你必须遵守国际通行的市场经济规则才行。例如文字,世界上重要的文字可能只有汉字是表意文字,其余则是表音文字。表音文字用有限的字母记录有限的语音系统,体现了一一对应的有标记、唯一性的编码精神;表意文字记录的是意义单位,文字的数量大,语言意义单位的数量更几乎是无限的,这样文字和语言之间就有极大的不对应性,同时,汉字这种无标记、可能性的编码规则与其他数字化的表音文字又有一种不同构性。因此汉字要进入数字化的计算机信息世界,就必须进行二次代码转换,于是出现了像“五笔字型”“自然码”“智能ABC”“微软拼音”“全拼”“郑码”等等无数的汉字二次编码方案,它们是适应数字化规则的要求而编制的,这些方案的编制在中国成为一种产业,人称“万码奔腾”。人们不是在用一种代码创造信息,而是在用一种代码替代另一种代码,这样的工作甚至成为产业,这种现象在表音文字国家恐怕不多见。 不分词连写的汉语也是如此。汉语要进入计算机信息世界,必须要分词连写,否则有关的操作根本无法进行。于是就要投入大量的人力、时间和资金去搞分词的数字化规则设计和研究。比如现在搞中文自动分词的软件很多,这种“智能”分词软件,说到底,就是二次代码转换规则系统的设计。不仅在信息产业界,在汉语研究领域,二次代码的转换问题也成为重中之重。例如在国家社会科学基金项目语言学类中,已经立项的两项重大项目中其中一项就是“信息处理所需要的现代汉语词汇研究”。不仅是汉语词汇,汉语语法的研究重点目前也是在形式化规则的描写方面。有的学者认为汉语语法研究大致经历了句子成分分析、层次分析、变换分析、语义特征分析几个阶段。目前的研究热点是“配价语法”。配价语法强调语法单位的语义基础,直接以语义模式制导而辅以句法检查。由于该理论是以名词与动词之间抽象的语义关系的分类规则为基础的,其最终目的就是为非数字化的汉语找到一套数字化的二次代码转换规则,以求取得互联网时代的准入证。 二次代码转换,在时间上就比数字化语言文字滞后了半拍,所以我们的信息产业要超过数字化国家是非常困难的。更不容忽视的是,一旦二次代码转换成为一种产业,它所导致的资源浪费是巨大的,不可估量的。我们需要更多的宽带、更多的技术、更多的人力和资金去去解决二次转换问题,而不是用于直接创造信息。由于二次转换,图书馆、数据库需要更多的时间和人力物力,去解决非数字化的汉语汉字文本的数字化储存问题,否则整个互联网就会空心化,电子(物质技术)大于比特(信息内容)。由于二次代码转换,网民需要在电脑前更多的耐心等待,更多的点击次数…… 我们现在不能搞汉字拼音化,因为它涉及到中华文明的存亡。但汉语的分词连写却是古老的中华文明进入数字化时代非常重要的接口,它将进一步使汉语数字化以与时代发展同步。尽管数字化有种种弊端,但数字化的历史进程却是不可抗拒的。就像今天的人们都不用毛笔而改用硬笔一样。当然,以汉语、汉字、周易为代表的非数字文化相对于数字化文化而言,是一种宝贵的稀缺资源,因此说“越是民族的越是世界的”。但是如果仅仅是因为稀缺而宝贵而不是因为强大而宝贵,那么最宝贵的东西应该是上古先民们使用的器皿。如果说高度数字化文化的稀缺资源是非数字化的思维的话,那么高度非数字化的文化最稀缺的资源就是数字化。从这个意义上讲,汉语实行分词连写,将极大地提高汉民族集体智能的数字化程度,从而大大加快中国的现代化历史进程。同时,语言的数字化,可能引入一种异质的思维方式,不是取代我们的思想,要取代也是不可能的,而是使我们的文化朝多元化方向更有活力地发展。 发人深思的是,我国目前汉语研究的主流意识是“中体西用”。所谓“中体”即汉语本体,“西用”即西方数字化的语言理论和研究方法:维持汉语非数字化的现状,用西方的理论和方法研究汉语,为汉语穿上一套数字化服装。这种研究思路使得汉语二级符号化:一方面保持了非数字化的形态(一级符号),一方面又为它另创制了一套数字化代码及其规则(如我们许多语法和信息处理研究者提出的种种设计或理论方案),以与国际接轨。然而,这种使汉语走二级代码转换方向的思路,一方面加大了汉语进入数字化世界的成本,另一方面由于二级符号化而不能轻装上阵进而加大了进入这个世界的困难性。这可能是目前汉语研究最大的误区。 本文的建议是,当前汉语应该注重汉语本体的数字化文体,不是用数字化的理论规则去套非数字化的汉语,而是研究如何使非数字化的汉语变得数字化。这种研究可以首先以分词连写为突破口。应该像消灭错别字那样动员全民的力量来普及汉语分词连写,使这种数字化的规则成为汉民族集体智能中的重要力量。一旦汉语的分词连写成为每个中国人的自动行为,语言学家们和智能分词软件设计者们的二级代码转化工作也就停止了,他们会把精力放在更重要的信息和文化的创造方面来。道理于是变得很简单:在词与词之间加个空格,将会改变历史。
余言
由于历史条件的变化,二十一世纪的汉语的规范对象、规范标准,国家的语言政策,汉语的研究重点都将发生转移。尽管问题答案可能不是唯一的,但汉语发生转移的趋势却是不容质疑的。这就是,从对媒体的单向控制来达到对汉语的控制转向对人们言语行为方式的积极引导;从单方制定强制的唯一性的语言规则转向双方共同制定选择性的关系准则,这些准则主要包括:如何处理好汉语和英语的互文性关系,如何处理好汉语主体的群体意志与个体意识之间的对话关系,如何处理好汉语数字化过程与文化保护的关系等等。这些两两相对的矛盾不是一方吃掉一方、你死我活的关系,而是相互渗透、交融、对话、制约,共同促进汉语的健康发展。 |