分词连写,它更重要的是一种民族思维的数字化工程,它要从书写的词这一级语言思维层面上将中国人的整体性思维改造为分析性思维。
根据符号能指和所指在结构形态上的同构性程度,我们可以概括为两种基本类型:有标记方式和无标记方式。“标记”本来是语言学的一个术语,意为两个对立项中的一个带有区别性特征,这种区别性特征可以把它与另一成分区别开来,该成分即为“有标记成分”。从符号学的观点看,所谓有标记,就是强调符号能指和所指的一一对应,强调所指的差异一定要在能指上表现出来——能指的区别特征与所指的区别性是同构的。如国际音标符号的制定原则是“一个音素一个符号,一个符号一个音素”,即强调记音符号的有标记性。反之能指与所指之间不具有这种同构性,就是“无标记成分”。例如汉语词缺少形态变化,词性(所指)变了,而词形(能指)仍保持原貌。“文件锁在抽屉里”中的“锁”是动词,它与 “门上的锁坏了”的名词的“锁”在词形上并无区别。英语词“锁”(lock)也有名词和动词两种词性。但当它分别用作名词(to open the lock开锁)和动词(the document is locked in the drawer 文件锁在抽屉里)时,其词形(能指)也相应发生变化。由此可见,汉语词“锁”的能指和所指之间不一一对应,是无标记单位;英语词“ lock”则是一个形式(能指)只标记一种功能(所指),因此是有标记单位。有标记单位通过符号的外部形式(能指)的差异来确定符号所指的意义,这种能指和所指间的同构性使得符号的信息确定性程度较高。无标记单位缺少外部形式的规定性,需要依靠语境的解释和接受者的主观判断才能确定符号所指的意义,因此其信息确定性程度较低。一般而言,汉语是一种缺少形态变化的语言,因而是无标记性强的语言,与之相比,英语则是有标记的语言。
分词和不分词连写,就是书写形式上的有标记和无标记的二元对立。
汉语句子“我是一个工人”在书面上词与词之间不加区分,不像英语“I am a worker ”那样,词与词之间是分开写的。汉语的这种无标记性,非常不利于计算机信息处理,当然这仅仅是从信息传播的角度说的;如果从表达的角度,这种无标记性赋予语言一种灵活的、不拘形式约束的简便性。
互联网本质上是数字化的。“数字化”的基本含义就是信息的确定性和有标记性。
世界上大多数的语言都是分词连写的,从这个角度说这些语言的数字化程度都高于汉语。这样,数字化的语言和数字化的互联网之间,就具有一种编码规则的同构性,不同民族的数字化语言略加调整,就可适应互联网上通行的基本编码规则。也就是说,这些分词连写的语言在进入互联网时省略了再分词这一道编码程序,直接可进入互联网。这就是一级代码信息处理方式:由于数字化语言和数字化互联网的同构性,使得这种语言在信息处理时不必进行二次分词的信息编码便可直接进入互联网。
而汉语可能是世界上最不数字化的语言之一,它要进入互联网时代,最大的瓶颈是要进行二次代码转换。所谓的二次代码转换,指非数字化的符号在进入数字化符号系统时,必须按照数字化有标记、唯一性编码原则进行重新编码才获得准入。就像进入WTO世界贸易体系一样,你必须遵守国际通行的市场经济规则才行。例如文字,世界上重要的文字可能只有汉字是表意文字,其余则是表音文字。表音文字用有限的字母记录有限的语音系统,体现了一一对应的有标记、唯一性的编码精神;表意文字记录的是意义单位,文字的数量大,语言意义单位的数量更几乎是无限的,这样文字和语言之间就有极大的不对应性,同时,汉字这种无标记、可能性的编码规则与其他数字化的表音文字又有一种不同构性。因此汉字要进入数字化的计算机信息世界,就必须进行二次代码转换,于是出现了像“五笔字型”“自然码”“智能ABC”“微软拼音”“全拼”“郑码”等等无数的汉字二次编码方案,它们是适应数字化规则的要求而编制的,这些方案的编制在中国成为一种产业,人称“万码奔腾”。人们不是在用一种代码创造信息,而是在用一种代码替代另一种代码,这样的工作甚至成为产业,这种现象在表音文字国家恐怕不多见。
不分词连写的汉语也是如此。汉语要进入计算机信息世界,必须要分词连写,否则有关的操作根本无法进行。于是就要投入大量的人力、时间和资金去搞分词的数字化规则设计和研究。比如现在搞中文自动分词的软件很多,这种“智能”分词软件,说到底,就是二次代码转换规则系统的设计。不仅在信息产业界,在汉语研究领域,二次代码的转换问题也成为重中之重。其最终目的就是为非数字化的汉语找到一套数字化的二次代码转换规则,以求取得互联网时代的准入证。
我们现在不能搞汉字拼音化,因为它涉及到中华文明的存亡。但汉语的分词连写却是古老的中华文明进入数字化时代非常重要的接口,它将进一步使汉语数字化以与时代发展同步。尽管数字化有种种弊端,但数字化的历史进程却是不可抗拒的。就像今天的人们都不用毛笔而改用硬笔一样。当然,以汉语、汉字、周易为代表的非数字文化相对于数字化文化而言,是一种宝贵的稀缺资源,因此说“越是民族的越是世界的”。如果说高度数字化文化的稀缺资源是非数字化的思维的话,那么高度非数字化的文化最稀缺的资源就是数字化。从这个意义上讲,汉语实行分词连写,将极大地提高汉民族集体智能的数字化程度,从而大大加快中国的现代化历史进程。同时,语言的数字化,可能引入一种异质的思维方式,但不是取代我们的思想,不是取代我们的语言,要取代也是不可能的,而是使我们的文化朝多元化方向更有活力地发展。
―――――――――
[注]见徐通锵《语言论》,东北师范大学出版社,1998年32页。