中国高等教育学会语文教育专业委小学语文教学法研究中心副秘书长管季超创办的公益服务教育专业网站 TEl:13971958105

教师之友网

 找回密码
 注册
搜索
查看: 172|回复: 0
打印 上一主题 下一主题

汉语分词连写的性质

[复制链接]
跳转到指定楼层
1#
发表于 2015-9-13 01:10:20 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
  汉语分词连写的性质
                    孟华


世界上的主要语言不分词连写的恐怕只有汉语。这是一个值得深思的独特文化现象。关于它的性质、以及维系它或改造它的意义,学术界的研究还是远远不够的。而在全球日益数字化的今天,对这些问题的回答又是如此的紧迫。
本文主要讨论有关分词连写的性质的几个问题。

1  它是一个语文建设问题而非纯语言理论探索

“分词连写”是相对于汉语“不分词连写”而言的一种语言行为改革的设计方案。这是一个社会语言学命题,一个语文建设的规划,一个巨大的社会文化工程。学术界有关汉语分词连写的一切讨论,只不过是这个文化工程施工前的专家可行性论证和蓝图设计。
中国汉语界目前的策略是,悬置或回避分词连写问题,甚至干脆取消关于这个工程上马的讨论,而集中精力探讨一套分析性的语法理论方案,如制定一套指导如何给汉语切词的分析技术理论,给不分词连写的汉语穿上一身西方语言形态的理论外套。将一个语文建设问题转化为一个纯语言理论问题。
这是一种“中体西用”式的实用主义策略。所谓“中体”即保持汉语不分词的现状,“西用”即用西方形式化的语言理论和研究方法来克服汉语结构形态上的不确定性。这种研究思路使得汉语走向两极分化:一方面保持了汉语不分词连写的结构形态,另一方面又在理论层面上不停地为它另创制一些切词的分析方案。例如一般认为汉语语法研究大致经历了句子成分分析、层次分析、变换分析、语义特征分析等几个阶段。这些研究的最终目的之一,就是为不分词连写的汉语找到一套形式化的替代性切词方案。这是一种二次代码转换:不分词连写的汉语是第一级代码,将这第一级代码再转化为可切分性的汉语语法分析规则是第二级代码转换。
中国汉语界回避了汉语的语文建设问题而走向了一条纯理论研究、一条二级代码转换路子。

2它不单纯是一个汉字书写问题

汉语不分词连写,与汉语的结构性质有关。
徐通锵认为西方语言最小的语音感知单位是音素,而最小的编码单位是词;汉语则不同,它的最小语音感知单位和编码单位都是音节,书写形式是一个字[注]。这样汉语的编码单位就实现了“形音义”三位一体。英语的音节不是一个独立的编码单位,但汉语的音节一般都具有意义,李葆嘉叫它附义性。所以,汉语的基础单位是“1”即一个音节、一个意义,在书写上是“一个形体、一个音节、一个意义”。汉语基础单位“1”的性质,使它总是倾向于一种意指关系,总是关联某个意义。汉语基础单位不侧重于结构性差别,它更是一个功能性意指单位。“蚂蚁”的“蚁”是一个形式差别单位(纯音节),自身没有附义性,但在“蚁王”中“蚁”变成了附义性的意指单位。汉语不携带意义的音节数量极少,且经常被语素化。
汉语基础单位“1”或单体的性质减轻了它对线性结构关系的依赖,它的功能主要靠形音义意指链条来实现,而不是横结构轴上词与词之间的差异。这样导致了汉语结构单位的简化和区别性降低,在书写上表现为不分词连写。但在“字”这一级上却有区别性特征。所以,在徐通锵的“字本位”语法理论那里,不存在汉语分词连写的困惑。
当然,不分词连写更与汉字的性质有关。汉语的词双音节化为主以后,使得古代汉语的字词一致性发生了分裂:字的单体性与词的复体性的不一致是汉语书写单位与口语单位的基本结构矛盾。这个结构矛盾又要求汉语的书写形式突破“1”的结构框架。
另外,汉语一旦实行分词连写,实际上是改变了目前汉语结构“1”的格局,它可能会从根本上改变汉语基础单位的性质。根据符号学的观点,一个系统基础单位的性质决定了整个系统的性质。因此,实行分词连写后,汉语的基础单位可能由“字”这一级向“词”这一级组织靠拢,这将极大地影响汉语语法组织结构原则。所以,分词的改革是伤筋动骨的语言文化运动,是五四精神的继续。
我们应该站在汉字和汉语的互动的关系(言文关系)中来考虑汉语的分词连写问题,宁可将问题复杂化、困难化。

3它不仅仅是一种信息处理方案或技术

分词连写,它更重要的是一种民族思维的数字化工程,它要从书写的词这一级语言思维层面上将中国人的整体性思维改造为分析性思维。
根据符号能指和所指在结构形态上的同构性程度,我们可以概括为两种基本类型:有标记方式和无标记方式。“标记”本来是语言学的一个术语,意为两个对立项中的一个带有区别性特征,这种区别性特征可以把它与另一成分区别开来,该成分即为“有标记成分”。从符号学的观点看,所谓有标记,就是强调符号能指和所指的一一对应,强调所指的差异一定要在能指上表现出来——能指的区别特征与所指的区别性是同构的。如国际音标符号的制定原则是“一个音素一个符号,一个符号一个音素”,即强调记音符号的有标记性。反之能指与所指之间不具有这种同构性,就是“无标记成分”。例如汉语词缺少形态变化,词性(所指)变了,而词形(能指)仍保持原貌。“文件锁在抽屉里”中的“锁”是动词,它与 “门上的锁坏了”的名词的“锁”在词形上并无区别。英语词“锁”(lock)也有名词和动词两种词性。但当它分别用作名词(to open the lock开锁)和动词(the document is locked in the drawer 文件锁在抽屉里)时,其词形(能指)也相应发生变化。由此可见,汉语词“锁”的能指和所指之间不一一对应,是无标记单位;英语词“ lock”则是一个形式(能指)只标记一种功能(所指),因此是有标记单位。有标记单位通过符号的外部形式(能指)的差异来确定符号所指的意义,这种能指和所指间的同构性使得符号的信息确定性程度较高。无标记单位缺少外部形式的规定性,需要依靠语境的解释和接受者的主观判断才能确定符号所指的意义,因此其信息确定性程度较低。一般而言,汉语是一种缺少形态变化的语言,因而是无标记性强的语言,与之相比,英语则是有标记的语言。
分词和不分词连写,就是书写形式上的有标记和无标记的二元对立。
汉语句子“我是一个工人”在书面上词与词之间不加区分,不像英语“I am a worker ”那样,词与词之间是分开写的。汉语的这种无标记性,非常不利于计算机信息处理,当然这仅仅是从信息传播的角度说的;如果从表达的角度,这种无标记性赋予语言一种灵活的、不拘形式约束的简便性。
互联网本质上是数字化的。“数字化”的基本含义就是信息的确定性和有标记性。
世界上大多数的语言都是分词连写的,从这个角度说这些语言的数字化程度都高于汉语。这样,数字化的语言和数字化的互联网之间,就具有一种编码规则的同构性,不同民族的数字化语言略加调整,就可适应互联网上通行的基本编码规则。也就是说,这些分词连写的语言在进入互联网时省略了再分词这一道编码程序,直接可进入互联网。这就是一级代码信息处理方式:由于数字化语言和数字化互联网的同构性,使得这种语言在信息处理时不必进行二次分词的信息编码便可直接进入互联网。
    而汉语可能是世界上最不数字化的语言之一,它要进入互联网时代,最大的瓶颈是要进行二次代码转换。所谓的二次代码转换,指非数字化的符号在进入数字化符号系统时,必须按照数字化有标记、唯一性编码原则进行重新编码才获得准入。就像进入WTO世界贸易体系一样,你必须遵守国际通行的市场经济规则才行。例如文字,世界上重要的文字可能只有汉字是表意文字,其余则是表音文字。表音文字用有限的字母记录有限的语音系统,体现了一一对应的有标记、唯一性的编码精神;表意文字记录的是意义单位,文字的数量大,语言意义单位的数量更几乎是无限的,这样文字和语言之间就有极大的不对应性,同时,汉字这种无标记、可能性的编码规则与其他数字化的表音文字又有一种不同构性。因此汉字要进入数字化的计算机信息世界,就必须进行二次代码转换,于是出现了像“五笔字型”“自然码”“智能ABC”“微软拼音”“全拼”“郑码”等等无数的汉字二次编码方案,它们是适应数字化规则的要求而编制的,这些方案的编制在中国成为一种产业,人称“万码奔腾”。人们不是在用一种代码创造信息,而是在用一种代码替代另一种代码,这样的工作甚至成为产业,这种现象在表音文字国家恐怕不多见。
    不分词连写的汉语也是如此。汉语要进入计算机信息世界,必须要分词连写,否则有关的操作根本无法进行。于是就要投入大量的人力、时间和资金去搞分词的数字化规则设计和研究。比如现在搞中文自动分词的软件很多,这种“智能”分词软件,说到底,就是二次代码转换规则系统的设计。不仅在信息产业界,在汉语研究领域,二次代码的转换问题也成为重中之重。其最终目的就是为非数字化的汉语找到一套数字化的二次代码转换规则,以求取得互联网时代的准入证。
    我们现在不能搞汉字拼音化,因为它涉及到中华文明的存亡。但汉语的分词连写却是古老的中华文明进入数字化时代非常重要的接口,它将进一步使汉语数字化以与时代发展同步。尽管数字化有种种弊端,但数字化的历史进程却是不可抗拒的。就像今天的人们都不用毛笔而改用硬笔一样。当然,以汉语、汉字、周易为代表的非数字文化相对于数字化文化而言,是一种宝贵的稀缺资源,因此说“越是民族的越是世界的”。如果说高度数字化文化的稀缺资源是非数字化的思维的话,那么高度非数字化的文化最稀缺的资源就是数字化。从这个意义上讲,汉语实行分词连写,将极大地提高汉民族集体智能的数字化程度,从而大大加快中国的现代化历史进程。同时,语言的数字化,可能引入一种异质的思维方式,但不是取代我们的思想,不是取代我们的语言,要取代也是不可能的,而是使我们的文化朝多元化方向更有活力地发展。
―――――――――            
[注]见徐通锵《语言论》,东北师范大学出版社,1998年32页。
您需要登录后才可以回帖 登录 | 注册

本版积分规则


QQ|联系我们|手机版|Archiver|教师之友网 ( [沪ICP备13022119号]

GMT+8, 2024-5-21 14:25 , Processed in 0.113709 second(s), 25 queries .

Powered by Discuz! X3.1 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表