收藏 分享(赏)

agqinqb在_计算机的立场上讨论汉语理解问题.doc

上传人:dreamzhangning 文档编号:2638868 上传时间:2018-09-24 格式:DOC 页数:9 大小:49.50KB
下载 相关 举报
agqinqb在_计算机的立场上讨论汉语理解问题.doc_第1页
第1页 / 共9页
agqinqb在_计算机的立场上讨论汉语理解问题.doc_第2页
第2页 / 共9页
agqinqb在_计算机的立场上讨论汉语理解问题.doc_第3页
第3页 / 共9页
agqinqb在_计算机的立场上讨论汉语理解问题.doc_第4页
第4页 / 共9页
agqinqb在_计算机的立场上讨论汉语理解问题.doc_第5页
第5页 / 共9页
点击查看更多>>
资源描述

1、、|!_一个人总要走陌生的路,看陌生的风景,听陌生的歌,然后在某个不经意的瞬间,你会发现,原本费尽心机想要忘记的事情真的就这么忘记了 在计算机的立场上讨论汉语理解问题Understanding Chinese Language from the View Point of ComputerZhou, XilingProfessorBeiJing Information Technology InstituteAug. 16,1997AbstractIt is important to distinguish two mode of information transferring proces

2、ses: detailed description mode and curtailed hint-mode. In history, the traditional style of Chinese writing is to focus on “terse and more message”. Thus Chinese writing is unique in its widely usage of Hint-Mode in various ways for the purpose of high efficiency as compared with other languages su

3、ch as English and Japanese. This implies that the understanding of Chinese language depends in much more degree on the Common Knowledge between the information sender and the receiver. This kind of practise was carried out so hard that in many cases the reader (listener) has to rectify the meaning o

4、f a sentence via common sense instead of the result of syntax analysis. So far, our computer technology is far from being able to understand the “hint mode” expressions on the basis of common sense and knowledge, hence we have to restrict the style of statements in “description mode” before the comp

5、uter can understand it.摘要必须区分信息传递过程中的两种方式:“详细的描述方式”与“简略的提示方式”。历来汉语的文风是强调“言简意赅”。与其他语言(例如英语和日语)相比,在中文的书面语言和口语中更多地使用了“提示方式”,从而意味着信息的理解要在更大的程度上依靠写读(说听)双方共同拥有的知识。这种做法是如此普遍以致于有时信息的接收者必须通过常识来校正语义分析所获得的信息。迄今的计算机技术远未达到这种主要依靠常识和专业知识来猜测语义的程度,从而必须把馈送给计算机的自然语言语句限制在“描述方式”的范畴之内。前言无论古代圣贤还是近代学者,都主张“多读书,慎立言”。然而本文基本上只

6、从直觉和日常生活中对语言的感受出发,悖离了他们的教导。一来这是由于本人最近才进入自然语言处理这十分生疏的课题,因而完全没有语言学理论方面基本功的训练。二来是想到,凡事有一利必有一弊,多读书固然有好处,但是读书也就是“把脑子让别人跑马”,有如看电视剧就是把眼睛借给导演一样;在当前其他工作十分繁忙的情况下,如果囫囵吞枣,没有时间消化,自己的直觉反而会给马蹄践踏光了。第三是想,语言学家们进行了多年的研究和讨论,我们最好也在软件工作者的圈子里来讨论一下。最后,作为这个领域里的 freshmen, 即便说得不对、浅薄,乃至贻笑大方,大概都能得到软件同行和语言学家们的谅解。是为序。两种信息传递方式当我们要

7、传递具有某种含义的信息时,大体上可以采取两种方式:详尽的“描述方式”和简略的“提示方式”。举例来说: 当使用 C 语言书写计算机程序的时候,我们可以只使用 C 语言中允许使用的基本语句,也可以调用程序库中的子程序、操作系统提供的 SVC 或 API。前者属于 “描述方式”,后者属于“提示方式”。 在绘画领域里,有以刻意详细描摹为特徵的“工笔画”,也有以简单勾勒线条,突出了对象特徵即止的“简笔画”(漫画和幼儿绘画教材为这一类的代表)。前者属于“描述方式”,后者属于“提示方式”。 书画同源,人们说话的时候使用的语句也可以分为两种:“描述方式”和“提示方式”。“描述方式”讲究语法。要求通过语法所规定

8、的结构和句子中诸成份之间的关系来比较精确地与这个句子所要描述的客观事物的结构相对应。“提示方式”则不同。它只挑选所要描述的客观事物中若干主要因素告诉对方,让对方利用双方说话时所处的环境和上下文中已经包含的信息,和对方已经具有的知识来补足语句中所省略的部份。如果一种语言的使用者在实际使用的时候能够比较严格地遵守语法和客观世界中事物之间的对应关系,并且对不同的情况区分得比较细腻,那么他所说的话是比较严谨的。使用的是“描述句”。反之,如果他所说的话比较简略。他使用的是“提示句”。这时候,语言的理解就要更多地依赖语境和说写方与读听方的共同知识,以排除歧义。在区分以上两种信息传递方式时,我们当然会注意到

9、以下几点: “描述方式”和“提示方式”是可以混合使用的,在写计算机程序和人们相互交谈时尤其如此。 为了节省时间和精力,只要有可能,人们多半倾向于使用“提示方式”。但是,这样作,需要满足一个前提条件:信息的收发双方共享了相关的某种知识。漫画的读者如果要理解漫画家勾勒出来的某一名人的画像,他必须事先从报章、杂志或者电视上见过该名人;计算机编译程序必须在程序库中找得到有关库程序的 implementation 的描述才能进行编译;同样地,如果某篇文章中含有“胸有成竹”这一成语,读者必须事先知道“胸有成竹”这四个字所引用的故事,才能理解这段话的含义。 换言之,“提示方式”的使用,提高了对信息接收方知识

10、水平的要求。描述句世界上各种语言文字的语法互不相同,然而它们恐怕都要满足一个共同的要求,就是能够通过它们反映主客观世界中的事物以及事物与事物之间的关系。各种语言中用来与事物对应的词就是“体词”,它们相当于计算机软件中的“对象(object)”“实体(entity)”的概念。而为了描述事物与事物之间的关系,就产生了“谓词”(它们相当于计算机软件中的“关系(relationship)”)。为了区分 1 :1 还是 n :m 关系,就产生了单数和多数的概念。体词后来进一步细分为名词,代名词,等等。谓词后来进一步细分为动词,形容词,介词等等。有许多关系是有方向性的,例如“打”,为了指明某个实体位于关系

11、的哪一方,有些语言中的体词就产生了语法“格”的概念,在动词上就产生了“主动态”与“被动态”的区别。在没有“格”和不大讲究“主动”与“被动”的汉语中就要在一定程度上依靠“语序”和“虚词”(虚词在汉语中似乎较多地用来指示关系的方向性)来表达这方面的概念。汉语中的“提示句”汉语中的“提示句”有两种情况。一种是通过成语引用一个“人所共知”的故事。例如:他这样做简直是“杞人忧天”。另一种是把一个原来是完整的描述句中的若干成分省略,只留下关键性的词语。省略的部分要依靠读(听)者利用自己的知识补充回去。例如:今天不来了。是“我”不来了,还是“老张”不来了,要看讲话的人是在打电话还是在等老张。至于社会上某一时

12、期流行的缩略语,如:五讲四美三热爱。更是如此。汉语中的体词基本上没有“性,数,格”的区分,动词本身也不讲究“主动,被动”以及“过去,未来,现在”的时态区分。再加上中国文化传统历来讲究“言简意赅”。因此,与其他语言相比,汉语中使用“提示句”的情况比较多。不仅如此,汉语往往还允许语言的使用者违反“描述句”中所要求的语法规则,只要听者能够通过语义和语境在理解时把“错误”的语法或语序纠正过来就行。以杜甫的名句“名岂文章著, 官 应老病休”为例。最后五个字列举了五个概念:当官 应该 衰老 生病 休息按照正常的语法,简直无法理解它的意思。要理解,必需把这五个字的次序颠倒成:“老病应休官”,也就是:“由于

13、衰老生病,应该退休不当官了”。即便在现代的日常生活中,也仍然保留著这种语言现象。最典型的例子就是:“救火”与“恢复疲劳”这两种 普遍的说法。产生这种奇怪现象的原因也许可以从小孩子学说话的过程中得到启示。幼儿学说话时, 开始多半没有按照一定语法去组织词句的能力,他只能把 代表他脑海中最重要的概念的单词说出来。例如“救火”,严谨的说法应该是:抢救生命财产于火灾之中。 或者 从火灾中抢救生命财产。可是他没有能力或者来不及 说出这样复杂的话,只好从中挑选两个最关键的词“救”与“火”来说。在大火 熊熊的现场, 尽管所用语序会使书呆子产生理解错误,但对一般人来说,这两个字的意思也就够了,不会引起误解。当然

14、,在火柴还没有发明之前,人们看见珍贵的火种 快要熄灭而想挽救它时,“救火”就变成了完全符合现代汉语语法的“挽救火种”的含义了。同样地,“恢复疲劳”是以下严谨说法:恢复到疲劳以前的状态。的提示形式。再拿由语言学界前辈赵元任先生首先提出,并在语言学界反复讨论过的例句:(在餐桌上) 鸡不吃了。来看。有人说,“吃”在这里是 被动态,如果在养鸡场说这句话,它就是主动态了。我认为,可以从另外一种观点来更自然地加以解释,即认为它实际上是说话的一种简化的提示形式,其简化过程可以设想如下:这鸡,我不想吃了。鸡,我不吃了。鸡,不吃了。鸡不吃了。尽管最后的句子违背常规语法,但却为使用汉语的人群所允许。还有一个经常引

15、起争论的例句是:去是对的。在这个句子中的“去”字到底是名词还是动词?有一派说,“去”一般是动词,然而这里的“去”已经名词化了,因为只有体词才能充当主语。它已经相当于英文中的 going, 只不过由于汉语没有形态变化,所以表面上看不出来罢了。反对者说,不对!其中的“去”仍然是动词,否则你怎么解释下面的句子?不去是对的。难道其中的“不去”也是名词?“不”是只能用来修饰动词的,“不”字典后面从来不可以跟一个名词!于是按照这一派的意见所拟定的汉语语法中,名词,动词,形容词都可以用来充当主语。迄今为止,以上两种意见好像谁也说服不了谁。我认为,实际上这种句子是一种非正规,“提示性”的简略表述形式,如果采取

16、这种看法,问题就会迎刃而解。设想有某个单位,大家讨论该不该派老张出差开会。用严谨的“描述句”来表述两派的争论意见,应该是:“主张老张 去 开会的这一派意见” 是对的。“主张老张 不去 开会的这一派意见” 是对的。等到老张出差开会回来, 如果双方又开始用同样的提示语句进行争论,那么实际的内容就变成:“这次老张 去 开会的作法” 是对的。“这次老张 不去 开会的作法” 是对的。换言之,在原来较为完备详尽的说法中,都是以名词性短语作为主语,简略形式中的“去”与“不去”不过是从这些名词性短语中抽取出来的关键性动词而已。要是把上述例句的提示形式直译为:“Go is right.“ “Not go is

17、right.“ 恐怕不能被认为是正规的英语,而必需说成:“The idea of let him go is right.“ 之类。总的说来,像英语,俄语,日语这样讲究语法形态的语言偏向于要求较完备的描述表述形式,而汉语则容忍更加简略的说法。汉语的这一特点使得它的表达形式远较其他语言紧凑,同样篇幅的文字所含有的信息量更高,而其缺点则如鲁迅先生所说:不够精密。由从事计算机自然语言理解工作者的观点看来,由于大量的提示语要依靠语言接收者自备的知识来补充所省略掉的部分,大大增加了计算机理解汉语的困难。岐义词问题有关岐义词的讨论已经很多。“东西”是一个典型的例子。它可以有好几种含义:“东西”可以有 Do

18、ng1Xi1 和 Dong1Xi5 两种不同的发音,而不同发音的汉字或者汉字组合不能算是一个词。然而在此只讨论计算机对书面语言的处理,所以不考虑这种区分。东西(物件) 到百货公司买东西。东西(方向) 东长安街是东西向的一条大街。东西(爱称) 你这可爱的小东西。东西(贬意) 这人真不是东西!计算机在碰到这种词时很难依照上下文判断应该使用哪一种含义,除非在计算机中装入常人拥有的社会与自然科学知识。但是如果人们在写作时利用了可以帮助计算机理解汉语的辅助写作软件,则可以在切分词以后查字典,如果发现这个词有多种含义,就通过人机对话向写作者询问他使用的是哪一种含义。值得注意的是,有些歧义词是以很隐晦的、与

19、上下文有关的方式改变其含义。在中国学习中文的美国留学生说:中文真奇怪,以下两句话:(a)中国队 大胜 美国队。(b)中国队 大败 美国队。都是你们中国队嬴。可是:(c)美国队 大败 而归。却依然是美国队输了。其实,第二句话(b)中的“大败”是及物动词“使.大败”。而第三句话(c)中的“大败”是不及物动词, 表示主语“大败”。换言之:如果在句子中同时出现主语和宾语,“大败”或者“打败”在句子中就用作“及物动词”,这时,宾语所代表的一方失败,主语所代表的一方当然就是胜利者。如果在句子中只出现主语而没有宾语,“大败”或者“打败”在句子中只能用作“不及物动词”,这时主语所代表的一方就是失败者。还有奇怪

20、的事:把废纸 扔 在 地上。把废纸 扔 在 地下。中的“地上”和“地下”都是“on the surface of the floor.” 而把废纸埋 在 地下。中的“地下”才是“underneath the ground” “地下”有 Di4Xia4 和 Di4Xia5 两种读音,语言学家认为是两个不同的词:前者表示“地面之下”,后者表示“下方的地上”。但一般人即使在口语中也难以注意到这一细微的区分,作为供计算机阅读的书面语,区分就更难了。汉语中没有词尾可以用来标识词性,同一个汉字往往既可以当名词,又可以当动词,甚至形容词。这种“词性歧义”也给汉语理解带来了困难。在古文中,这种例子较多:道可道

21、,非常道。名可名,非常名。君君臣臣父父子子。老吾老,以及人之老,幼吾幼,以及人之幼。现代生活口语里也不断发生这种现象。中央电视台“综艺大观”的节目主持人就说过:这个节目很生活。老百姓日常生活里也有不少例子:丈夫问:“宝宝大便了没有?”妻子答:“已经大过了。”体词的串接“体词串接”是汉语中十分普遍的现象。在这种句子或短语中,你只看到一连串反映客观世界中实体的名词、代名词, ,却找不到反映它们之间关系的谓词、介词, 。从熟悉 ER(实体关系)模型的软件人员的观点来看,这种做法相当于只列举了反映客观世界的 ER 模型中的若干 Entities(实体),而完全省略了它们之间的 Relationship

22、(关系)。它们之间的关系到底是什么,留给读者根据这些体词的语义去猜测。与其他语言相比较,汉语的紧凑、灵活性,同时也就是它的不精密性在很大程度上与这一语言现象有关。如果在语句中出现 相邻接的两个名词 N1 N2, 那么他们之间的关系可以有多种形式,具体如何选择,往往要看这 两个名词 N1, N2 的含义来决定。例如: 如果 N1,N2 都是地名,则 N1 用来限定 N2 的范围,如:中国 北京, 新街口 豁口 小李 黄头发。 - 主谓关系 圆领 衬衫。 - 前者形容后者 有时还需要根据语句之外的社会知识或者生活常识才能决定:鲁迅回忆录 这一个短语里并列了两个代表实体的实词:“鲁迅”和“回忆录”。

23、这两个实体之间有什么样的关系呢?短语里面没有说。从计算机的机械脑袋猜想起来,可以有种种猜测:关于 鲁迅 的 回忆录鲁迅 撰写的 回忆录鲁迅 收藏的 回忆录鲁迅 销售的 回忆录但是,大多数人知道,作为一个书名印在封皮上,只能有前两种解释(但是计算机看不见这一点)。有一定文化的人更进一步知道,应理解为 (关于)鲁迅(的) 回忆录,而不是鲁迅自己所写的回忆录:因为他知道鲁迅并没有把自己的经历写过回忆录,而且他又知道有很多人写过与鲁迅交往的情况。或者他曾经翻阅过这本书的目录或内容。至于赫鲁晓夫回忆录则应理解为 赫鲁晓夫(自己写的) 回忆录:因为他在报上看见过赫鲁晓夫写 回忆录的报导(计算机可没有天天阅

24、报的经历)。汉语语法的覆盖面如果承认以上我把汉语表述方式分为“描述方式”和“提示方式”的说法是正确的,就可以得出推论: 至少在受限汉语、或者为人与计算机交流而设计的自然语言子集的范围内 决不要企图设计或者归纳出既能够描述描述句,又能够描述提示句的汉语语法。汉语语法只要能够覆盖描述句即可。否则,归纳出来的汉语语法一定是系统性很差,例外情况很多,起不到语法应有的规范作用。例如,如果把“去是对的。”“不去是对的。 ”看成是未被省略的正规语句,那么在制定出来的汉语语法里,除了体词之外,像动词、形容词这些用来规定体词的属性,或者它们之间关系的属于“谓词”范畴的词类也要被允许去充当主语。极而言之,如果在一

25、个语法里,什么都是允许的,那么这种“法”就没有任何用处了。听说有关部门曾经委托一些专家拟定一套可以正式颁布的汉语语法,但是至今没有成功,其原因是否就在这里?计算机要怎样才算理解了一句汉语句子?对于这个问题似乎已经有好多种说法,例如:如果计算机能够正确产生该语句的句法树。如果计算机能够正确地将该语句翻译成另一种语言。等等就算理解了这句句子。根据我们当前的任务,提出如下的具体要求:1. 计算机能够正确地分词。2. 对于分出来的每一个词,如果是通用的词,计算机都能在机器词典中找到该词的解释和属性。如果是多义词,则通过上下文或者与用户对话确定采用其中某一义项。如果是人名之类的专用词,则通过与用户对话了

26、解其属性。3. 区分出代表实体的体词,通过谓词、虚词弄清楚诸体词之间的关系。计算机和人在理解自然语言方面存在的差别由于自然汉语大量使用简略的“提示方式”,要理解一般使用汉语写出的文章,读者至少需要 要使计算机能够理解自然汉语,计算机至少需要具有小学毕业生拥有的社会生活常识和自然科学知识。 具有使用以上常识来把“提示句”转换为“描述句”的能力。 如果“提示方式”使用了对话者双方当时所处的环境,由于计算机现在还不具备类似人类的感官及相关的信息处理能力,这样的语句是计算机无法理解的。即便是在小说中,要计算机根据上文来想象当时的环境,也是极其困难的。目前计算机的水平还达不到这一要求;起码从经济的角度,

27、作不到这一点。因此,原则上不可能要求计算机处理“提示句”的语义。所以,为了使计算机能够理解自然汉语, 一个首先要解决的问题就是:如何把我们日常使用的“提示句”形式改造成为较为完备的“描述句”形式。在当前,这只能利用人们书写文章时的机会,借助软件通过人机对话把原先被省略掉的成份补充回去才行。如果某人在撰写一篇准备让计算机理解的文章时,写出了本文前面所举的例子,计算机在完成“分词”的工作,并得到作者的认可之后, 如果发现其中有“东西”,“打败”,“大败”,“地下”, ,之类的多义词,就要通过对话明确作者心目中的确切义项。 如果发现在主语、宾语这类要求“体词”的位置上出现了“谓词”,就要求作者改写。

28、例如:把“去是对的。” 改为“去的决定 是对的”。 如果发现“体词串接”现象,在语句中找不到说明它们之间关系的“谓词”,就要求作者填入能够具体说明它们之间关系的“谓词”。例如:把“鲁讯回忆录” 改为“ 关于鲁讯的回忆录”。结论: “追求简略”与“追求详尽”的矛盾是推动语言发展的动力。汉语的传统是强调简略,因此语言的理解过程要更多地依赖语境和说写方与读听方的共同知识。 在汉语中,区分“描述句”与“提示句”并以不同的态度加以对待是必要的。 汉语语法只能,也只需要覆盖“描述句”的构造规则。 在当前只能要求计算机理解以“描述句”表达的汉语。为了把我们日常使“提示句”形式”改造成为较为完备的“描述句”形式。在当前,只能利用人们书写文章时的机会,借助软件通过人机对话把原先被省略掉的成份补充回去。 当然,“省略”与“完备”都是相对的概念。简略与详尽的矛盾可以说是推动语言发展的动力。在甚么地方折衷,要看语言的接收方所处环境以及智力与知识水平。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报