1、Artificial Intelligence (AI) 人工智能,第十章:自然语言理解,Agent,Agent的定义定义1 社会中某个个体经过协商后可求得问题的解,这个个体就是agent.(明斯基,1986年) 定义2 是一种通过传感器知其环境,并通过执行器作用于该环境的实体,因此,可以把真体定义为一种从感知序列到实体动作的映射。(Russell and Norving,1995) 定义3 是一种具有智能的实体。,2. Agent 的译法 建议把agent译为“(艾)真体”的理由: (1)Agent是一种通过传感器感知其环境,并通过执行器作用于该环境的实体。 这个“实体”也可叫做“真体”。因
2、此,可以把真体定义为一种从感知序列到实体动作的映射。 (2)译为“主体”可能是考虑到agent具有自主性。但交互性、协调性、社会性、适应性和分布性等不可能在译名上全部反映出来,因而是片面的。 (3)译为“代理”是受到社会科学和管理科学的影响。也不能表示出agent的原义。 (4)音译不失为一种可取方法。 (5)有一定的物理意义。,Agent,Agent与环境的交互作用,Agent,1. 真体的要素 真体必须利用知识修改其内部状态(心理状态),以适应环境变化和协作求解的需要。真体的行动受其心理状态驱动。人类心理状态的要素有认知(信念、知识、学习等)、情感(愿望、兴趣、爱好等)和意向(意图、目标、
3、规划和承诺等)三种。着重研究信念(belief)、愿望(desire)和意图(intention)的关系及其形式化描述,力图建立真体的BDI(信念、愿望和意图)模型,已成为真体理论模型研究的主要方向。,Agent,2. 真体的特性 行为自主性 能够控制自身行为,其行为是主动的、自发的/有目标和意图的,并能根据目标和环境要求对短期行为做出规划。 作用交互性 能够与环境交互作用,能够感知其所处环境,并借助自己的行为结果,对环境做出适当反应。 环境协调性 真体存在于一定的环境中,感知环境的状态、事件和特征,并通过其动作和行为影响环境,与环境保持协调。环境和真体互相依存,互相作用。 面向目标性 真体能
4、够表现出某种目标指导下的行为,为实现其内在目标而采取主动行为。 存在社会性 真体存在于由多个真体构成的社会环境中,与其它真体交换信息、交互作用和通讯。各真体通过社会承诺,进行社会推理,实现社会意向和目标。,Agent,工作协调性 各真体合作和协调工作,求解单个真体无法处理的问题,提高处理问题的能力。 运行持续性 真体的程序在起动后,能够在相当长的一段时间内维持运行状态,不随运算的停止而立即结束运行。 系统适应性 真体不仅能够感知环境,对环境做出反应,而且能够把新建立的真体集成到系统中而无需对原有的多真体系统进行重新设计,因而具有很强的适应性和可扩展性。 结构分布性 在物理上或逻辑上分布和异构的
5、实体(或真体),如主动数据库、知识库、控制器和执行器等,在多真体系统中具有分布式结构,便于技术集成、资源共享、性能优化和系统整合。 功能智能性 真体强调理性作用,可作为描述机器智能、动物智能和人类智能的统一模型。,Agent,自然语言理解,Natural Language Understanding 俗称人机对话。,研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。,自然语言理解,这一领域的研究涉及自然语言,即人们日常使用的
6、语言,包括中文、英文、俄文、日文、德文、法文等等,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。,自然语言理解,实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义(即自然语言理解),也能以自然语言文本来表达给定的意图、思想等(即自然语言生成)。,无论实现自然语言理解,还是自然语言生成,都远不如人们原来想象的那么简单,而是十分困难的。从目前的理论和技术现状看,通用的、高质量的自然语言处理系统,仍然是较长期的努力目标,但是针对一定应用,具有相当自然语言处理能力的实用系统
7、已经出现,有些已商品化,甚至开始产业化。典型的例子有:各种数据库和专家系统的自然语言接口、各种机器翻译系统、全文信息检索系统、自动文摘系统等。,自然语言理解,自然语言处理,即实现人机间自然语言通信,或实现自然语言理解和自然语言生成是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性(ambiguity)。,自然语言理解,一个中文文本从形式上看是由汉字(包括标点符号等)组成的一个字符串。由字可组成词,由词可组成词组,由词组可组成句子,进而由一些句子组成段、节、章、篇。无论在上述的各种层次:字(符)、词、词组、句子、段,还是在下一层次向上一层次转变中都
8、存在着歧义和多义现象,即形式上一样的一段字符串,在不同的场景或不同的语境下,可以理解成不同的词串、词组串等,并有不同的意义。,自然语言理解,一般情况下,它们中的大多数都是可以根据相应的语境和场景的规定而得到解决的。也就是说,从总体上说,并不存在歧义。这也就是我们平时并不感到自然语言歧义,和能用自然语言进行正确交流的原因。但是一方面,我们也看到,为了消解歧义,是需要极其大量的知识和进行推理的。如何将这些知识较完整地加以收集和整理出来;又如何找到合适的形式,将它们存入计算机系统中去;以及如何有效地利用它们来消除歧义,都是工作量极大且十分困难的工作。这不是少数人短时期内可以完成的,还有待长期的、系统
9、的工作。,自然语言理解,存在问题一方面,迄今为止的语法都限于分析一个孤立的句子,上下文关系和谈话环境对本句的约束和影响还缺乏系统的研究,因此分析歧义、词语省略、代词所指、同一句话在不同场合或由不同的人说出来所具有的不同含义等问题,尚无明确规律可循。,自然语言理解,另一方面,人理解一个句子不是单凭语法,还运用了大量的有关知识,包括生活知识和专门知识,这些知识无法全部贮存在计算机里。因此一个书面理解系统只能建立在有限的词汇、句型和特定的主题范围内。,自然语言理解,用自然语言与计算机进行通信,这是人们长期以来所追求的。因为它既有明显的实际意义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使用
10、计算机,而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类的语言能力和智能的机制。,从微观上讲,语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。 从宏观上看,语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:回答有关提问;提取材料摘要;不同词语叙述;不同语言翻译。,自然语言理解,怎样才算理解了语言呢? 归纳起来主要有以下几个方面: 既能够理解句子的正确词序规则和概念,又能理解不合规则的句子 知道词的确切含义、形式、词类及构词法 了解词的语义分类以及词的多义性和歧义性 指定、不定特性及所有(隶属)特性 问题领域的结构知识和时间
11、概念 语言的语气信息和韵律表现 有关语言表达形式的文学知识 论域的背景知识,自然语言理解,1. 自然语言理解的研究领域和方向 文字识别 语音识别 机器翻译 自动文摘 句法分析 文本分类,自然语言理解,信息检索 信息获取 信息过滤 自然语言生成 中文自动分词 语音合成 问答系统,自然语言理解,自然语言理解研究进展,机器翻译是自然语言理解最早的研究领域。 70年代初期,对语言理解对话系统的研究取得进展。 80年代,自然语言理解的应用研究广泛开展,机器学习研究又十分活跃。 自然语言理解的研究为专家系统的知识获取提供了新的途径。 自然语言理解的研究已促进计算机辅助语言教学(CALI)和计算机语言设计(
12、CLD)等的发展。,文本的自动翻译机器翻译,1. 原文输入 由于计算机只能接受二进制数字,所以字母和符号必须按照一定的编码法转换成二进制数字。 2. 原文分析 原文分析包括两个阶段:查词典和语法分析。 查词典。通过查词典,给出词或词组的译文代码和语法信息,为以后的语法分析及译文的输出提供条件。 语法分析。在词典加工之后,输入句就进入语法分析阶段。语法分析的任务是:进一步明确某些词的形态特征;切分句子;找出词与词之间句法上的联系,同时得出英汉语的中介成分。一句话,为下一步译文综合做好充分准备。,3. 译文综合 译文综合比较简单,事实上它的一部分工作(如该调整哪些成份和调整到什么地方)在上一阶段已经完成。这一阶段的任务主要是把应该移位的成分调动一下。 译文综合的第二个任务是修辞加工,即根据修辞的要求增补或删掉一些词 译文综合的第三个任务是查汉文词典,根据译文代码(实际是汉文词典中汉文词的顺序号)找出汉字的代码。 4. 译文输出 通过汉字输出装置将汉字代码转换成文字,打印出译文来。,