收藏 分享(赏)

傅小兰:人的数据理解-中国科学院认知神经科学国际学术研讨会.ppt

上传人:暖洋洋 文档编号:1630297 上传时间:2018-08-13 格式:PPT 页数:68 大小:579KB
下载 相关 举报
傅小兰:人的数据理解-中国科学院认知神经科学国际学术研讨会.ppt_第1页
第1页 / 共68页
傅小兰:人的数据理解-中国科学院认知神经科学国际学术研讨会.ppt_第2页
第2页 / 共68页
傅小兰:人的数据理解-中国科学院认知神经科学国际学术研讨会.ppt_第3页
第3页 / 共68页
傅小兰:人的数据理解-中国科学院认知神经科学国际学术研讨会.ppt_第4页
第4页 / 共68页
傅小兰:人的数据理解-中国科学院认知神经科学国际学术研讨会.ppt_第5页
第5页 / 共68页
点击查看更多>>
资源描述

1、中国科学院认知神经科学 国际学术研讨会,人的数据理解 傅 小 兰中国科学院心理研究所,报告提纲,研究项目 研究假设 研究思路研究举例,报告提纲,研究项目:人的数据理解 研究假设研究思路研究举例,符号(symbol):任何一个能和其它模式相区别的模式 数据(data):符号的集合 信息(information):有用的数据 关联信息:若干单个事件相关联的信息 聚类信息:对数据进行聚类 分类信息:进行分类的特性描述 偏差信息:反映异常情况 预测信息:基于现有的数据建模,计算未来值 知识(knowledge):反映事物间的内在联系的信息 隐知识:无法用语言文字描述 显知识:可用语言文字描述,符号、数

2、据、信息、知识,数据库中的知识发现(Knowledge Discovery in Database):KDD是在数据中鉴别出有用的模式的非平凡过程,该模式是新的,可能有用的和最终可理解的。(Fayyad et al, 1996) 数据挖掘(Data Mining):数据挖掘是在数据库中寻找数据中的模式,再根据这些模式找出相应的规律。,KDD 与 DM,KDD处理过程,数据准备数据集成数据选择数据预处理数据挖掘产生假设:发现型,验证型选择合适的工具挖掘知识的操作证实发现的知识结果表述和解释,数据挖掘的应用领域 数据挖掘在政府管理决策、商业经营、科学研究和工业企业决策支持等各个领域都发挥着巨大作用

3、,基因组表达寻找暗物质万维网(WWW) 数据挖掘侦测商业的欺诈行为客户信誉分析预测顾客的购买行为预测销售额和决定库存量预测机器故障估计系统潜在的安全漏洞,预测股票证券价格的变化估计军事装备转移的成本预测资源的消耗评估军事战略传染病控制医疗诊断航空公司航线的设置公司评估部门和员工业绩,数据挖掘研究的现状与趋势,数据挖掘是目前国际上数据库和信息决策领域的最前沿研究方向之一。 数据挖掘研究中,海量数据(107-9)的分析与理解是应用驱动的、将在今后十年中对计算机科学与技术产生重大影响的前沿问题。 数据挖掘研究中,人的数据理解是最具有智能性也最富有挑战性的科学问题。,因为大家关心的是海量数据(107-

4、9)算法技术,若考虑人的因素专家知识人机交互信息可视化,在数据挖掘研究中 为什么别人不研究人的数据理解?,人的数据理解,主要研究目标 揭示人在复杂信息环境中获取、处理、理解信息的基本认知操作、一般规律及其影响因素; 验证基于数据挖掘理论所建立的数学模型对人的心理现象的解释能力。 主要研究内容 人在觉察、获取、处理、理解外界客观信息过程中的基本认知加工操作以及所采用的策略; 信息的不同载体形式(文字、图形、实例等)及其组织方式对人的知识获取(发现)过程和效果的影响。 拟解决的关键科学问题 人在复杂信息环境中获取、处理、理解信息的基本认知操作是什么?存在怎样的一般规律?有哪些影响因素?,研究意义

5、理论意义:促进对人的智能本质的理解。 深化对人的知识获取(发现)过程及其机制的理解; 提出新的知识表征理论。 应用价值:对计算机科学与技术产生重大影响。 直接应用于指导数据挖掘的计算机数据理解方面的研究; 直接应用于指导数据挖掘原型系统的设计,指导数据挖掘算法的研制、改进和集成。 研究途径 采用数据挖掘研究中的理论与算法建模,并在此基础上设计和实施心理学实验 考察基于数据挖掘理论所建立的数学模型对人的心理现象的解释能力; 验证根据心理学实验结果提出的理论解释,并对提出的心理学理论给出精确和形式化的说明。,报告提纲,研究项目:人的数据理解 研究假设:表征、加工、控制研究思路研究举例,认知研究的两

6、种主要取向,信息加工取向(information-processing approach) 计算机隐喻(computer metaphor):心智像计算机一样工作。 强调认知过程的抽象的串行的分析,这些过程对信息进行操作,使之符合我们当前的目标。 认知过程等于心理程序,因此,应当建立心理过程的计算机模型(计算机程序)。 联结主义取向(connectionist approach) 脑的隐喻(brain metaphor):心智像脑一样工作。 强调基于神经元的平行加工的观点,认知系统不能被分成各个部分,神经元间没有典型的等级联系。 在每个认知行为中,神经和认知系统作为整体单元起作用,因此,研究重

7、视神经和数学基础。,人脑是个黑箱,人类信息加工系统,感觉 系统,眼前目标,工作记忆,中央加工器 注意,长时记忆,陈述性知识,程序性知识,概念,语义知识 情景知识 世界知识,语言学 知识,技能,推理 和 问题解决,模式识别,反应:心理的言语的身体的,环境,一个大黑箱变为一群小黑箱,核心概念,表征(representation)加工(process) 控制(control),基本假设,认知活动的整体观表征的复杂性和变化性加工的简单性和程序性 控制的有效性和灵活性其他:动机、情感、个性,表征的复杂性和变化性,表征的复杂性 表征内容的复杂性 表征形式的复杂性 表征通道的复杂性 表征的变化性 从外界环境

8、拾取的信息导致的表征变化 从长时记忆提取的信息导致的表征变化 在工作记忆进行的加工导致的表征变化,加工的简单性和程序性,加工的简单性 简单的基本加工操作 简单的基本加工过程 特定的神经活动模式(生物电的和生物化学的) 加工的程序性 方向:自上而下加工,自下而上加工 时间:串行加工,并行加工 空间:通道加工,模块化加工,特征检测器与功能柱,并行分布处理(群编码),控制的有效性和灵活性,控制的有效性 计划的有效性 调节的有效性 监督的有效性 控制的灵活性 决策的灵活性:计划的产生与选择 策略的灵活性:计划的执行 标准的灵活性:计划的评估,三者的关系,三者的关系,报告提纲,研究项目:人的数据理解 研

9、究假设:表征、加工、控制研究思路:框架、内容、方法研究举例,研究框架,建模方法,心理学理论,数据挖掘算法理论粗糙集理论,云理论等,人的数据理解模型,心理学 实验验证,计算机 模拟,实验数据反应时,正确率,错误模式,口语记录等,数据挖掘的方法与技术举例,信息论方法:ID3方法,IBLE方法集合论方法:粗糙集方法,概念树方法,覆盖正例、排斥反例方法仿生物技术:神经网络方法,遗传算法公式发现:BACON系统,FDD系统统计分析方法:相关与回归分析,差异分析,因素分析,聚类分析,判别分析其他:模糊论方法,可视化技术,心理学理论,知觉理论 直接知觉理论 主动知觉理论 记忆理论 多功能系统理论 工作记忆理

10、论 概念结构理论 基于相似性的理论 基于解释的理论 分布式认知理论,报告提纲,研究项目:人的数据理解 研究假设:表征与加工 研究思路:框架、内容、方法研究举例,问题表征与解决策略,傅小兰,具体研究例1,独立钻石棋,独立钻石棋问题,实验,实验方法 44名被试,每人解决问题五次 出声思维 实验结果 被试使用了三种策略 知觉指引策略 选择性搜索策略 计划简化策略 对使用不同策略解决问题的剩棋子数进行统计检验,结果表明,使用“知觉指引策略”、 “选择性搜索策略”和“计划简化策略”解决独粒钻石棋问题的有效性依秩递增。,“知觉指引策略”,被试下棋中选择棋子移动无计划,主要基于当时对问题情境的知觉结果,即看

11、出哪个棋子能动就移动哪个棋子。 口语记录多是:“先试试”、“车到山前必有路”和“走一步看一步”等。,“选择性搜索策略”,被试的口语记录包括“先把最角上的棋子去掉”,“要往中间走”和“怎么把边缘的移到中间去?”等。 考虑到问题解决的最佳结果是剩一枚棋子在棋盘正中心位置,把棋子往棋盘中部集中是有道理的。,“计划简化策略”,被试的口语记录中有这样的表述,“怎么千方百计使这4个角一个一个使它空出来”和“上面一个一个角消灭掉了,这么消灭的话没注意中间的”等。 被试将棋盘的4个边角上的棋子一块接一块地清除,表现出明显的计划性,这样,也就能保证剩下的棋子都集中在中部。,在五次尝试中,使用“知觉指引策略”的人

12、数逐次减少,而使用“选择性搜索策略”和“计划简化策略”的人数呈上升趋势。,五次尝试中使用三种策略的人数,计算机模拟,通过对棋子赋予不同权重值的方法,我们形象直观地模拟了使用不同策略的被试对问题结构的不同认识及对问题的不同表征。 权重的具体值并不重要,实际起作用的是权重值的相对大小,在操作中权重值大的棋子总是比权重值小的棋子优先处理,即应先吃掉。,三种策略对应的棋子权重赋值,模拟结果,使用同一个模拟人的基本认知操作过程的计算机模型,用图2所示的三种方式对棋子赋予权重(模拟人的三种问题表征),我们成功地模拟了人类被试使用三种策略解决独粒钻石棋问题的搜索路径和剩子情况(Fu,1995)。,结 论,对

13、问题的三种不同表征反映了被试对问题结构达到的三种不同认识水平,并决定了被试解决问题使用的策略; 被试使用的三种策略具有不同程度的选择性和解决问题的有效性; 使用不同策略解决问题的基本认知操作过程可能基本相同。Fu, X. L. (1995). Problem representation and solution strategies in Solitaire Chess. European Journal of Cognitive Psychology, 7(3), 261-281.,异同比较中的序列效应,禤宇明 傅小兰,具体研究例2,异同比较 Same-different comparis

14、on,异同比较 一种基本的认知活动 一种常用的实验室任务 基本范式 先后或同时呈现两个刺激,要求被试按某个标准判断两个刺激是否相同,并做相应的按键反应,记录指标主要是反应时,文献综述,物理相同和名义相同 Physical Identity & Nominal Identity,物理相同:两个刺激物理上完全等同 名义相同:两个刺激在相关维度上属性相同 同形状,文献综述,实验结果总结,总讨论,结 论,异同比较中存在以下序列效应: 刺激对重复效应,即当前刺激对重复前一尝试的刺激对时的反应快于不重复时的反应。刺激对重复对同反应的影响大于对异反应的影响。 同反应启动效应,即同反应后的反应快于异反应后的反

15、应。该效应反映了异同比较的双过程加工机制。 维度转移代价效应,即对于异反应后的异反应,差异维度前后一致的反应快于前后不一致的反应。该效应反映了异同比较中注意的实时分配策略。,维度转移代价假设,对多维刺激的异判断基于维度分析 差异维度包含有作出正确判断的充分信息,因此差异维度为注意维度 差异维度前后一致的异反应快于前后不一致的异反应1 2 差异维度前后一致3 差异维度前后不一致,研究三,前后尝试间的关系,实验4、5的实验材料,实验4基本刺激 同刺激对 4对 异刺激对 形状不同 4对 颜色不同 4对 实验5基本刺激 同刺激对 9对 异刺激对 形状不同 18对 颜色不同 18对,研究三,维度转移代价

16、效应,差异维度前后一致的异反应快于前后不一致的异反应,实验6的实验材料,基本刺激:眉眼嘴(333),研究四,实验6的维度转移代价效应,研究四,实验6a 实验6b,讨论:维度转移代价效应,反映了异同比较任务本身的要求,反映一种实时的注意分配策略 同时的刺激输入在视觉皮层上的表征是彼此竞争的 颜色、形状由不同脑区来加工,或者选择机制相互竞争(Desimone & Duncan,1995;Humphreys & Boucart,1993) 注意在视野中的转移比较困难,只能持续集中于视野的某一局部(Erikson et al.,1985) 差异维度转移注意维度转移,总讨论,信息表征形式对解决 贝叶斯推

17、理问题的影响,赵晓东 傅小兰,具体研究例3,标准概率格式的贝叶斯推理,一个例子接受常规检查的超过40岁的妇女患乳癌的概率是1%。如果一个妇女患有乳癌,那么她在乳房照影法中呈阳性反应的概率是80%。一个妇女没有得乳癌,那么她在乳房照影法中也呈阳性反应的概率是9.6%。一个这一年龄组的妇女在常规检查中的乳房照影法呈阳性反应。问:她确实患有乳癌的概率是多少? % 计算公式p (H | E) = p (H) p (E | H) / p (H) p (E | H) + p (-H) p ( E | -H) = 0.01*0.80/ (0.01*0.80 + 0.99 * 0.096) = 0.078,频

18、率格式的贝叶斯推理,一个例子设想有一个上了年纪、经验丰富的医生,身处一个文盲社会中。她既没有书籍,也无法进行统计调查,因而必须仅仅依赖她的经验。她的患者中有人被一种以前不为人知的烈性疾病所感染。幸运的是,这个医生发现有一种症状能够表征这种疾病,尽管不是很确定。在她的行医史中,她见过1000个患者,其中有10个人患有这种疾病。在这10个人中,有8个显现出这种症状。另外990个人没有感染这种疾病,而有95人也表现出这种症状。现在有一个新的患者来了,他有这种症状。问:他实际患有这种疾病的可能性有多大? 计算公式p (H | E) = e&h / (e&h + e&-h)= 8 / (8 + 95)=

19、0.078,问题形式,问题 设想小明现在接受了检查。那么在总数为100次的机会中,小明的检查结果呈阳性的机会是 次,而他感染疾病的机会是 次。 (两步几率) 设想有一组人接受了检查,可以预期,在100人的群体中,将有 人的检查结果呈阳性,其中有 人感染了疾病。 (两步频率) 如果小明的检查结果呈阳性,那么他感染疾病的机会是 / 。 (一步几率) 在100个接受检查并且结果呈阳性的人中,感染疾病的人所占的比例等于 / 。 (一步频率),信息结构,题干 参加检查的某人有4/100的机会感染疾病;有感染疾病机会的4人中有3人的检查结果呈阳性;在剩下的没有感染疾病机会的96人中,有24人的检查结果也呈

20、阳性。 (分割的) 参加检查的某人有4/100的机会感染疾病;有感染疾病机会的100人中有75人的检查结果呈阳性;没有感染疾病机会的100人中,有25人的检查结果也呈阳性。(未分割的) 提问 设想小明现在接受了检查。那么在总数为100次的机会中,小明的检查结果呈阳性的机会是 次,而他感染疾病的机会是 次。,辅助图,结果,结 论,频率形式明显优于几率形式; 两步问题形式并不能改进被试解决贝叶斯推理问题的成绩,甚至在某些情况下还会困扰被试做出正确的回答,一步问题形式有时优于两步问题形式; 分割的信息结构有利于被试理解贝叶斯推理问题,提高了被试解决贝叶斯推理问题的成绩; 结构图形式的图形辅助表征能显著提高被试解决贝叶斯推理问题的成绩,而条形图和饼图形式的效果不十分明显。 采用频率格式的、一步问题形式的、具有分割结构的、有结构图辅助的外部表征方式,可以使80%左右的中国大学生被试得到贝叶斯推理问题的正确答案。,报告提纲,研究项目:人的数据理解 研究假设:表征、加工、控制研究思路:框架、内容、方法研究举例,基本假设,认知活动的整体观表征的复杂性和变化性加工的简单性和程序性 控制的有效性和灵活性其他:动机、情感、个性,三者的关系,建模方法,心理学理论,数据挖掘算法理论粗糙集理论,云理论等,人的数据理解模型,心理学 实验验证,计算机 模拟,实验数据反应时,正确率,错误模式,口语记录等,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 专业基础教材

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报