收藏 分享(赏)

企业内部文档智能语义搜索方案.doc

上传人:tangtianxu1 文档编号:3040997 上传时间:2018-10-02 格式:DOC 页数:11 大小:1.17MB
下载 相关 举报
企业内部文档智能语义搜索方案.doc_第1页
第1页 / 共11页
企业内部文档智能语义搜索方案.doc_第2页
第2页 / 共11页
企业内部文档智能语义搜索方案.doc_第3页
第3页 / 共11页
企业内部文档智能语义搜索方案.doc_第4页
第4页 / 共11页
企业内部文档智能语义搜索方案.doc_第5页
第5页 / 共11页
点击查看更多>>
资源描述

1、1企业内部文档智能语义搜索方案1. 背景和意义近年来,企业文档管理和检索方式经历了分门别类管理,数字信息化管理和全文搜索引擎三大阶段,使得企业利用文档信息的效率不断提高。但是随着信息化程度的不断提高,尤其是大数据数字浪潮的思维深入发展的背景下,目前信息化企业文档管理以及基于关键词的全文检索技术仍旧存在诸多的短板和问题,影响了企业自身知识利用价值的实际落地应用,目前基于关键词检索的搜索技术存在信息丢失、返回信息太多、信息无关等局限性,主要症结体现在如下方面:1. 基于关键词的检索,对于绝大部分人来说存在一定的应用门槛,如何选取适当的关键词来找到需要的信息,需要具备一定的搜索技巧和对业务问题的清晰

2、认识。更多的时候,简单的关键词搜索返回的命中信息太多,还是需要人工阅读筛选真正有价值的内容。2. 普通全文检索缺少真实世界的关联性,联想和类比是人类智慧过程的两种重要方法。在普通全文检索中,用户获得的还是碎片化的信息,最终依然需要进行大量的细致阅读和人工整理过程,从而形成对查询问题的认识。需要更智能的信息化方法,帮助人工建立关联分析体系,提高知识服务效能。3. 在海量的企业文档信息中,存在大量的隐性信息,这些隐性信息作为信息单元本身可能价值较低,也不好加以利用,或者虽然有价值,但是挖掘代价高,理解难度大。因此长期以来,在企业文档管理中,得到大量应用的都是那些显性信息。如何利用好隐性信息,让企业

3、的知识得到最大化的再利用,产生新的源源不断的价值,是大数据的核心体现。面向企业文档管理现有信息化方案的不足和需求,本方案拟以自然语言理解与人工智能技术为基础,基于 SaCaDeepConig 知识服务平台产品实现文档2管理中的智能语义搜索,对搜索结果进行更精确的知识挖掘,建立碎片信息间的分类体系与语义关联,发现利用隐性信息。为企业提供更加有效的知识管理服务系统。2. 企业文档搜索方案功能特性2.1 语义搜索普通基于关键词匹配的全文搜索并不具备语义理解的功能。比如在全文搜索引擎中输入“计算机”为关键词,在返回结果中不会包含只有“电脑”这种表述的文档资料。在实际应用中,存在大量的同义词和近义词。通

4、过DeepCogni 的语义扩展算法可以搜索到被搜索词扩展之后的相关内容。例如搜索“java 读文件 ”时,通过语义扩展可以搜索到“ java 读取文件” 、 “java 读写文件” “java 文件读写操作”等内容。图 1 相关词分析基于语义的搜索引擎使搜索引擎的工作不再拘泥于用户输入的关键词,而是能够对这些关键词进行语义计算。通过在语义的层面上把文档中关键词和其映射的概念进行关联,对文档信息所蕴含的语义信息进行充分挖掘,同时把用户的检索要求转换成相应的语义表示。借助语义搜索功能,企业人员在检索文档文件时,不再会精挑细选关键词组合,只需要准确表达自己的含义,相关的信息词汇,系统进行智能扩充,

5、查3询所有符合用户语义期待的命中结果。图 2 基于内容的搜索关键词扩展和智能提示2.2 关联发现通过对文档资料进行语义标注,形成语义相似度聚类特征、业务概念和业务事件三类对文档的语义标注,以语义标注为线索,可以组织文档间的多种关联关系。在用户检索查阅文档文件时,提供语义相关,概念相关和事件相关的文档检索相关列表,供用户比对查阅,帮助用户形成网络化的综合分析环境,协助对隐性知识的发现和整理,有助于形成新的发现。4图 3 文件的复杂关联如某业务员在查阅本部门之前的项目文档,进行经验总结,检索系统通过事件关联,发现与项目事件互有影响的其他项目文档;通过概念关联,发现与本项目共享资源的其他技术文档;通

6、过语义相似性分类标签,发现其他部门实施的类似项目。从而帮助业务员更加全面的获取了相关的经验知识,有助于从归档知识中产生新的价值。2.3 智能推荐文档语义搜索引擎,通过用户搜索记录和业务资料的语义特征,计算用户行为画像,形成用户的兴趣图谱,将用户关心的分类、概念和事件关联的文档相关度提升,使得用户更容易获得自己感兴趣的文档检索内容。用户使用文档智能搜索的频次越多,历史越丰富,系统能够越好的理解用户的查询意图,熟悉用户的使用习惯。从而非用户提供更加准确的检索服务。52.4 自然语言交互图 4 自然语言交互取代高级搜索用户检索文档不仅仅可以通过关键词或分类进行检索,也可以通过普通的自然对话形式进行文

7、档检索,语义引擎根据用户输入内容,通过语义计算,给出匹配度最高的知识答案,和文档资料搜索结果。实现更高效的知识管理服务结果。自然语言查询使得检索和搜索更加人性化,信息查询变得更加方便、快速。如图 4 用户查询,2017 年上半年本部门实施的建设项目都有哪些。系统通过语义理解可以给出 2017 年上半年的建设项目名称列表和相关文档资料链接列表。而不需用户通过高级搜索接口逐项定义。2.5 结构化查询功能对于企业文档搜索,在越来越多的搜索场景中需要类似于 SQL 的结构化查询,比如预先构建搜索文档的作者,机构,领域或者创作时间等等信息,用户搜索时可以通过鼠标点选的非键盘输入方式来选定搜索范围以及排序

8、策略。在一些专业领域甚至可以通过搜索引擎引入一些简单计算来帮助用户搜索到精确结果,比如在医疗领域,医生想要搜索到肿物大于某个限定大小的肿瘤病例。6图 5 病例搜索中结构化查询实例2.6 搜索频道分类企业中文档数量众多,在用户对搜索内容有一定了解的前提下,查找指定内容时,如果可以让用户人工指定频道分类,那么就可以帮助用户获得更加精确的搜索结果。DeepCogni 语义搜索引擎可以帮助用户构建面向搜索的频道分类,并且对于没有分类信息的文档可以利用 DeepCogni 知识服务平台中的高质量分类模块帮助企业构建文档频道分类信息。图 6 DeepCogni 语义搜索引擎的频道分类信息72.7 搜索权限

9、管理对于大型企事业单位,庞大的组织架构以及规范的等级制度能保证组织的顺利运作。而对于组织内的文档来说,不同职位的员工可以查看的范围也是不同的。因此,组织内的搜索服务同样应该通过完善的搜索权限来进行管理。DeepCogni 语义搜索引擎拥有完善的权限管理体系,可以自己构建用户管理模块,也可以直接复用已经存在公司自己 OA 等管理系统的用户体系。图 7 DeepCogni 语义搜索引擎的权限管理流程图2.8 敏感词过滤在一些特定的搜索引擎中,敏感词过滤作为特定组件,对整个搜索引擎服务起着敏感信息过滤和不良信息监控的作用。DeepCogni 知识服务平台中的敏感词识别模块已经在媒体行业得到广泛认可。

10、模块通过独立研发的计算式过滤算法可以快速准确的识别各类敏感词以及敏感词变种。敏感词识别模块可以作为可选插件形式被集成到语义搜索引擎服务中。83 技术解决方案3.1 搜索引擎服务流程9DeepCogni 语义搜索引擎由搜索 API、核心引擎、可选插件、开源引擎项目以及数据来源 5 个部分组成。搜索 API 中包括主搜索接口、下拉列表接口、推荐搜索接口、智能提示接口、结构化搜索接口以及频道搜索接口 6 个接口组成。接口服务可以按照实际业务系统需求进行配置,各个接口之间耦合度极低,可以随意搭配接口组合满足业务需要。核心引擎中包括 NLP 模型、频道管理、语义搜索、排序策略、关联发现、白名单设置、权限

11、管理、结构化索引、智能推荐、输入提示、输入纠错、增量加载,总共 12 个功能点。在一般企事业的搜索场景中,当前核心引擎中的模块可以满足 99%的业务需求,并且搜索服务可以保证在多功能点同时运转的过程中也能做到毫秒级的应答以及足够的并发。如果客户除此之外还对搜索服务有特殊要求,可以定制开发。可选插件中包括敏感词识别、文章分类、统计分析、语义标注、热点发现、热词分析等模块。所有可选插件功能都是 DeepCogni 知识服务平台中的功能特性,可以保证和 DeepCogni 语义搜索引擎的无缝对接,并且这些功能点都在实际的业务场景中,性能和效果都得到了充分验证。开源引擎中,DeepCogni 语义搜索

12、引擎可以选用ElasticSearch、Solr、Lucene。可以根据业务的实际需求采用对应的开源框架。数据采集指的是 DeepCogni 语义搜索引擎可以接入的数据类型,包括爬虫爬取数据、网页、文档、Word 文档、PDF 文档等等。3.2 基于语义标注的数据加工应用自然语言理解技术,可以将信息检索由简单的关键词层面提高到基于知识或概念的层面,使得字符词语具备了语义,而这种能力主要通过语义标注来实现。基于语义的聚类分类文档聚类计算是通过对文档库中的文档进行处理后,针对文档的内容格式,10选择适当的降维计算模型,之后通过选择恰当的无监督机器学习聚类算法,在无样本标注的情况下对文档进行聚类计算

13、。之后客户可以根据聚类中的某一个文档的内容对该类的所有文档进行标签标注,或者由算法给出该聚类下的文档的主题词进行语义标签标注,以实现过滤,检索,分组等操作。基于语义的聚类分类是对文档分类管理的重要补充,突破了垂直业务单元对文档的分类管理,实现了语义上的广泛关联,有助于进行更好的综合分析与检索。概念标注抽取文档资源中概念,利用已有语料结合用户标注语料,对文档文档中的资料进行抽取,利用这些概念可以对资源进行标注、分类。形成文档核心概念关联实体的发现,方便形成当案件的关联分析。同时,进行概念标注后的文档资料,可以进行以概念为字段的高级检索,更加精准的对文档进行专业管理。事件抽取抽取文档资源中的业务相关事件,利用事件集形成文档的高度抽象概括,方便进行事件视角的文档关联管理,分析企业事件的因果与相关性。同时采用事件对文档进行标注,方便以事件为搜索接口,准确地对相关文档进行检索。3.3 平台产品技术支撑东软集团 SaCa.DeepCogni 知识服务平台产品:自然语言理解语义分析和知识管理服务技术,准确识别海量非结构化信息中蕴含的有效信息,深入提炼结构化分析。构建实体关联关系、事件时间趋势、事件结构化分布。从海量开放信息中挖掘背后的规律和线索11图 5 DeepCogni 平台产品主要功能

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 专业基础教材

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报