收藏 分享(赏)

自然语言处理及应用.pdf

上传人:weiwoduzun 文档编号:5700575 上传时间:2019-03-13 格式:PDF 页数:41 大小:1.95MB
下载 相关 举报
自然语言处理及应用.pdf_第1页
第1页 / 共41页
自然语言处理及应用.pdf_第2页
第2页 / 共41页
自然语言处理及应用.pdf_第3页
第3页 / 共41页
自然语言处理及应用.pdf_第4页
第4页 / 共41页
自然语言处理及应用.pdf_第5页
第5页 / 共41页
点击查看更多>>
资源描述

1、自然语言处理及其应用Applications of Natural Language Processing自动分词自然语言生成文本分类问答系统自然语言处理CONTENTS词 性 标 注02句 法 分 析03文 本 分 类05问 答 系 统07信 息 抽 取06NLP 工 具08自 动 分 词01语义角色标注04自 动 分 词Word Segmentation011 自 动 分 词歧义切分 未登陆词识别中文分词结婚 /的 /和 /尚 未 /结婚 /的 /人结婚 /的 /和尚 /未 /结婚 /的 /人新通用词或专业名词专有名词基于词典的方法 基于统计的方法 基于深度学习的方法 基于匹配判断的方法

2、最大匹配法( 正向 、 逆向 、 双向 ) 全切分路径选择 基于序列标注的方法 BMS表示法达观数据位是企业大数据服务商B M M E S B E B M E B M E达观数据 /是 /企业 /大数据 /服务商 HMM、 CRF模型 词向量预训练 CRF + BiLSTM网络词 性 标 注Part-of-Speech Tagging 022 词 性 标 注将句子中的各个词汇 标注 上在该句中的 正确词性判定词 在一定的 上下文环境 中所体现的 语法范畴 的过 程它作为自然语言理解能力的初步体现,在其基础上可以为后面更高层次的语言处理提供数据资料010203基 于 规 则 的 方 法基 于 统

3、 计 的 方 法基 于 无 监 督 学 习 的 方 法标注方法2 词 性 标 注基于统计的方法 HMM隐马尔科夫模型w1t1w2t2witiwntn 状态序列:词性序列观察序列:词序列(给定)(最佳)求解 五元组( S, V, , A, B) S:状态集合:词性集合 S (t1,t2 tn) V:输出集合:词汇集合 W(w1,w2 wn) 模型参数 ( , A, B) i: P(x1=ti) 词性 ti的初始概率 aij: P(tj|ti) 从词性 ti到词性 tj的转移概率 bjk: P(wk|tj)从词性 tj到词 wk的发射概率aijbjk2 词 性 标 注基于统计的方法 HMM隐马尔科

4、夫模型w1t1w2t2witiwntn 状态序列:词性序列观察序列:词序列(给定)(最佳)求解 11a r g m a x P , a r g m a x nB e s t i i i iiT T W P w t P t t aijbjk2 词 性 标 注基于统计的方法 CRF条件随机场模型t1 t2Wti tn 状态序列:词性序列观察序列:词序列(给定)(最佳)求解 qi(ti,w,i)fi(ti+1,ti,w,i)argmax = argmax 1 =11 +1, +=1 , 转移特征函数 f用于刻画相邻标记之间的相互关系以及现观测序列对他们的影响 状态函数 q用于刻画观测序列对标记变量的

5、影响2 词 性 标 注基于统计的方法 Viteribi算法 11a r g m a x P , a r g m a x nB e s t i i i iiT T W P w t P t t 2 词 性 标 注基于无监督学习的方法基于概率图模型的探索1 基于深度学习模型的探索2“Natural language processing (almost) from scratch”Collobert et. al. 2011基本流程输入:迭代次数 N,词典 D,已分词的生文本 T输出:文本 T的词性标注结果BEGIN用词典 D标注文本 T, 得到初始标注语料 T0For( t=0 to N)对语料

6、Tt训练 , 得到模型 Mt通过模型 Mt对语料重新标注 , 得到新的标注语料 Tt+1返回标注语料 Tt+1END2 词 性 标 注Deep Learning传统 词性标注方法的 特征抽取 过程主要是将固定 上下文窗口的词 进行 人工组合 , 而 深度学习方法 能够自动 利用非线性激活函数 完成这一目标结合 循环神经网络 , 如双向 LSTM,则抽取到的信息 不再受到固定窗口的约束 , 而是可以 考虑到整个句子词向量 作为 初始 输入 , 本身 已经刻画了词语之间的 相似度信息 ,进一步帮助提升词性标注结果句 法 分 析Syntactic Parsing033 句 法 分 析将句子从 词语的

7、序列 形式按照 某种语法体系 转化为 图结构,以刻画句子内部的句法关系用 词与词 之间的 支配与被支配 的关系来刻画 句子框架结构依存 句法基于规则的分析方法 基于统计的分析方法 基于深度学习的分析方法分 析 方 法3 句 法 分 析基于规则的分析方法代表算法:线图算法和左角分析算法两者结合的分析方法先构造句法树的叶节点 , 然后再逐步向上合并 , 直到根节点代表算法: CYK、 Early、 GLR等算法自底向上的分析方法是规则推导的过程 , 先构建句法树的根节点 , 再逐步向下扩展 , 直到叶节点自顶向下的分析方法基本思路 :由人工组织语法规则,建立语法知识库,通过条件约束和检查来实现句法

8、结构的歧义消除 。3 句 法 分 析基于统计的分析方法语法驱动数据驱动基于图的分析方法 由人工或者迭代方式 生成语法规则 , 是将训练数据中观察到各种 语言现象分布 以统计数据的方式与 语法规则一起进行编码 , 求解 最优概率的语法树结构 。 常见的算法有 PCFG算法 , 上下文依存概率模型 , 词汇化概率模型 不需要 特意 生成语法 , 分析结果是 按照训练集中的标识模式学习 得到 。 目前的 主流分析方法 。 从完全有向图中 寻找最大生成树的问题 一棵依存树的分值由构成依存树的几种子树的分值累加得到 基于图的方法通常采用 基于动态规划 的解码算法基于转移的分析方法 通过 一系列移进 、

9、规约等转移动作构建一棵依存句法树 , 学习的目标是 寻找最优动作序列3 句 法 分 析Deep Learning 以分布式向量表达作为输入 增强语义表达,改善数据稀疏问题,克服维数灾难Chen, et. al. 2014.” A Fast and Accurate Dependency Parser using Neural Networks” 优化设计特征设计与表达 使用多个 LSTM网络组合,无需进行人工特征组合和设计Dyer, et. al. 2015.“Transition-Based Dependency Parsing with Stack Long Short-Term Memo

10、ry” 使用双向 LSTM对词进行表示并作为分析系统的输入,减少核心特征数量Kiperwasser, et. al. 2016.”Simple and Accurate Dependency Parsing Using Bidirectional LSTM Feature Representations” 提高单词表达泛化性能 使用字符序列的双向 LSTM对词进行表示,克服低频词等表示不精确问题Ballesteros, et. al. 2015.”Improved Transition-Based Parsing by Modeling Characters instead of Words

11、with LSTMs” 优化搜索解码算法 利用柱搜索,考虑全局状态,优化转移动作序列Johansson, et. al. 2007.”Incremental Dependency Parsing Using Online Learning”Weiss, et. al. 2015.”Structured Training for Neural Network Transition-Based Parsing” 学习和解码过程一体化,求解完整转移动作序列的最大似然函数Andor, et. al. 2016.”Globally Normalized Transition-Based Neural N

12、etworks”3 句 法 分 析基于深度学习的分析方法 基于 Stack LSTM的分类器弹栈操作 压栈操作LSTM神经元缓存栈历史行动序列状态栈暂存栈Softmax层输入输出Dyer, et. al. 2015.“Transition-Based Dependency Parsing with Stack Long Short-Term Memory”语 义 角 色 标 注Semantic Role Labeling044 语 义 角 色 标 注语义角色标注 在句法分析的基础上 所进行了一种 浅层语义理解技术 ,以句子的 谓词为中心 ,来对句子中 各成分与谓词之间的关系 进行分析。谓词论元

13、在 给定谓词 的条件下,对其各个 论元进行分类 划归其所属的 语义角色标签文 本 分 类Text Classification055 文 本 分 类根据 给定文档 的内容或主题, 自动分配 预先定义的 类别标签文本特征表示特征选择和提取特征空间构建特征降维特征转换 特征选择: 文档频率、信息增益、互信息 、 2检 特征抽取:语义 LDA主题模型、 LSI/PLSI概率潜在语义索引 特征表达: Word embedding分类学习基于规则的分类模型基于神经网络的分类方法 决策树、随机森林、 RIPPER 算法等基于机器学习的分类模型 贝叶斯分类器 、 线性分类器 、 支持向量机 、最大熵分类器

14、、 Boosting组合算法等 多层感知机 、 CNN、 RNN5 文 本 分 类基于机器学习的分类模型 Adaboost 算法5 文 本 分 类基于神经网络的分类模型 FastText 模型CBOW模型FastText模型标签 Huffman树Joulin, et. al. 2016.“Bag of Tricks for Efficient Text Classification”5 文 本 分 类基于神经网络的分类模型 CNN for TextKim, et. al. 2014.“Convolutional Neural Networks for Sentence Classificati

15、on” 对 固定窗口 内词向量形式的文本 , 滑动 进行 卷积 , 之后经过池 化层和非线性转换层后 , 得到 文本特征向量 用于分类学习 可以 有效保留 有用的 一定长度的词序信息5 文 本 分 类基于神经网络的分类模型 RNN for Text 可以对 更长的序列信息 建模 双向 LSTM可以捕获 双向序列 信息信 息 抽 取Information Extraction066 信 息 抽 取指从 非结构化 /半结构化文本 中提取 指定类型的信息 , 并通过信息归并、冗余消除和冲突消解等手段 将非结构化 文本 转换为结构化 信息的一项 综合技术 实体边界识别 实体分类 关系检测 关系分类 事件类型识别 事件元素填充命名实体识别 关系抽取 事件抽取语义获取 知识库 构建 舆情监控 语义 搜索 智能问答知 识 推 理规则编制 机器学习6 信 息 抽 取基于表示学习的信息抽取 命名实体抽取Lample, et. al. 2016.“Neural Architectures for Named Entity Recognition” IOBES表示法 B代表某一实体的开始单词 I代表该单词属于实体的一部分 , 但并非最开始和最后一个 E代表某一实体的结束单词 S代表某一单词单独即为实体 O代表不属于实体的单词

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报