1、深度学习在电力潜在投诉识别分类中的应用 罗欣 张爽 国网浙江省电力公司电力科学研究院 摘 要: 随着用户对用电服务的要求及维权意识的不断提高, 供电企业需开展海量客户诉求分析, 从而实现供电业务薄弱点的发现和改进。因此, 提出基于深度学习的电力疑似投诉工单识别分类技术应用, 通过深度学习建模、投诉特征标签提炼、模型学习训练、疑似投诉识别, 优化投诉风险预警与管理工作, 缓解一线工作人员服务压力。关键词: 95598; 投诉; 文本分类; 深度学习; 作者简介:罗欣 (1980) , 女, 技师, 主要从事 95598 客户诉求分析工作。收稿日期:2017-08-24Application of
2、 Deep Learning in Identification and Classification of Potential Complaints of Electric PowerLUO Xin ZHANG Shuang State Grid Zhejiang Electric Power Research Institute; Abstract: With the uses increased requirements on power consumption and improved awareness of right, power supply enterprises need
3、to carry out massive customer demands analysis to discover and improve weak points in power supply services.Therefore, the paper puts forward application of potential complaints work sheet identification and classification based on deep learning.By deep learning modeling, complaint character tag abs
4、tracting, model learning and training, potential complaints identification and complaint risk warning and management optimization, service loads of frontline workers are greatly reduced.Keyword: 95598; complaints; text classification; deep learning; Received: 2017-08-240 引言如何减少用户的投诉量, 提高用户的满意度成为目前供电
5、企业关注的焦点。对投诉的有效分析管理, 可以提高客户的满意度和忠诚度, 实现对供电业务薄弱点的发现与改进, 对提升供电企业的服务品质, 提升企业形象具有重要的意义。从 95598 来电分析, 大量客户虽未直接投诉, 或者客服专席误判非投诉, 但是通过咨询、意见和建议等表达对供电服务的不满, 若处理不当或不及时, 可能升级为客户投诉。全省年话务量高达八百万通, 采用传统抽样录音质检模式, 由人工进行逐一反复听取录音, 工作效率低, 无法准确、高效地提取客户的投诉点、不满意点。据不完全统计仅疑似投诉质检常态任务年投入工时为 3 456人, 而这在未来全面客户诉求挖掘工作中占比不足 1%。通过基于深
6、度学习的电力疑似投诉工单识别技术, 可有效优化质量监督管理工作, 强化服务问题防控, 减轻基层投诉压力。1 深度学习概述如图 1 所示, 1956 年达特茅斯会议上提出了 AI (人工智能) 的概念, 人工智能的目的是让计算机能够像人一样思考。深度学习是机器学习研究中的一个新领域, 推动了机器学习的发展, 拓展了人工智能的领域范围。近两年开源深度学习技术日趋成熟, 具有代表深度学习框架有 TensorFlow, DL4J 等。深度学习使用包含复杂结构或由多重非线性变换构成的多个处理层 (神经网络) 对数据进行高层抽象的算法, 其动机在于建立模拟人脑分析学习的神经网络, 模仿人脑来解释数据 (例
7、如图像, 声音和文本) 。深度学习过程分为训练和推理, 通过训练获得数据模型, 然后用于推理新的数据。2 深度学习的应用思路2.1 贪婪无监督特征学习算法图 1 人工智能发展历程 下载原图以下选用 DL4J 深度学习技术进行投诉的识别和分类, DL4J 是基于 Java 开源的分布式深度学习框架。如图 2 所示, 深度学习技术应用主要分为模型选型定义、机器学习训练、模型优化提升 3 部分内容。深度学习神经网络主要包含输入层、隐藏层和输出层, 图 2 右边是对应的分层的实现代码。模型学习和训练的算法选择决定最终的结果, 结合投诉文本特征处理与识别分类, 选择采用贪婪无监督的逐层训练方法。图 2
8、深度学习应用示意 下载原图贪婪无监督特征学习算法 (L) 使用训练集样本并返回编码器或特征函数 f。原始输入数据是 X, 每行 1 个样本, 并且 f (X) 是第一阶段编码器关于 X 的输出。在执行精调的情况下, 使用学习者 T、初始函数 f、输入样本 X 以及在监督精调情况下关联的目标 Y, 返回细调好的函数。阶段数为 m。实现代码如下:2.2 总体设计思路目前, 95598 工单中存在一定数量的投诉错派工单, 工单内容是以非结构化的文本形式记录存储的, 然而深度学习神经网络模型识别的模式是通过向量中的数值形式体现。因此, 首先利用 Fudan NLP 中文分词技术实现工单非结构化文本分词
9、, 通过 DL4J 的 Data Vec 类实现向量化。利用 Data Vec 向量化及表达式模板库 (DL4J 工具包) 实现数据提取、转换和 ETL (加载) 处理。通过用已标记的数据集定型, 深度学习神经网络才能实现对数据的系统分类。如图 3 所示, 利用深度学习技术对某公司 20152017 年的投诉工单进行投诉样本分析、投诉特征标签提炼、深度学习建模、模型学习训练、疑似投诉识别等一系列工作, 实现疑似投诉工单深度学习智能识别与分类。图 3 总体思路设计 下载原图3 关键技术解决3.1 投诉特征标签提炼投诉特征标签提炼首先是对历史投诉样本工单受理内容进行 Data Vec 类处理, 结
10、合百度词库进行分词, 提取投诉特有向量标签词, 再将这些标签词在原有样本工单内容进行系统标注, 然后将个别标签词进行重组提炼, 最后对投诉样本进行分词和去停用词, 从而得到投诉格式化样本数据。具体过程如图 4 所示。图 4 投诉特征标签提炼流程 下载原图3.2 模型学习训练模型学习训练过程的核心内容就是解决投诉文本数值转译表述, 采用向量空间模型。将文本分为若干的特征项, 通过特定的手段计算出每个特征项在该文本中的权重, 进而将整个文本用以特征项的权重为分量的向量来表示, 将文本用特征向量的方式表示为数学模型, 然后基于投诉样本向量分组进行迭代学习, 具体过程如图 5 所示。通过对疑似投诉工单
11、识别模型实现人工实时监督再学习或者非人工模式下自学习, 同时通过学习训练进度窗口展现后台对模型深度学习过程与学习输出。3.3 疑似投诉识别疑似投诉识别则通过文本相似度判断进行疑似投诉识别与分类。一旦文档分词采用空间向量表述, 文本之间的语义相似度就可以通过空间中的这 2 个向量间的几何关系来度量。经过模型训练评估相似度设置 70%, 则投诉识别准确率达到 91.5%左右。具体实现过程如图 6 所示, 基于上述已学习的模型成果对所有95598 来电受理工单进行逐一判定识别。图 5 模型学习训练实现流程 下载原图4 应用案例如表 1 所示, 对投诉样本进行一级分类训练测试, 选取 2017 年 7
12、 月 28 日浙江公司国网下发 3 396 张工单进行应用成果验证。表 1 投诉样本选取数量 下载原表 如表 2 所示, 系统潜在投诉识别准确率达到 94.73%。如果将研究成果投入实际应用中, 据不完全统计, 以往 23 万张工单的核查任务, 需要 6 人连续工作 6天, 而用了这项成果后只需 1 人花 1 h 即可。5 结语通过深度学习技术预测未来潜在投诉行为和供电业务薄弱点, 从所有工单中高效地提取客户诉求价值, 识别潜在投诉风险, 提升服务风险监督管控能力, 将投诉处理从原来的“事后弥补”变为“事前控制”, 供电企业在处理投诉问题时由被动变为主动, 从而大幅度地降低用户投诉率, 提升电
13、力优质服务水平。图 6 疑似投诉识别实现流程 下载原图表 2 潜在投诉识别与分类结果准确性统计 下载原表 参考文献1洪健山, 刘欢.基于电力客户投诉行为分析的差异化服务策略研究J.电力需求侧管理, 2015, 17 (6) 42-46. 2陆家发, 张国明, 陈安琪.基于深度学习的疾病诊断J.医学信息学杂志, 2017, 38 (4) 39-42. 3周文杰, 严建峰, 杨璐.基于深度学习的用户投诉预测模型研究J.计算机应用研究, 2017, 34 (5) 1428-1432. 4李倩, 赵振宇.浅析如何提升服务质量避免电力客户投诉率J.电力讯息, 2017 (3) 222-223. 5陈亮,
14、 王震, 王刚.深度学习框架下 LSTM 网络在短期电力负荷预测中的应用J.电力信息与通信技术, 2017, 15 (5) 8-11. 6董洁, 程鹏, 李玲玲.深度学习算法在电力系统短期负荷预测中的应用J.自动化系统, 2017 (2) 82-84. 7胡俊, 摆亮, 吕志泉.一种基于深度学习的层次化钓鱼网站检测方法J.通信技术, 2017, 50 (5) 1025-1028. 8吕淑宝, 王明月, 翟祥, 等.一种深度学习的信息文本分类算法J.哈尔滨理工大学学报, 2017, 22 (2) 105-111. 9李济汉, 陈博.面向电信客户投诉和建议的智能分析模型J.现代电信科技, 2013
15、 (5) 105-111. 10李静, 刘思涛.基于文本挖掘技术的 95598 重复投诉分析J.消费导刊, 2016 (12) :277-278. 11吴亮, 张潮, 陈琼.用电信息系统运行数据的统计与分析J.浙江电力, 2017, 36 (4) :56-59. 12龙厚印, 刘卫东, 黄锦华, 等.基于业扩报装的月度负荷预测J.浙江电力, 2016, 35 (12) :11-14. 13丁麒, 刘兴平.提升客户满意度的闭环问题管理模型分析J.浙江电力, 2016, 35 (8) :63-66. 14袁伟.95598 全业务集中后客户服务风险分析J.企业技术开发, 2016, 35 (24) :151-152. 15张慧, 于珂, 杜瑾.客户投诉业务工单的诉求分析J.电力需求侧管理, 2017, 19 (2) :57-59.