1、DS 证据理论下融合隐式与显式特征的共谋攻击识别推理模型 赵洁 薛瑞 陈旭 杨雨健 广东工业大学管理学院管理科学系 摘 要: 现有的攻击识别模型大多未能较好地解决共谋攻击对电子商务信任评价机制产生的威胁。为此, 结合国内 C2C 电子商务的特点, 以共谋攻击中的商品为识别对象, 融合隐式和显式用户行为特征以及与交易和买家相关的复合特征, 并根据 DS 证据理论处理不确定问题的优点, 提出一种 DS 证据理论下的共谋攻击识别推理模型。在某电商平台真实共谋攻击数据上的实验结果表明, 该推理模型能够识别共谋攻击, 提取的攻击识别特征可反映用户真实行为, 有效区分攻击和合法交易所涉及的商品。关键词:
2、共谋攻击; 特征提取; 攻击识别; DS 证据理论; 遗传算法; 作者简介:赵洁 (1979) , 女, 副教授、博士, 主研方向为数据挖掘、商务智能、不确定理论;E-mail:作者简介:薛瑞, 硕士研究生;作者简介:陈旭, 硕士研究生;作者简介:杨雨健, 本科生。收稿日期:2016-07-20基金:国家自然科学基金“DS 证据推理下抗信誉共谋攻击的行为信任研究” (71401045) Collusion Attack Identification Reasoning Model Fusing Implicit and Explicit Features Under DS Evidence T
3、heoryZHAO Jie XUE Rui CHEN Xu YANG Yujian Department of Management Science, School of Management, Guangdong University of Technology; Abstract: Collusion attack produced a serious threat to e-commerce trust evaluation mechanism and the existing attack detection model is not able to solve the problem
4、 well, combined with the characteristics of domestic C2 C e-commerce, this paper uses the goods in collusion attack as the object of detection, f uses explicit and implicit user behavior feature and summary feature of related transactions and buyers, combining the advantages of DS evidence theory in
5、 dealing with uncertain problems, puts forward the collusion attack detection model under DS evidence theory. Experimental results based on the real collusion attacks data in e-commerce show that the proposed reasoning model can effectively identify the collusion attack, the extracted attacks can ef
6、fectively reflect the users real behavior, effectively distinguish between the goods involved in attacks and legitimate transactions.Keyword: collusion attack; feature extraction; attack identification; DS evidence theory; genetic algorithm; Received: 2016-07-200 概述随着互联网的快速发展, 电子商务已成为人们目前生活不可或缺的重要部分
7、。但电子商务信任评价机制仍存在诸多缺陷, 成为许多不法分子的攻击目标。目前已发现的多种恶意攻击方式中, 共谋攻击采取更加复杂隐蔽的攻击策略, 难以识别和抵御。共谋攻击表现为若干个恶意用户达成协议, 组成共谋团体, 通过有组织地提交虚假信任反馈, 控制某个目标的信任评价结果。共谋用户的交易行为与正常用户相比具有异常性, 因此本文将分析范围限定在共谋用户的异常行为中。针对不同环境中的攻击检测, 一般从交易相关、评价行为、社会网络关系和时间因素等角度选取多种特征构建模型。在线拍卖环境中欺诈攻击检测常用的与交易相关特征包括卖家信誉1、起拍价1-2、出价的增幅1-2等。价格3-4、时间因素3-4、服务品
8、质3、评价者的信誉4、评论4等与交易相关特征应用于国内电子商务的信誉共谋研究中。与评价行为相关的特征5-7常用于检测 P2P 环境中的共谋团体。一些攻击检测模型从社会网络关系角度, 把从用户中识别出攻击团体的任务转化为如何找到那些相互之间密集联系的“簇”。常用量化指标包括:k-core4,8, 度, 中介度, k-plex, n-cliques 等网络属性8。通常时间因素被用于聚合时间域内的其他属性, 如历史评价、近期信誉值、反馈的时间、评价分数的变化趋势等, 利用时间因素度量用户的一致性, 旨在找到恶意用户的行为模式。由于共谋攻击者学习和模仿正常用户的交易和评价行为, 以及通过假名和匿名隐藏
9、身份, 社会网络中节点的位置和节点间的连接关系是随着时间动态变化, 使得仅仅依赖上文提及的几类常规的显式特征对识别共谋攻击的效果不彰, 但是仍然可作为共谋攻击检测模型的参考。目前, 基于互联网访问日志的用户行为分析已广泛应用于搜索引擎算法改进、竞价广告投放、作弊页面识别等方面的研究9。在互联网日志文件中, 用户访问网站的原始信息得以记录与保存, 而从中提取的浏览器、IP 地址曾用于电子商务内欺诈识别10。对用户在网络访问时产生的会话与行为进行挖掘提取, 提取出共谋攻击者很难模仿的隐式行为特征, 用于对用户行为模式的分类。构建攻击检测模型的常用方法包括协同过滤5,7,11、逻辑回归模型4,10、
10、频繁项集挖掘算法12、时间序列分析13-14、聚类6、分类算法1,6,8,15-16、社会网络分析4,8,17-19、图挖掘20-21。文献5, 7, 11基于协同过滤的方法检测攻击, 基本假设是恶意攻击者与少数的、诚实用户的评价很相似。用户对商品的评价非常稀疏, 这样基于用户的评价计算出的相似性可能不准确;随着用户和商品的增多, 模型的性能会越来越低。逻辑回归模型4,10对极值比较敏感, 容易受极端值的影响, 且回归系数不易解释。由于频繁项集挖掘算法12的计算复杂性, 随着候选项集的快速增长, 其性能往往不理想。时间序列分析13-14实际上将所有的影响因素都归结到时间上。正常用户经常出现非理
11、性的评价行为, 攻击者与正常用户的界限模糊, 还有潜在攻击者与正常用户的比例均使得很难通过聚类6区分各种评价行为。CART、C5.0、C4.5、Boosted Trees 等决策树1,6,8,15-16与神经网络8等分类算法均有良好效果, 但是文献22指出此类方法依赖先验知识, 且通常情况下很难获得大量有标记的真实数据用于训练。而且攻击者为了躲避监督, 并不会一直共谋攻击, 有标记的数据只在某个时间段内有效。图挖掘20-21和社会网络分析4,8,17-19是攻击检测的常用方法。但文献23指出, 这类方法的重点不在于实体的特征, 而在于实体之间的关系。攻击者通过假名和匿名隐藏共谋团体成员之间的联
12、系, 难以判断众多账号是否属于同一个用户24, 使得很难进行图挖掘。图挖掘还存在低效率的问题10。真实的社会网络中数据较为稀疏, 而且存在数据缺失和噪音数据, 共谋团体成员之间的稀疏连接关系使得难以精准识别攻击。在实际应用中, 收集的用于识别攻击的数据经常出现不完整和不精确的情况, 而且用户在“共谋”和“正常”之间还应存在“不确定”这种状态。DS 证据理论25-26具有直接表达“不精确”和“不确定”的能力, 无需先验概率或后验概率, 并提供了基于不完备信息进行不确定性推理的方法。DS 证据理论已广泛应用于入侵检测、欺诈检测。例如文献2应用 DS 证据理论, 结合多个来源的证据, 识别在线拍卖中
13、的 shill 行为;文献27提出一个 P2P 环境下基于改进DS 证据理论的模糊信任模型, 对抗诋毁、共谋攻击和摇摆攻击。本文提出一个基于 DS 证据理论的共谋攻击识别模型, 包括评价、时间因素等显式行为特征与从被访问的页面信息和自动收集的用户操作等提取的隐式行为特征。1 DS 证据理论及其合成规则对于 , 识别框架 上的有限个 mass 函数 m1, m2, , mn的Dempster 合成规则为:其中, K 为归一化常数:2 推理框架电子商务中共谋攻击涉及的实体包括买家、卖家、交易和商品, 均可作为识别对象。其中关于交易和买家的识别已进行了较多的研究28, 本文重点对以商品作为识别对象的
14、模型进行研究。2.1 抽象模型在文献3的基础上, 定义推理框架 。1) C=c1, c2, , cn是认证商品的集合, 用于为 C 中的商品分配一个状态来表示此商品的可信度, 例如共谋、可疑、可信;2) bel:B0, 1是商品的信任函数, 表示每个商品的可信程度;3) F=f1, f2, , fk是商品的特征集, 可看做是区分共谋 (collusion) 和正常 (collusion) 的证据;4) M=m (f1) , m (f2) , , m (fk) 是能够量化特征的基本信任分配函数BMA 的集合, 且大小均在 01 之间;5) R=, 是能决定认定结果的阈值的集合, 其中, 0.5,
15、 阈值 用于确定商品是否值得信赖, 如果共谋的可能性 bel (collusion) , 则认定为正常销售的商品。阈值 用于确定商品销售过程中是否存在共谋, 若共谋的可能性 bel (collusion) , 则认定为共谋, 阈值 应该尽可能得高, 以减少误判。如果共谋的可能性 bel (collusion) 在 和 之间, 且共谋的可能性 bel (collusion) 大于或等于正常的可能性 bel (collusion) , 则认定为可疑。每个特征只能支持一种状态, 全集被解读为不确定, 例如collusion, collusion。符合特征 fk支持 collusion 的证据的 BM
16、 A, 可被描述为:其中, 01, 可被理解为决定某个商品是否为 collusion 的特征 fk的能力大小, 函数 f 用于量化证据认定 collusion, 其中 0f1。符合特征 fk支持collusion 的证据的 BMA, 可被描述为:其中, 01, 可被理解为决定某个商品是否为collusion 的特征 fk的能力大小, 函数 g 用于量化证据以认定collusion, 其中, 0g1。2.2 推理流程利用 DS 证据理论融合与商品有关的证据, 获得指定的商品销售过程中共谋的可能性, 对商品进行分类。前提条件是在选定的时间段内, 指定的商品必须存在已完成评价的交易。本文在文献3的基
17、础上提出改进的推理流程, 如图 1 所示。图 1 共谋攻击识别模型的推理流程 下载原图在本文的共谋攻击识别模型中, 采集国内某 C2C 电商平台的真实交易数据和用户的互联网访问日志数据, 经过一系列数据清洗和筛选, 并得到商品数据集;依照本文提出的各个共谋识别的证据, 对数据进行特征提取, 基于各个证据的BMA 公式量化, 利用合成规则库中的规则合成各个证据, 本文采用经典的Dempster 合成规则。证据合成后的结果是置信度, 表示共谋的可能性。每个推理合成结果均经过经典遗传算法训练和学习, 对各个证据的参数 和 优化, 本文采用的停止条件是带共谋标记的商品的 ROC 曲线下的面积最大。如果
18、合成后某个商品的 bel (collusion) , 根据共谋认定规则, 则认定此商品的销售过程中存在共谋。在文献3的推理过程中, 根据每个证据的重要性, 人为设定各个证据的参数 和 , 存在不确定性。而本文经遗传算法优化后的参数相比文献3直接给定的参数, 用于推理合成, 能得到更合理也更优的推理合成结果。2.3 商品特征提取商品特征提方法如下:1) 不计分评价占比 IRC (显式特征) 按照国内某电商平台的规则, 若买家对某次交易的评价被归为不计分评价, 则不能对店铺的信誉状况产生影响, 因此不计分评价较为可信。在所选时间段内, 商品 i 得到 n 个评价, 不计分评价的数量为 nI, 商品
19、 i 的不计分评价占比。所有商品不计分评价占比的中位数为 IRCM。当 IRCiIRC M时, 不计分评价占比 IRC 的量化公式为 ;当 IRCiIRCM时, 不计分评价占比 IRC 的量化公式为 。2) 中差评占比 NNRC (显式特征) 中差评占比 NNRC 是指对商品的评价中, 中评或差评的比例。中差评占比越高, 说明共谋的可能性越小。在所选时间段内, 商品 i 得到 n 个评价, 中差评的数量为 nR, NNRCM是所有商品中差评占比的中位数。商品 i 的中差评占比。当 NNRCiNNRC M时, 中差评占比 NNRC 的量化公式为 ;当NNRCiNNRCM时, 中差评占比 NNRC
20、 的量化公式为 。3) 确认收货的平均时间间隔 ACIC (显式特征) 确认收货时间间隔是从买家完成付款到买家在线确定收货的时间差。与默认的确认收货时间间隔比较, 商品 i 的确认收货的平均时间间隔越大, 共谋的可能性越小。CITj是商品 i 有关的交易 j 的确认收货时间间隔, PT j是交易 j 的付款时间, CTj是交易 j 的在线确认收货时间。 是国内某电商平台默认的确认收货时间间隔 (不延长收货的情况下 10 d) 。因此, CIT j=CTj-PTj。但国内某电商平台并不对外开放 CTj数据, 折中做法是使交易 j 的评价时间 RTj代替 CTj。确认收货时间间隔最长为 , 且只有
21、先确认收货才能评价, 因此, 若时间差大于或等于 , 说明是系统默认确认收货;如果时间差小于 , 则买家先在线确认收货, 随后评价商品, 且时间相差不大, CT jRT j。根据上述分析, 当 RTj-PTj 时, CITj=, CT j=PTj+;当 RTj-PTj 时, CT jRT j, CITj=RTj-PTj。因此, CITj=RTj-PTj。在所选的时间段内, 商品 i 的交易数量为 n, 商品 i 的确认收货时间间隔的平均值为:与默认的确认收货时间间隔比较, 商品 i 的确认收货的平均时间间隔为:所有商品确认收货的平均时间间隔的中位数是 ACICM。当 ACICiACIC M时,
22、 确认收货的平均时间间隔 ACIC 的量化公式为:当 ACICiACICM时, 确认收货的平均时间间隔 ACIC 的量化公式为:4) 评价的平均时间间隔 ARIC (显式特征) 评价时间间隔是从买家在线确定收货到买家在线评价的时间差。与默认的评价时间间隔比较, 商品 i 的评价的平均时间间隔越大, 共谋的可能性越小。RITj是与商品 i 有关的交易 j 的评价时间间隔, RT j是交易 j 的评价时间, CT j是交易 j 的在线确认收货的时间, 在证据 ACIC 中已经求出。 是国内某电商平台默认的评价时间间隔 (15 d) 。因此, 当 RTj-CTj 时, RIT j=;当 RTj-CT
23、j 时, RIT j=RTj-CTj。在所选定的时间段内, 商品 i 的交易数量为 n, 与商品 i 的评价时间间隔的平均值为:与默认的评价时间间隔比较, 商品 i 的评价的平均时间间隔为:所有商品的评价的平均时间间隔的中位数是 ARICM。当 ARICiARIC M时, 评价的平均时间间隔 ARIC 的量化公式为:当 ARICiARICM时, 评价的平均时间间隔 ARIC 的量化公式为:5) 可疑入店方式占比 AEC (隐式特征) 在众多入店方式中, 有一些被认为是可疑的, 例如“直接访问”“淘宝店铺搜索”等。可疑入店方式占比越大, 共谋的可能性越大。在所选的时间段内, 商品 i 的交易数量
24、为 n, 入店方式可疑的交易数量为 nE, 商品 i 的可疑入店方式占比 , 所有商品的可疑入店方式占比的中位数为 AECM。当 AECiAEC M时, 可疑入店方式占比 AEC 的量化公式为:当 AECiAECM时, 可疑入店方式占比 AEC 的量化公式为:6) 平均停留时间 ASTCC (隐式特征) 买家在店铺页面的停留时间越长, 越可信。在交易日前 7 d (包括交易日) 内, ST (j, k) 是交易 j 对应的买家第 k 次访问交易 j 对应店铺所产生的停留时间, 如果只打开了 1 个页面, 则视停留时间为 0。交易 j 对应买家访问店铺的次数为 g, ASTCj是交易 j 对应的
25、买家的停留时间的平均值, 即 。在所选的时间段内, 商品 i 的交易数量为 n, 因此与商品 i 有关的平均停留时间为。所有商品的平均停留时间的中位数为 ASTCCM。当 ASTCCiASTCC M时, 平均停留时间 ASTCC 的量化公式为:当 ASTCCiASTCCM时, 平均停留时间 ASTCC 的量化公式为:7) 平均访问深度 ADVTC (隐式特征) 访问深度指买家一次连续访问的店铺内商品页面数, 显然越大越可信。在交易日前 7 d (包括交易日) , DT (j, k) 是交易 j 对应的买家第 k 次访问交易 j 对应店铺所产生的访问深度。交易 j 对应买家访问店铺的次数为 g,
26、 ADVTj是交易 j对应买家的访问深度的平均值, 即 。在所选的时间段内, 商品 i 共有 n 次交易, 因此与商品 i 有关的平均访问深度为:所有商品的平均访问深度的中位数为 ADVTCM。当 ADVTCiADVTC M时, 平均访问深度 ADVTC 的量化公式为:当 ADVTCiADVTCM时, 平均访问深度 ADVTC 的量化公式为:8) 回访客占比 RCC (隐式特征) 回访客是以天为间隔单位, 之前曾访问过店铺的用户, 回访客被认为是可信的。所选时间段内, 商品 i 的交易数量为 n, 买家是回访客的交易数量为 nC, 商品i 的回访客占比 。所有商品的回访客占比的中位数为 RCC
27、M。当 RCCiRCC M时, 回访客占比 RCC 的量化公式为:当 RCCiRCCM时, 回访客占比 RCC 的量化公式为:9) 成功交易持续时间 TDC (隐式特征) 买家在进行与商品 i 有关的交易 j 的过程中, 从进入店铺第 1 个页面到完成付款的时间差, 然后进行平均, 得到商品 i 的成功交易持续时间, 显然持续时间越长越可信。所选的时间段内, 商品 i 的交易数量为 n, 交易 j 的持续时间为TDj, 商品 i 的成功交易持续时间 。TDC M是所有商品的成功交易持续时间的中位数。当 TDCiTDC M时, 成功交易持续时间 TDC 的量化公式为:当 TDCiTDCM时, 成功交易持续时间 TDC 的量化公式为: