1、基于网页身份及行为的钓鱼网页特征向量提取方法The Method of Extracting the Phishing Web Features Vector Based On the Web Identity and Behavior司响 1 李秋锐 2 宋士超 2(1.中国人民公安大学,北京 100038)(2.中国人民公安大学,北京 100038)(2.中国人民公安大学,北京 100038)摘要:随着电子商务和在线交易的增加,网络钓鱼已经成为最严重的一种网络犯罪形式。本文从网页中包含的超链接这一角度出发,给出了网页的身份特征,并结合网页 ICP 号,版权所有者以及网页行为等对网页特征进行
2、了提取,得到了钓鱼网页的特征向量,为及时准确检测钓鱼网页提供了依据。关键词:网页身份 ICP 号 版权所有者 网页行为 网页特征向量提取Abstract:As the Electronic Commerce and On-line Trade expand, phishing has already become one of the severest forms of network crimes. In this paper, the identity features of web-pages are given based on the hyperlinks included in t
3、he web-pages, and then web-page features are extracted employing ICP of web-pages, owner of the copyright, web-page behaviors and so on. With the extraction of feature vectors of phishing web-pages, more evidences acquired render the detection of phishing web-pages with more accuracy and shorter tim
4、e-consumption.Keywords:web identity ICP number Copyright owner Web behavior Web feature vector extraction1 前言网络钓鱼是一种企图从电子通信中,通过伪装成信誉卓著的法人媒体以获知如用户名、密码和信用卡明细等个人敏感信息的犯罪诈骗过程。随着互联网交易的兴起,网络钓鱼已经成为最为严重的互联网犯罪形式之一。据中国反钓鱼网站联盟的报告,截至 2011 年 3 月底,联盟累计认定并处理了钓鱼网站 43842 个。其中在 3 月份,联盟认定并处理钓鱼网站 3988 个,同比增长 271%,环比增长 2
5、44%1。每一个网页都有一定的身份,网页的行为必然和网页的身份相一致。然而,为了模拟合法网页迷惑用户,钓鱼网页必然会将身份伪造为合法网站的身份。从另一个方面讲,钓鱼网页的目的与合法网页并不相同,因此其行为就会和正常合法网页不同,会与声称的身份不符,存在异常。这种行为上的异常正是区分钓鱼网页和合法网页的基础。本文从网页中的超链接这一角度出发,提取出网页的身份,并结合网页 ICP 号,网页版权所有者及网页的行为,对钓鱼网页的特征进行了分析。最终以定量的方式,引入了钓鱼网页特征向量 VP=来表示钓鱼网页特征,为准确判定钓鱼网页提供了依据 34。2 算法流程对于一个给定的网页 P,为了提取其身份和特征
6、向量,首先要通过解析得到网页 P 的DOM( Document Object Model)树,以使后续数据处理过程更加简单。根据 W3C 的标准,DOM作者简介:作者 司响(1984 ) ,女,河北,硕士研究生 Email:作者 李秋锐(1987 ) ,男,湖北,硕士研究生 Email:作者 宋士超(1985 ) ,男,河北,硕士研究生 Email:是一种与浏览器,平台,和语言的接口,解决了语言之间的冲突,提供了一个标准的方法来访问站点中的数据,脚本和表现层对象。假设以下为一个网上银行提交用户名和密码的 Html 代码的 body部分2。图 1 给出的就是其对应的 DOM 树。网银系统 用户名
7、: 密 码:链接 B文本 文本文本图 1 给定网页的 DOM 树大多数钓鱼网页都会要求用户输入银行卡用户名,口令值等敏感信息,因此,对于给定的网页,首先要检查网页中是否含有文本输入的部分。如果有,就进行后续操作;如果没有,就认定这个网页是合法的,提取下一个网页。本文方法通过检查网页 DOM 树中的以下部分来判断:(1)Text 类型,例如(2)未明确类型(默认类型是 text) ,例如(3)Password 类型,例如如果网页中至少有一个文本输入部分,则对网页进行身份特征提取过程。提取出网页的身份之后,基于网页的身份以及网页的行为提取网页的特征向量。其算法流程图 2 所示:D O M 树生成器
8、网页特征生成器网页 D O M 树网页网页特征向量网页中是否含有一处文本输入是提取下一个网页否图 2 网页特征向量提取流程3 网页 URL 身份提取本文的算法是从网页中所含超链接这一角度出发对网页身份特征进行提取的,为此本文给出一个新的定义,将网页中超链接指向最多的域名称为网页的 URL 身份。例如,网页http:/ 中的超链接都是指向 的,因此,这个网页的 URL 身份就是。为了模拟正常网页的行为,钓鱼页面也会模拟正常网页所包含的超链接,显然,这些链接所指向的域名和钓鱼网页的域名不同,都是指向正常网页的。因此,一个钓鱼网页的 URL 身份通常都是外部域名,也就是所模拟的那个正常网站的域名。
9、提取网页 URL 身份时,主要是分析网页中包含的锚链接。由于和标签的“href”属性给出了链接的地址属性,本文的方法就是分析网页中的和标签的“href”属性。对于锚链接的每一个 URL,从其中提取出基础域名的部分,例如,对于http:/ 这个 URL,提取的域名就 。然后,计算提取出来的每一个域名出现的总次数,出现频率最高的那个基础域名就是网页的 URL 身份。4 网页特征向量提取提取出网页的 URL 身份之后,要基于网页 URL 身份以及对网页行为的分析产生出网页的特征向量。本文选取能够区分钓鱼网页和正常合法网页的 8 个特征来定义网页 P 的特征向量VP=。下面分别介绍每个特征 Fi(i=
10、1,2,3,4,5,6,7,8,9)是如何具体定义及如何求值的。 4.1 特征 1:网页的 ICP 证号正规网站的网页会在网页底部声明 ICP 证号,ICP 证是指各地通信管理部门核发的中华人民共和国电信与信息服务业务经营许可证 ,是网站经营的许可证,根据国家互联网信息服务管理办法规定,经营性网站必须办理 ICP 证,否则就属于非法经营。ICP 证号可以用来唯一的标识网站身份。如图 3 所示是中国工商银行的登录网页,在网页底部表示的就是网页的 ICP 证。而钓鱼网站为了迷惑用户,通常也会在这个位置声明自己是其仿冒的网站,在自己的网页上出具和仿冒网站相同的 ICP 号。图 3 中国工商银行的 I
11、CP 证本系统使用 F1 表征这一特征,若给定网页的 ICP 号和某合法网页的 ICP 号相同,但域名却不相同,则表示此网页是钓鱼网页,令 F1=1;否则,F 1=-1。4.2 特征 2:网站的版权所有者和网页的 ICP 号相同,每一个网页也会在页面底部显示表明自己身份的版权所有者。同样,网页的版权所有者也能唯一地标识网页。本系统使用 F2 表征这一特征,若给定网页的版权所有者和某合法网页的版权所有者相同,但域名却不相同,则表示此网页是钓鱼网页,令 F2=1;否则,F 2=-1。4.3 特征 3:可疑的网页地址为了达到迷惑用户,引诱用户给出敏感信息的目的,钓鱼者通常会采取一些欺骗手段来伪装钓鱼
12、网页的 URL 地址。这些手段包括:(1)使用 IP 地址代替网站域名。例如,访问淘宝网首页的 URL 地址可以表示为:http:/110.75.2.128。(2)使用符号。URL 地址中的 符号表示此符号前的内容为用户名和口令,用于验证用户的身份,而此符号后面的内容才是真正的地址。例如,http:/,这个地址指向的真正的网站并不是淘宝网,而是http:/。(3)对域名中的字符进行 UNICODE 编码。例如,上例 URL 地址的编码形式是:http:/%77%77%77%2E%70%68%69%73%68%2E%63%6F%6D。本文用 F3 表征网页地址的可疑性,若网页的 URL 地址中出
13、现 IP 形式的地址,符号或UNICODE 编码,则判定该网页可疑,令 F3=-1;否则,令 F3=1。4.4 特征 4:网页域名与网页 URL 身份的一致性基于前文关于网页 URL 身份的分析可知,正常网页的 URL 身份就是本地域名,而钓鱼网页的URL 身份往往是其所模拟的那个网站的域名。例如,一个冒充淘宝网的钓鱼网页的 URL 身份是。因此,可以把网页的 URL 身份和网页的域名是否一致作为判断钓鱼网站的一个特征。本系统使用 F4 表征这一特征,若网页的 URL 身份和网页基础域名一致,则表示网页正常,F 4=1;否则,F 4=-1。4.5 特征 5:空连接空连接指的是指向为空的连接,例
14、如:,等。通过对大量钓鱼网页的分析可知,网页中含有的空链接数越多,网页越可疑。本文用 F5 表征一个网页中所含有的空链接的这一特性。F 5 的值由下面的公式计算得到:F5=anil/aa 这里,a nil 是网页中所含空链接的数量,a a 是网页中所有连接的数量。4.6 特征 6:指向网页 URL 身份的外部链接网页的外部链接指的是指向外部域的超链接。如前所述,为了达到欺骗用户的目的,钓鱼网页与其所攻击的网页都极其相似,其 URl 身份就是其所模拟的网页的基础域名。所以,钓鱼网页中必然包含大量指向其 URL 身份的外部链接。本文用 F6 来表征网页的这一特征,其值由下面的式子得到:F6= ai
15、d/af,如果 af0;F 6=0,如果 af=0这里,a id 指的是网页中所包含的指向网页 URL 身份的外部链接的数量, af 指的是网页中所包含的外部链接的数量。4.7 特征 7:外部链接对于任何一个网页,存在指向外部域名(foreign domain)的链接都是正常的,但是如果网页中指向外部域的链接过多,这个网页就是可疑的。F 7 用来表征网页所包含外部链接这一特征,F 7 的值由下面的公式计算得到:F7= af/aa,如果 aa0;F 7=0,如果 aa=0这里,a f 指的是网页中所包含的外部链接的数量,a a 指的是网页中所包含的所有链接的数量。4.8 特征 8:指向网页 UR
16、L 身份的外部请求为了模拟真正的网页,钓鱼网页可能会从真正的网页请求图片(image) ,Java 脚本,CSS 文件以及其他一些客体。表明这种请求的 URL 链接通常包含在以下这些域中:(1)IMG,SCRIPT,FRAME,IFRAME,INPUT 标签的“src”属性。(2)OBJECT 的“codebase”属性。(3)APPLET 标签的“codebase”和“code”属性。(4)BODY 标签的“background”属性。(5)LINK 标签的 “href”属性。本文用 F8 来表示网页中所包含的指向网页 URL 身份的外部请求这一特征,其值由下面的式子计算得到:F8=rid/
17、rf 如果 rf 0;F 8=0 如果 rf=0,这里,r id 表示网页所包含的指向网页 URL 身份的外部请求的数量, rf 表示网页中所包含的外部请求的数量。4.9 网页中外部请求和网页中含有外部链接的情况相似,网页中含有的外部请求的数量越多,网页的可疑性就越大。本文用 F9 来表征网页中多包含的外部请求这一特征。F 9 的值就等于网页中所包含的外部请求的数量。得到网页的各个特征值之后,就可以得到网页的特征向量 VP=。5 结论本文通过对钓鱼网页身份特征及网页行为特征的深入分析,从网页中所包含的超链接这一重要特性出发,引入了网页 URL 身份这一新的概念,并在此基础上,结合网页行为特征提取出了网页的特征向量,为准确判定钓鱼网页提供了有效的依据。参考文献:1 中国反钓鱼网站联盟 2011 年 4 月钓鱼网站处理简报R 2011 年 4 月2 王文博,基于网页特征提取的反钓鱼技术研究D,2010 年 6 月。3 李文峰,基于网页相似比对的反钓鱼技术研究D,2010 年 6 月。4 Mingxing He,An efficient phishing webpage detectorJ ,Expert Systems with Applications ,2011 年 2 月 。