ImageVerifierCode 换一换
格式:DOC , 页数:135 ,大小:2.66MB ,
资源ID:3688613      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-3688613.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于机器学习算法的P2P流量分类研究.doc)为本站会员(彼岸花开)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

基于机器学习算法的P2P流量分类研究.doc

1、湖 南 工 业 大 学 学 位 论 文 原 创 性 声 明本 人 郑 重 声 明 : 所 呈 交 的 学 位 论 文 , 是 本 人 在 导 师 的 指 导 下 , 独立 进 行 研 究 工 作 所 取 得 的 成 果 。 除 文 中 已 经 注 明 引 用 的 内 容 外 , 本 论文 不 含 任 何 其 他 个 人 或 集 体 已 经 发 表 或 撰 写 过 的 作 品 成 果 。 对 本 文 的研 究 做 出 重 要 贡 献 的 个 人 和 集 体 , 均 已 在 文 中 以 明 确 方 式 标 明 。 本 人完全意识到本声明的法律结果由本人承担。作者签名: 日 期 : 年 月 日湖 南

2、 工 业 大 学 论 文 版 权 使 用 授 权 书本 人 了 解 湖 南 工 业 大 学 有 关 保 留 、 使 用 学 位 论 文 的 规 定 , 即 : 学校 有 权 保 留 学 位 论 文 , 允 许 学 位 论 文 被 查 阅 和 借 阅 ; 学 校 可 以 公 布 学位 论 文 的 全 部 或 部 分 内 容 , 可 以 采 用 复 印 、 缩 印 或 其 他 手 段 保 存 学 位论文;学校可根据国家或湖南省有关部门规定送交学位论文。作者签名: 导师签 名: 日 期 : 年 月 日-摘 要P2P 应 用 的 快 速 增 长 , 带 来 网 络 拥 塞 、 大 量 消 费 网 络

3、带 宽等 诸 多 问 题 , 而 传 统 的 基 于 端 口 与 有 效 载 荷 的 网 络 流 量 分 类 方法 存 在 着 很 多 缺 陷 , 研 究 按 照 5 元 组 (源 IP、 源 Port、 目 的 IP、目 的 Prot 及 IP 协 议 )的 定 义 , 将 P2P 报 文 分 成 双 向 TCP 或 UDP流 , 抽 取 独 立 于 端 口 、 协 议 和 有 效 载 荷 的 原 始 数 据 报 文 的 信 息作 为 P2P 流 的 特 征 , 形 成 特 征 向 量 , 用 特 征 向 量 表 示 流 , 流 的分 类 类 别 为 P2P 的 协 议 类 型 。用 提 出

4、 的 基 于 ReliefF-CFS 的 方 法 选 择 流 的 特 征 子 集 , 该方 法 结 合 ReliefF 和 基 于 相 关 性 (CFS)两 种 特 征 选 择 方 法 , 产 生适 合 于 分 类 P2P 流 的 特 征 子 集 。 首 先 利 用 ReliefF 特 征 选 择 方法 把 候 选 特 征 按 与 类 别 相 关 性 的 大 小 排 序 ,通 过 设 定 的 阈 值 选择 与 类 别 相 关 性 大 的 特 征 子 集 作 为 CFS 选 择 方 法 的 初 始 集 , 然后 利 用 CFS 结 合 正 向 搜 索 得 到 最 终 的 较 优 特 征 子 集

5、。研 究 使 用 C4.5 决 策 树 、 支 持 向 量 机 (SVM)、 K 近 邻 (KNN)三种 机 器 学 习 算 法 构 建 P2P 流 量 分 类 器 , 利 用 获 取 的 原 始 数 据 寻找 分 类 器 的 最 优 分 类 参 数 , 主 要 采 用 分 类 准 确 率 和 分 类 时 间 标准 进 行 评 估 ; 并 研 究 统 计 原 始 数 据 报 文 的 部 分 信 息 分 类 P2P 流 ,实 验 中 分 别 统 计 流 的 双 向 50、 100、 150、 200 个 报 文 信 息 , 结果 显 示 不 仅 减 少 了 特 征 统 计 计 算 的 复 杂 度

6、 和 分 类 的 时 间 , 而 且有 更 高 的 分 类 准 确 率 。为 了 让 研 究 的 成 果 能 有 实 际 的 应 用 价 值 , 通 过 构 建 相 应 的硬 件 、 软 件 环 境 , 对 P2P 流 量 的 在 线 实 时 分 类 作 了 初 步 的 研 究 。设 计 并 实 现 了 基 于 机 器 学 习 算 法 的 P2P流 量 分 类 原 型 系 统 ,系 统 分 类 分 类 器 构 建 和 分 类 两 个 阶 段 , 每 个 阶 段 有 数 据 采 集 、数 据 解 析 、 流 的 合 成 以 及 分 类 四 个 模 块 。关 键 字 P2P, 流 量 分 类 ,

7、特 征 选 择 , 机 器 学 习I-ABSTRACTMore and more P2P applications consume network bandwidth andgenerate network congestion. The traditional P2P traffic classificationmethods based on port and payload have many objections. According to thefive-tuple definition (source IP address, source port number, destinat

8、ion IPaddress, destination port number and IP protocol), the packets are classifiedinto bidirectional TCP or UDP flow. The flow attributes irrelevant toprotocol and ports are extracted to be characteristic vector that is used torepresent the traffic. The traffic classification type is the protocol t

9、ype ofP2P.The traffic characteristic subset is decided by using the ReliefF-CFSmethod, which combines with ReliefF and CFS to generate characteristicsubsets for classifying the P2P traffic. The candidate characteristics are firstordered by the dependency using the ReliefF method, of which larger tha

10、nthreshold is set into the original set for CFS method, then the final optimalcharacteristic set is decided by using CFS and forward search.The P2P traffic classifier is constructed using C4.5 decision tree, SVMand KNN. And the optimal parameters are determined by using the originalcharacteristic se

11、t and estimated with the classification accuracy and time.Part of original packets is statistical to classify P2P traffic. In experiment,the number of 50, 100,150 and 200 bidirectional packets is statistical. Theresult shows that the promoted method has lower complexity andclassification time, and h

12、igher classification accuracy.The online real-time classification of P2P traffic is researched byconstructing hardware and software platform, which can promote theapplication.The P2P traffic classification prototype based on machine learningmethod is designed and implemented, which contains the two

13、stages ofconstruction and classification. Each stage contains data collection, dataparse, traffic compound and classification.Keyword: p2p; traffic classification; feature selection; machine learningII-目 录摘 要 .IABSTRACTII第 一 章 引 言 11.1 研 究 背 景 11.2 研 究 目 的 及 意 义 11.3 国 内 外 研 究 现 状 . 21.3.1 基 于 端 口 (

14、Port-based)方 法 的 研 究 现 状 . 21.3.2 基 于 有 效 载 荷 (Payload-based) 方 法 的 研 究 现 状 21.3.3 基 于 机 器 学 习 的 网 络 流 量 分 类 研 究 现 状 . 41.3.4 基 于 机 器 学 习 的 P2P 流 量 分 类 研 究 现 状 . 41.3.5 不同层面的流量分析 41.4 研究内容及组织结构. 51.4.1 论 文 研 究 内 容 51.4.2 论 文 组 织 结 构 6第 二 章 基 于 RELIEFF-CFS 的 P2P 流 量 特 征 选 择 82.1 P2P 流的 定义及特征 产生. 82.1

15、.1 P2P 流 的 定 义 及 表 示 82.1.2 P2P 流 特 征 的 产 生 82.2 特 征 选 择 理 论 与 研 究 现 状 92.3 基 于 RELIEFF-CFS 的算法进行特征选择. 112.3.1 用 基 于 ReliefF 算 法 对 P2P 流 特 征 进 行 初 步 选 择 的 方 法 . 112.3.2 用 CFS 方 法 选 择 较 优 特 征 子 集 . 122.4 实 验 结 果 与 分 析 132.5 本 章 小 结 17第 三 章 基 于 机 器 学 习 P2P 流 量 分 类 器 研 究 193.1 基 于 支 持 向 量 机 (SVM)的 P2P

16、流 量 分 类 器 方 法 193.1.1 核函数介绍 193.1.2 最 大 间 隔 原 则 . 20I-1.5 基 于 C4.5 决 策 树 的 P2P 网 络 流 量 分 类 器 221.6 基 于 KNN 的 P2P 流 量 分 类 器 . 231.7 实 验 结 果 与 分 析 241.3.6 机 器 学 习 最 优 参 数 搜 索 241.3.7 机 器 学 习 算 法 参 数 设 置 251.3.8 样 本 数 量 与 分 类 准 确 率 的 关 系 . 251.3.9 类 别 数 量 与 分 类 准 确 率 的 关 系 . 261.3.10 使 用 独 立 测 试 样 本 集

17、对 分 类 器 进 行 测 试 281.3.11 实验结论 301.8 本 章 小 结 30第 四 章 基 于 机 器 学 习 的 P2P 流量分类系统的设计. 311.4.3 系 统 框 架 . 311.4.4 数据采集模块的设计 311.4.5 数据解析模块的设计 321.4.6 合 成 流 模 块 的 设 计 . 341.4.7 分 类 模 块 的 设 计 342.6 本 章 小 结 35第 五 章 基 于 机 器 学 习 的 P2P 流 量 分 类 系 统 的 实 现 .362.1.3 分 类 器 构 建 阶 段 的 实 现 . 362.3.3 数据采集功能的实现. 362.3.4 数

18、 据 解 析 、 流 的 合 成 模 块 的 实 现 . 372.3.5 分 类 模 块 的 实 现 . 372.3.6 系统主要功能介绍 . 372.3.7 分类器构建阶段实验. 392.1.4 在线分类阶段的实现 413.2 在 线 数 据 的 捕 获 、 解 析 413.3 在 线 流 的 的 合 成 . 433.4 在 线 分 类 策 略 . 432.1.5 在 线 分 类 . 453.1.3 在 线 分 类 实 验 环 境 的 构 建 453.1.4 在 线 分 类 算 法 . 453.1.5 在 线 分 类 实 验 . 462.1.6 本 章 小 结 48II-第 六 章 结 论

19、496.1 结 论 . 496.2 进一步的工作 50参考文献. .51附 录 56致 谢 57III-湖南工业大学硕士学位论文:基于机器学习算法的P2P 流量分 类研究第 一 章 引 言1.9 研究背景P2P (peer-to-peer)技 术 是 近 年 来 互 联 网 最 热 门 的 技 术 , 以 其 对 等性 高 、 扩 展 性 强 、 健 壮 性 高 等 诸 多 优 点 和 独 特 的 技 术 优 势 在 在 VoIP、 下载 、 流 媒 体 、 协 调 计 算 等 领 域 得 到 飞 速 发 展 1,2,3, P2P 的 协 议 类 型 、 用 户规 模 和 网 络 流 量 均

20、呈 爆 发 式 增 长 , 测 量 研 究 表 明 在 欧 洲 P2P 应 用 已 占 ISP业 务 总 量 的 60% 80%4, 跃 然 成 为 网 络 带 宽 的 最 大 消 费 者 , P2P 应 用 的兴 起 , 也 打 破 了 网 络 运 营 商 原 有 的 运 营 和 商 业 模 式 。 再 加 上 Internet 网重 要 性 的 日 益 提 高 和 P2P 结 构 的 日 益 复 杂 , P2P 的 安 全 性 、 可 管 理 性 受 到了 严 峻 的 挑 战 , 人 们 意 识 到 越 来 越 有 必 要 对 P2P 流 量 和 P2P 行 为 进 行 深入 的 了 解

21、、 分 析 , 为 监 控 与 管 理 P2P 提 供 技 术 支 持 。P2P 对 网 络 带 宽 资 源 的 滥 用 , 已 经 受 到 各 个 网 络 服 务 提 供 商 、 网 络运 营 商 和 网 络 管 理 者 的 高 度 重 视 。 P2P 应 用 的 快 速 发 展 也 给 社 会 带 来 了一 定 的 负 面 影 响 , 如 病 毒 和 木 马 的 快 速 传 播 、 色 情 和 暴 力 等 不 健 康 内 容不 受 限 制 的 共 享 、 盗 版 音 乐 和 影 视 不 受 版 权 制 约 的 下 载 等 方 面 , 如 何 给广 大 的 互 联 网 使 用 者 提 供 一

22、 个 安 全 、 可 靠 和 高 效 的 使 用 环 境 , 是 网 络 管理 需 要 解 决 的 问 题 。 站 在 网 络 资 源 拥 有 者 的 角 度 , 如 何 优 化 现 有 的 各 种网 络 资 源 , 如 何 根 据 网 络 的 发 展 趋 势 , 做 出 合 理 的 规 划 和 设 计 , 也 是 一个 重 要 的 问 题 。1.10 研究目的及意义P2P 流 量 分 类 (P2P Traffic Classification)是 指 在 基 于 TCP/IP 协 议 的Internet 网 中 , 按 照 P2P 的 协 议 类 型 5,6, 将 P2P 通 信 产 生 的

23、 双 向 TCP 或UDP 流 (Flow)进 行 分 类 。 它 是 认 识 、 管 理 、 优 化 各 种 P2P 资 源 的 重 要 依据 。 随 着 P2P 的 不 断 发 展 , 由 于 很 多 新 的 P2P 系 统 (如 : BitTorrent, eDonkey,FastTrack)采 用 动 态 端 口 7、 协 议 加 密 8以 及 其 它 方 面 的 原 因 , 如 , Kazza、Gnutella 等 一 方 面 使 用 Web 的 80 端 口 号 传 输 其 流 量 , 另 一 方 面 其 报 文 格式 也 模 仿 http 流 量 , 而 基 于 有 效 载 荷

24、的 P2P 分 类 方 法 中 协 议 解 码 需 要 协议 知 识 和 完 整 的 数 据 , 且 签 名 匹 配 需 要 更 新 协 议 变 化 和 很 难 处 理 协 议 加密 问 题 。 使 得 传 统 的 基 于 端 口 (Port-based)9的 P2P 流 量 分 类 和 基 于 有 效载 荷 (Payload-based)3的 P2P 流 量 分 类 方 法 已 不 能 保 证 进 行 正 确 的 P2P1-第 一 章 引 言流 量 的 分 类 和 统 计 。所 以 研 究 依 据 P2P 流 量 的 特 性 , 采 用 新 的 方 法 和 技 术 , 对 P2P 流 量 的

25、协 议 类 型 进 行 高 准 确 的 分 类 , 即 , P2P 流 量 分 类 , 是 非 常 必 要 的 。P2P 流 量 是 记 录 和 反 应 P2P 应 用 及 其 用 户 活 动 的 重 要 载 体 。 P2P 流量 分 析 和 分 类 是 认 识 P2P 的 一 面 镜 子 。 P2P 流 量 分 类 也 是 管 理 和 优 化 各种 P2P 资 源 的 重 要 依 据 。 在 基 于 机 器 学 习 的 P2P 流 量 分 类 研 究 中 , 用 基于 统 计 特 征 表 示 的 流 (样 本 流 ), 发 现 规 律 , 构 建 分 类 器 , 分 类 新 的 P2P流 量

26、 所 对 应 的 协 议 类 型 。 研 究 具 有 以 下 价 值 。(1)利 用 基 于 ReliefF-CFS 等 特 征 选 择 方 法 和 基 于 支 持 向 量 机 (SVM)、C4.5 决 策 树 、 K 最 近 邻 (KNN)等 机 器 学 习 相 结 合 的 方 法 , 研 究 适 合 于 P2P流 量 分 类 的 分 类 技 术 , 可 以 获 得 流 的 特 征 选 择 、 分 类 器 构 造 等 新 的 分 类方 法 和 技 术 , 具 有 较 强 的 理 论 价 值 。(2)研 究 所 得 到 的 分 类 技 术 , 可 以 应 用 于 Internet 网 上 P2

27、P 流 量 的 分类 , 根 据 P2P 流 的 协 议 类 型 在 线 识 别 和 分 类 P2P 流 , 可 以 应 用 于 下 列 网络 管 理 应 用 中 。 网 络 拥 塞 和 路 由 选 择 网 络 计 费 , 为 改 变 传 统 包 月 计 费 方 式 提 供 支 持 网 络 质 量 服 务 (Qos) 网 络 的 规 划 、 设 计 和 管 理1.11 国 内 外 研 究 现 状1.3.12 基于端口(Port-based)方法的研究现状基 于 端 口 的 P2P 分 类 使 用 数 据 报 文 头 部 传 输 层 的 端 口 信 息 , 文 献 9,10包 含 了 常 用 的

28、 P2P 协 议 类 型 使 用 的 静 态 端 口 (Port Number), 当 P2P 应 用 使用 周 知 的 静 态 端 口 时 基 于 端 口 的 P2P 流 量 分 类 技 术 有 很 好 的 效 果 , 分 类 中只 需 要 根 据 解 析 出 的 数 据 报 文 端 口 号 就 能 很 容 易 识 别 出 P2P 应 用 的 类 型 ,分 类 的 准 确 率 和 分 类 效 率 都 很 高 。 但 是 越 来 越 多 新 的 P2P 应 用 , 不 再 使 用固 定 的 和 事 先 预 知 的 端 口 号 , IANA(Internet Assigned NumbersAu

29、thority)11分 配 周 知 (well-know)端 口 号 范 围 是 0 到 1023, 注 册 端 口 号 的范 围 是 1024 到 49151。 但 是 许 多 P2P 应 用 没 有 IANA 分 配 或 注 册 的 端 口 号 ,仅 使 用 周 知 的 默 认 端 口 , 而 这 些 通 常 与 IANA 分 配 的 端 口 号 存 在 交 迭 , 这导 致 基 于 端 口 的 方 法 , 无 法 正 确 识 别 P2P 流 量 的 协 议 类 型 。1.3.13 基 于 有 效 载 荷 (Payload-based) 方 法 的 研 究 现 状基 于 有 效 载 荷 的

30、 方 法 是 通 过 对 数 据 包 应 用 层 协 议 的 深 层 扫 描 发 现P2P 协 议 类 型 , 这 种 方 法 准 确 率 比 基 于 端 口 方 法 要 高 , 端 口 的 变 化 不 会 影 响 分 类2-湖南工业大学硕士学位论文:基于机器学习算法的P2P 流量分 类研究结 果 , 使 用 这 种 方 法 对 网 络 流 量 进 行 分 类 , 简 单 、 可 靠 。 文 献 3通 过 对协 议 类 型 的 请 求 和 应 答 信 息 , 以 及 特 定 的 字 符 串 来 识 别 Gnutella, eDonkey等 几 种 常 用 P2P 协 议 。 文 献 12于 2

31、004 年 提 出 基 于 应 用 签 名 的 P2P 流 量检 测 方 法 , 该 方 法 把 负 载 特 征 分 为 固 定 偏 移 量 (Fixed Offset)特 征 和 变 化偏 移 量 (Variable Offset)特 征 , 第 一 步 检 查 固 定 偏 移 量 , 第 二 步 检 查 变 化偏 移 量 , 在 性 能 和 精 度 上 都 取 得 了 令 人 满 意 的 效 果 。 文 献 13搜 集 了 8种 流 行 的 P2P 协 议 的 Payload 关 键 字 , 并 和 端 口 识 别 的 方 法 结 合 起 来 ,对 因 特 网 主 干 流 量 (两 条 O

32、C48 链 路 ) 进 行 了 分 析 。 文 献 14基 于 应 用 层签 名 , 提 出 一 种 简 单 、 有 效 、 灵 活 的 P2P 流 量 测 量 方 法 , 且 该 方 法 具 有易 于 扩 展 到 新 P2P 应 用 的 特 点 。尽 管 基 于 有 效 载 荷 方 法 的 识 别 技 术 避 免 依 赖 于 固 定 端 口 号 , 但 它 增加 了 网 络 识 别 设 备 的 复 杂 性 和 处 理 的 负 担 , 如 随 着 P2P 应 用 的 增 加 , 特 征串 的 数 量 15也 相 应 增 加 , 使 得 这 种 方 法 每 检 测 一 个 数 据 报 文 所 需

33、 要 匹 配的 特 征 串 越 来 越 多 , 从 而 识 别 的 效 率 逐 渐 降 低 。 这 种 方 法 必 须 保 持 与 广泛 的 应 用 语 义 和 P2P 级 语 法 知 识 的 一 致 性 , 必 须 有 能 力 对 潜 在 的 大 量 流 进行 并 发 分 析 。 当 遇 到 内 容 特 征 未 公 布 的 或 加 了 密 的 P2P 流 量 时 就 十 分 困 难或 是 不 可 能 , 另 一 个 问 题 是 直 接 分 析 应 用 层 内 容 可 能 触 及 侵 犯 个 人 隐 私等 法 律 问 题 。文 献 1在 考 虑 基 于 有 效 载 荷 识 别 方 法 时 ,

34、同 时 也 提 出 了 一 种 基 于 启发 式 规 则 的 P2P 流 量 的 分 类 方 法 , 该 方 法 对 于 分 类 P2P 与 非 P2P 有 比 较高 的 分 类 准 确 率 。 文 献 16通 过 传 输 层 统 计 P2P 的 连 接 直 径 和 双 向 连 接数 量 来 识 别 P2P 流 量 , 文 献 17对 基 于 端 口 、 基 于 应 用 层 签 名 和 基 于 传输 层 分 析 的 三 种 P2P 流 量 分 类 方 法 进 行 比 较 , 基 于 传 输 层 分 析 的 方 法 是三 种 方 法 中 最 好 的 。对 于 P2P 流 量 分 类 , 传 统

35、的 基 于 端 口 的 和 基 于 有 效 载 荷 的 解 决 方 案已 经 在 实 际 中 取 得 一 些 成 果 :L7-filter18是 基 于 Linux 内 核 的 ,挂 载 在IPtables 的 扩 展 匹 配 模 块 上 的 包 识 别 程 序 。 利 用 简 单 的 特 征 值 (如 : 端 口号 )和 对 应 用 层 的 数 据 使 用 正 则 表 达 式 来 匹 配 ,以 此 来 辨 认 应 用 层 使 用 的协 议 。 分 析 长 度 是 一 个 连 接 的 前 10 个 包 或 者 前 2048 字 节 。 IPP2P19是 工 作 在 Linux 环 境 下 ,同

36、 样 是 挂 载 在 IPtables 的 扩 展 匹 配 模 块 上 ,而 且 也同 样 使 用 特 征 串 匹 配 的 方 式 , 但 是 分 析 每 个 包 的 特 征 串 。 Cisco 的NBAR(Network-Based Application Recognition) 20是 一 个 可 以 广 泛 识 别不 同 应 用 程 序 的 辨 识 引 擎 。 通 过 使 用 PDLM(Packet Description LanguageModule)可 以 加 载 很 多 的 应 用 , 但 也 会 相 应 增 加 路 由 器 的 负 担 。3-第 一 章 引 言1.12 基 于

37、机 器 学 习 的 网 络 流 量 分 类 研 究 现 状对 流 量 分 类 使 用 机 器 学 习 21,22的 方 法 在 国 内 还 不 多 见 , 在 国 外 已 有一 定 的 研 究 。 文 献 23的 作 者 使 用 主 成 分 分 析 和 密 度 估 计 方 法 把 流 量 分 类到 不 同 的 应 用 。 作 者 仅 使 用 一 个 小 的 数 据 集 、 两 个 流 属 性 及 少 数 周 知 端口 对 应 的 网 络 应 用 , 进 行 研 究 。 文 献 24利 用 最 大 期 望 (EM)算 法 和 固 定的 流 属 性 集 , 将 网 络 流 量 聚 类 到 不 同

38、的 协 议 类 型 。 文 献 25提 出 一 种 无 监督 (unsupervised)的 机 器 学 习 算 法 来 识 别 不 同 网 络 应 用 的 框 架 , 用 流 的 统计 特 性 作 为 流 的 特 征 来 进 行 网 络 流 量 自 动 分 类 研 究 。 文 献 26,27 采 用 几种 不 同 的 机 器 学 习 算 法 对 网 络 流 量 进 行 分 类 研 究 , 采 用 的 机 器 学 习 算 法分 别 为 贝 叶 斯 网 (Bayesian Network)、 C4.5 决 策 树 、 贝 叶 斯 (Naive Bayes)及 贝 叶 斯 树 (Naive Bay

39、es Tree)。 文 献 28使 用 基 于 贝 叶 斯 分 类 器 (BayesClassifier)和 大 量 的 流 属 性 , 来 进 行 网 络 流 量 的 分 类 研 究 。 文 献 29的 作者 用 基 于 贝 叶 斯 训 练 神 经 网 络 (Bayesian trained Neural Network)的 监 督(Supervised)机 器 学 习 的 方 法 , 来 对 网 络 流 量 进 行 分 类 研 究 , 并 获 得 了 很好 的 分 类 准 确 度 。1.13 基 于 机 器 学 习 的 P2P 流 量 分 类 研 究 现 状国 内 外 对 P2P 流 量

40、的 分 类 使 用 机 器 学 习 技 术 也 有 少 量 的 研 究 , 文 献30,31采 用 一 种 Self Organizing Maps(SOM)的 人 工 神 经 网 络 来 识 别 P2P流 量 , Jeffrey Erman 等 32使 用 无 监 督 的 聚 类 算 法 来 分 类 Web 和 P2P 流 量 ,实 现 结 果 表 明 此 分 类 方 法 达 到 95%的 流 分 类 准 确 率 和 80%的 字 节 准 确 率 。文 献 2通 过 研 究 P2P 结 点 上 传 与 下 载 之 间 的 比 率 , 建 立 一 个 特 征 库 结 合机 器 学 习 算 法

41、来 分 类 新 的 P2P 流 量 。 文 献 33,34使 用 不 同 的 评 价 标 准 比 较了 贝 叶 斯 等 多 种 机 器 学 习 算 法 用 于 P2P 流 量 分 类 的 性 能 。 文 献 35提 出 了一 种 基 于 P2P 流 的 统 计 特 征 (26 种 ),利 用 支 持 向 量 机 (SVM)方 法 来 分 类BitTorrent、 pplive、 Skype、 MSN 等 四 种 P2P 流 量 的 方 法 , 对 实 验 数 据 有较 好 的 分 类 效 果 。1.14 不 同 层 面 的 流 量 分 析目 前 对 网 络 流 量 分 析 的 研 究 , 主

42、要 在 以 下 几 个 不 同 的 粒 度 上 进 行36,37:1) Bit-level 的 流 量 分 析主 要 关 注 网 络 流 量 的 数 量 特 征 , 如 网 络 线 路 的 传 输 速 率 以 及 吞 吐 率 的变 化 等 。2) Packet-level 的 流 量 分 析主 要 关 注 IP 包 (packet)的 到 达 过 程 、 延 迟 和 丢 包 率 等 。 C.Fraleigh 等 于38采 用 被 动 的 监 控 系 统 捕 获 packet-level 的 流 量 , 研 究 骨 干 网 在 流 量4-湖南工业大学硕士学位论文:基于机器学习算法的P2P 流量分

43、 类研究负 载 、 TCP 流 的 双 向 传 送 时 间 、 包 的 无 序 比 率 和 包 的 延 迟 等 方 面 的 变化 。3) Flow-level 的 流 量 分 析Flow 是 一 个 相 对 较 为 宽 松 的 定 义 , 其 划 分 的 主 要 依 据 是 地 址 和 应 用 协议 , 这 方 面 的 研 究 主 要 关 注 Flow 的 到 达 过 程 、 到 达 间 隔 以 及 其 局 部特 性 。4)Stream-level 的 流 量 分 析文 献 37给 出 stream 的 定 义 是 一 个 由 源 、 目 的 IP 地 址 以 及 应 用 协 议组 成 的 三

44、 元 组 。 其 目 的 主 要 是 在 一 个 更 粗 的 粒 度 上 研 究 主 干 网 的 长 期 流量 统 计 特 性 。上 述 四 个 层 面 的 研 究 , 流 量 的 粒 度 由 小 到 大 递 增 , 所 关 注 时 间 尺 度 也逐 渐 增 大 。 在 不 同 时 间 尺 度 上 , 网 络 流 量 往 往 表 现 出 不 同 的 行 为 规 律 。通 常 , 网 络 设 备 (三 层 交 换 机 、 路 由 器 等 )本 身 提 供 了 基 于 IP 包 头 的 分 析功 能 , 负 责 网 络 流 数 据 的 分 析 和 整 理 , 按 照 一 定 的 条 件 和 定 义

45、 良 好 的 数据 格 式 向 流 采 集 器 输 出 数 据 , 然 后 再 用 相 关 的 软 件 关 键 将 采 集 到 的 网 络流 数 据 进 行 整 理 、 分 析 和 客 户 端 展 现 。 因 此 Flow-level 的 流 量 分 析 将 是研 究 的 趋 势 。基 于 机 器 学 习 的 P2P 流 量 分 类 研 究 是 在 Flow-Level 的 层 次 上 展 开 ,不 同 的 P2P 协 议 类 型 具 有 不 同 的 传 输 数 据 的 模 式 , 根 据 这 些 模 式 可 以 对P2P 流 量 进 行 分 类 。1.15 研 究 内 容 及 组 织 结 构

46、1.3.14 论 文 研 究 内 容从 前 面 的 分 析 可 以 看 到 基 于 端 口 和 基 于 有 效 载 荷 的 P2P 流 量 分 类 方法 已 经 不 适 用 今 天 日 益 快 速 发 展 的 P2P 网 络 。 通 过 提 取 基 于 TCP/IP 网 络系 统 的 网 络 层 和 传 输 层 原 始 数 据 报 文 头 部 的 信 息 , 形 成 用 特 征 向 量 表 示的 P2P 流 , 结 合 机 器 学 习 的 方 法 来 分 类 P2P 流 是 我 们 要 研 究 的 内 容 。 本论 文 的 研 究 具 体 包 括 P2P 流 量 数 据 采 集 及 处 理 、

47、 特 征 产 生 及 特 征 选 择 、机 器 学 习 算 法 与 分 类 器 构 建 、 P2P 流 量 分 类 系 统 的 设 计 与 实 现 四 个 主 要内 容 。(1) P2P 流 量 数 据 数 据 采 集 及 处 理由 于 目 前 还 没 有 权 威 机 构 发 布 与 我 们 研 究 相 关 的 P2P 协 议 类 型 原 始数 据 , 所 以 , 研 究 的 数 据 需 要 我 们 通 过 自 己 建 立 的 环 境 采 集 , 采 集 基 于TCP/IP 协 议 的 网 络 数 据 报 文 , 在 网 络 层 和 传 输 层 进 行 数 据 解 析 , 按 流 的定 义 标

48、 准 统 计 流 的 特 征 , 处 理 成 能 用 于 机 器 学 习 的 形 式 ; 如 果 是 用 于 分5-第 一 章 引 言类 器 建 立 的 样 本 流 还 需 要 根 据 报 文 的 相 关 信 息 标 注 流 的 协 议 类 型 。(2) 特 征 产 生 及 特 征 选 择从 网 络 层 和 传 输 层 解 析 出 的 信 息 经 过 统 计 和 变 换 , 产 生 出 表 示 流 的特 征 向 量 , 并 通 过 特 征 选 择 方 法 , 在 保 证 分 类 准 确 率 和 减 少 特 征 统 计 计算 机 时 间 的 前 提 下 , 从 候 选 特 征 中 特 征 选 择

49、 用 于 机 器 学 习 算 法 的 较 优 的特 征 子 集 。(3) 机 器 学 习 算 法 与 分 类 器 构 建主 要 研 究 P2P 流 的 训 练 与 测 试 样 本 的 选 取 , 不 同 机 器 学 习 算 法 对 P2P流 量 分 类 的 效 果 , 机 器 学 习 算 法 参 数 的 设 置 , 用 单 独 的 测 试 数 据 对 分 类器 进 行 测 试 , 依 据 准 确 率 和 分 类 时 间 两 个 评 估 标 准 选 择 较 好 的 机 器 学 习算 法 及 其 应 用 时 P2P 流 量 分 类 的 较 优 分 类 参 数 , 以 及 用 于 构 建 分 类 器 的训 练 样 本 数 量 。(4) P2P 流 量 分 类 系 统 的 设 计 与 实 现系 统 设 计 成 分 类 器 构 建 和 分 类 两 个 阶 段 , 每 个 阶 段 设 计 有 数 据 采 集 、数 据 解 析 、 流 的 合 成 以

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报