收藏 分享(赏)

基于机器学习算法的P2P流量分类研究.doc

上传人:彼岸花开 文档编号:3688613 上传时间:2018-11-15 格式:DOC 页数:135 大小:2.66MB
下载 相关 举报
基于机器学习算法的P2P流量分类研究.doc_第1页
第1页 / 共135页
基于机器学习算法的P2P流量分类研究.doc_第2页
第2页 / 共135页
基于机器学习算法的P2P流量分类研究.doc_第3页
第3页 / 共135页
基于机器学习算法的P2P流量分类研究.doc_第4页
第4页 / 共135页
基于机器学习算法的P2P流量分类研究.doc_第5页
第5页 / 共135页
亲,该文档总共135页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、湖 南 工 业 大 学 学 位 论 文 原 创 性 声 明本 人 郑 重 声 明 : 所 呈 交 的 学 位 论 文 , 是 本 人 在 导 师 的 指 导 下 , 独立 进 行 研 究 工 作 所 取 得 的 成 果 。 除 文 中 已 经 注 明 引 用 的 内 容 外 , 本 论文 不 含 任 何 其 他 个 人 或 集 体 已 经 发 表 或 撰 写 过 的 作 品 成 果 。 对 本 文 的研 究 做 出 重 要 贡 献 的 个 人 和 集 体 , 均 已 在 文 中 以 明 确 方 式 标 明 。 本 人完全意识到本声明的法律结果由本人承担。作者签名: 日 期 : 年 月 日湖 南

2、 工 业 大 学 论 文 版 权 使 用 授 权 书本 人 了 解 湖 南 工 业 大 学 有 关 保 留 、 使 用 学 位 论 文 的 规 定 , 即 : 学校 有 权 保 留 学 位 论 文 , 允 许 学 位 论 文 被 查 阅 和 借 阅 ; 学 校 可 以 公 布 学位 论 文 的 全 部 或 部 分 内 容 , 可 以 采 用 复 印 、 缩 印 或 其 他 手 段 保 存 学 位论文;学校可根据国家或湖南省有关部门规定送交学位论文。作者签名: 导师签 名: 日 期 : 年 月 日-摘 要P2P 应 用 的 快 速 增 长 , 带 来 网 络 拥 塞 、 大 量 消 费 网 络

3、带 宽等 诸 多 问 题 , 而 传 统 的 基 于 端 口 与 有 效 载 荷 的 网 络 流 量 分 类 方法 存 在 着 很 多 缺 陷 , 研 究 按 照 5 元 组 (源 IP、 源 Port、 目 的 IP、目 的 Prot 及 IP 协 议 )的 定 义 , 将 P2P 报 文 分 成 双 向 TCP 或 UDP流 , 抽 取 独 立 于 端 口 、 协 议 和 有 效 载 荷 的 原 始 数 据 报 文 的 信 息作 为 P2P 流 的 特 征 , 形 成 特 征 向 量 , 用 特 征 向 量 表 示 流 , 流 的分 类 类 别 为 P2P 的 协 议 类 型 。用 提 出

4、 的 基 于 ReliefF-CFS 的 方 法 选 择 流 的 特 征 子 集 , 该方 法 结 合 ReliefF 和 基 于 相 关 性 (CFS)两 种 特 征 选 择 方 法 , 产 生适 合 于 分 类 P2P 流 的 特 征 子 集 。 首 先 利 用 ReliefF 特 征 选 择 方法 把 候 选 特 征 按 与 类 别 相 关 性 的 大 小 排 序 ,通 过 设 定 的 阈 值 选择 与 类 别 相 关 性 大 的 特 征 子 集 作 为 CFS 选 择 方 法 的 初 始 集 , 然后 利 用 CFS 结 合 正 向 搜 索 得 到 最 终 的 较 优 特 征 子 集

5、。研 究 使 用 C4.5 决 策 树 、 支 持 向 量 机 (SVM)、 K 近 邻 (KNN)三种 机 器 学 习 算 法 构 建 P2P 流 量 分 类 器 , 利 用 获 取 的 原 始 数 据 寻找 分 类 器 的 最 优 分 类 参 数 , 主 要 采 用 分 类 准 确 率 和 分 类 时 间 标准 进 行 评 估 ; 并 研 究 统 计 原 始 数 据 报 文 的 部 分 信 息 分 类 P2P 流 ,实 验 中 分 别 统 计 流 的 双 向 50、 100、 150、 200 个 报 文 信 息 , 结果 显 示 不 仅 减 少 了 特 征 统 计 计 算 的 复 杂 度

6、 和 分 类 的 时 间 , 而 且有 更 高 的 分 类 准 确 率 。为 了 让 研 究 的 成 果 能 有 实 际 的 应 用 价 值 , 通 过 构 建 相 应 的硬 件 、 软 件 环 境 , 对 P2P 流 量 的 在 线 实 时 分 类 作 了 初 步 的 研 究 。设 计 并 实 现 了 基 于 机 器 学 习 算 法 的 P2P流 量 分 类 原 型 系 统 ,系 统 分 类 分 类 器 构 建 和 分 类 两 个 阶 段 , 每 个 阶 段 有 数 据 采 集 、数 据 解 析 、 流 的 合 成 以 及 分 类 四 个 模 块 。关 键 字 P2P, 流 量 分 类 ,

7、特 征 选 择 , 机 器 学 习I-ABSTRACTMore and more P2P applications consume network bandwidth andgenerate network congestion. The traditional P2P traffic classificationmethods based on port and payload have many objections. According to thefive-tuple definition (source IP address, source port number, destinat

8、ion IPaddress, destination port number and IP protocol), the packets are classifiedinto bidirectional TCP or UDP flow. The flow attributes irrelevant toprotocol and ports are extracted to be characteristic vector that is used torepresent the traffic. The traffic classification type is the protocol t

9、ype ofP2P.The traffic characteristic subset is decided by using the ReliefF-CFSmethod, which combines with ReliefF and CFS to generate characteristicsubsets for classifying the P2P traffic. The candidate characteristics are firstordered by the dependency using the ReliefF method, of which larger tha

10、nthreshold is set into the original set for CFS method, then the final optimalcharacteristic set is decided by using CFS and forward search.The P2P traffic classifier is constructed using C4.5 decision tree, SVMand KNN. And the optimal parameters are determined by using the originalcharacteristic se

11、t and estimated with the classification accuracy and time.Part of original packets is statistical to classify P2P traffic. In experiment,the number of 50, 100,150 and 200 bidirectional packets is statistical. Theresult shows that the promoted method has lower complexity andclassification time, and h

12、igher classification accuracy.The online real-time classification of P2P traffic is researched byconstructing hardware and software platform, which can promote theapplication.The P2P traffic classification prototype based on machine learningmethod is designed and implemented, which contains the two

13、stages ofconstruction and classification. Each stage contains data collection, dataparse, traffic compound and classification.Keyword: p2p; traffic classification; feature selection; machine learningII-目 录摘 要 .IABSTRACTII第 一 章 引 言 11.1 研 究 背 景 11.2 研 究 目 的 及 意 义 11.3 国 内 外 研 究 现 状 . 21.3.1 基 于 端 口 (

14、Port-based)方 法 的 研 究 现 状 . 21.3.2 基 于 有 效 载 荷 (Payload-based) 方 法 的 研 究 现 状 21.3.3 基 于 机 器 学 习 的 网 络 流 量 分 类 研 究 现 状 . 41.3.4 基 于 机 器 学 习 的 P2P 流 量 分 类 研 究 现 状 . 41.3.5 不同层面的流量分析 41.4 研究内容及组织结构. 51.4.1 论 文 研 究 内 容 51.4.2 论 文 组 织 结 构 6第 二 章 基 于 RELIEFF-CFS 的 P2P 流 量 特 征 选 择 82.1 P2P 流的 定义及特征 产生. 82.1

15、.1 P2P 流 的 定 义 及 表 示 82.1.2 P2P 流 特 征 的 产 生 82.2 特 征 选 择 理 论 与 研 究 现 状 92.3 基 于 RELIEFF-CFS 的算法进行特征选择. 112.3.1 用 基 于 ReliefF 算 法 对 P2P 流 特 征 进 行 初 步 选 择 的 方 法 . 112.3.2 用 CFS 方 法 选 择 较 优 特 征 子 集 . 122.4 实 验 结 果 与 分 析 132.5 本 章 小 结 17第 三 章 基 于 机 器 学 习 P2P 流 量 分 类 器 研 究 193.1 基 于 支 持 向 量 机 (SVM)的 P2P

16、流 量 分 类 器 方 法 193.1.1 核函数介绍 193.1.2 最 大 间 隔 原 则 . 20I-1.5 基 于 C4.5 决 策 树 的 P2P 网 络 流 量 分 类 器 221.6 基 于 KNN 的 P2P 流 量 分 类 器 . 231.7 实 验 结 果 与 分 析 241.3.6 机 器 学 习 最 优 参 数 搜 索 241.3.7 机 器 学 习 算 法 参 数 设 置 251.3.8 样 本 数 量 与 分 类 准 确 率 的 关 系 . 251.3.9 类 别 数 量 与 分 类 准 确 率 的 关 系 . 261.3.10 使 用 独 立 测 试 样 本 集

17、对 分 类 器 进 行 测 试 281.3.11 实验结论 301.8 本 章 小 结 30第 四 章 基 于 机 器 学 习 的 P2P 流量分类系统的设计. 311.4.3 系 统 框 架 . 311.4.4 数据采集模块的设计 311.4.5 数据解析模块的设计 321.4.6 合 成 流 模 块 的 设 计 . 341.4.7 分 类 模 块 的 设 计 342.6 本 章 小 结 35第 五 章 基 于 机 器 学 习 的 P2P 流 量 分 类 系 统 的 实 现 .362.1.3 分 类 器 构 建 阶 段 的 实 现 . 362.3.3 数据采集功能的实现. 362.3.4 数

18、 据 解 析 、 流 的 合 成 模 块 的 实 现 . 372.3.5 分 类 模 块 的 实 现 . 372.3.6 系统主要功能介绍 . 372.3.7 分类器构建阶段实验. 392.1.4 在线分类阶段的实现 413.2 在 线 数 据 的 捕 获 、 解 析 413.3 在 线 流 的 的 合 成 . 433.4 在 线 分 类 策 略 . 432.1.5 在 线 分 类 . 453.1.3 在 线 分 类 实 验 环 境 的 构 建 453.1.4 在 线 分 类 算 法 . 453.1.5 在 线 分 类 实 验 . 462.1.6 本 章 小 结 48II-第 六 章 结 论

19、496.1 结 论 . 496.2 进一步的工作 50参考文献. .51附 录 56致 谢 57III-湖南工业大学硕士学位论文:基于机器学习算法的P2P 流量分 类研究第 一 章 引 言1.9 研究背景P2P (peer-to-peer)技 术 是 近 年 来 互 联 网 最 热 门 的 技 术 , 以 其 对 等性 高 、 扩 展 性 强 、 健 壮 性 高 等 诸 多 优 点 和 独 特 的 技 术 优 势 在 在 VoIP、 下载 、 流 媒 体 、 协 调 计 算 等 领 域 得 到 飞 速 发 展 1,2,3, P2P 的 协 议 类 型 、 用 户规 模 和 网 络 流 量 均

20、呈 爆 发 式 增 长 , 测 量 研 究 表 明 在 欧 洲 P2P 应 用 已 占 ISP业 务 总 量 的 60% 80%4, 跃 然 成 为 网 络 带 宽 的 最 大 消 费 者 , P2P 应 用 的兴 起 , 也 打 破 了 网 络 运 营 商 原 有 的 运 营 和 商 业 模 式 。 再 加 上 Internet 网重 要 性 的 日 益 提 高 和 P2P 结 构 的 日 益 复 杂 , P2P 的 安 全 性 、 可 管 理 性 受 到了 严 峻 的 挑 战 , 人 们 意 识 到 越 来 越 有 必 要 对 P2P 流 量 和 P2P 行 为 进 行 深入 的 了 解

21、、 分 析 , 为 监 控 与 管 理 P2P 提 供 技 术 支 持 。P2P 对 网 络 带 宽 资 源 的 滥 用 , 已 经 受 到 各 个 网 络 服 务 提 供 商 、 网 络运 营 商 和 网 络 管 理 者 的 高 度 重 视 。 P2P 应 用 的 快 速 发 展 也 给 社 会 带 来 了一 定 的 负 面 影 响 , 如 病 毒 和 木 马 的 快 速 传 播 、 色 情 和 暴 力 等 不 健 康 内 容不 受 限 制 的 共 享 、 盗 版 音 乐 和 影 视 不 受 版 权 制 约 的 下 载 等 方 面 , 如 何 给广 大 的 互 联 网 使 用 者 提 供 一

22、 个 安 全 、 可 靠 和 高 效 的 使 用 环 境 , 是 网 络 管理 需 要 解 决 的 问 题 。 站 在 网 络 资 源 拥 有 者 的 角 度 , 如 何 优 化 现 有 的 各 种网 络 资 源 , 如 何 根 据 网 络 的 发 展 趋 势 , 做 出 合 理 的 规 划 和 设 计 , 也 是 一个 重 要 的 问 题 。1.10 研究目的及意义P2P 流 量 分 类 (P2P Traffic Classification)是 指 在 基 于 TCP/IP 协 议 的Internet 网 中 , 按 照 P2P 的 协 议 类 型 5,6, 将 P2P 通 信 产 生 的

23、 双 向 TCP 或UDP 流 (Flow)进 行 分 类 。 它 是 认 识 、 管 理 、 优 化 各 种 P2P 资 源 的 重 要 依据 。 随 着 P2P 的 不 断 发 展 , 由 于 很 多 新 的 P2P 系 统 (如 : BitTorrent, eDonkey,FastTrack)采 用 动 态 端 口 7、 协 议 加 密 8以 及 其 它 方 面 的 原 因 , 如 , Kazza、Gnutella 等 一 方 面 使 用 Web 的 80 端 口 号 传 输 其 流 量 , 另 一 方 面 其 报 文 格式 也 模 仿 http 流 量 , 而 基 于 有 效 载 荷

24、的 P2P 分 类 方 法 中 协 议 解 码 需 要 协议 知 识 和 完 整 的 数 据 , 且 签 名 匹 配 需 要 更 新 协 议 变 化 和 很 难 处 理 协 议 加密 问 题 。 使 得 传 统 的 基 于 端 口 (Port-based)9的 P2P 流 量 分 类 和 基 于 有 效载 荷 (Payload-based)3的 P2P 流 量 分 类 方 法 已 不 能 保 证 进 行 正 确 的 P2P1-第 一 章 引 言流 量 的 分 类 和 统 计 。所 以 研 究 依 据 P2P 流 量 的 特 性 , 采 用 新 的 方 法 和 技 术 , 对 P2P 流 量 的

25、协 议 类 型 进 行 高 准 确 的 分 类 , 即 , P2P 流 量 分 类 , 是 非 常 必 要 的 。P2P 流 量 是 记 录 和 反 应 P2P 应 用 及 其 用 户 活 动 的 重 要 载 体 。 P2P 流量 分 析 和 分 类 是 认 识 P2P 的 一 面 镜 子 。 P2P 流 量 分 类 也 是 管 理 和 优 化 各种 P2P 资 源 的 重 要 依 据 。 在 基 于 机 器 学 习 的 P2P 流 量 分 类 研 究 中 , 用 基于 统 计 特 征 表 示 的 流 (样 本 流 ), 发 现 规 律 , 构 建 分 类 器 , 分 类 新 的 P2P流 量

26、 所 对 应 的 协 议 类 型 。 研 究 具 有 以 下 价 值 。(1)利 用 基 于 ReliefF-CFS 等 特 征 选 择 方 法 和 基 于 支 持 向 量 机 (SVM)、C4.5 决 策 树 、 K 最 近 邻 (KNN)等 机 器 学 习 相 结 合 的 方 法 , 研 究 适 合 于 P2P流 量 分 类 的 分 类 技 术 , 可 以 获 得 流 的 特 征 选 择 、 分 类 器 构 造 等 新 的 分 类方 法 和 技 术 , 具 有 较 强 的 理 论 价 值 。(2)研 究 所 得 到 的 分 类 技 术 , 可 以 应 用 于 Internet 网 上 P2

27、P 流 量 的 分类 , 根 据 P2P 流 的 协 议 类 型 在 线 识 别 和 分 类 P2P 流 , 可 以 应 用 于 下 列 网络 管 理 应 用 中 。 网 络 拥 塞 和 路 由 选 择 网 络 计 费 , 为 改 变 传 统 包 月 计 费 方 式 提 供 支 持 网 络 质 量 服 务 (Qos) 网 络 的 规 划 、 设 计 和 管 理1.11 国 内 外 研 究 现 状1.3.12 基于端口(Port-based)方法的研究现状基 于 端 口 的 P2P 分 类 使 用 数 据 报 文 头 部 传 输 层 的 端 口 信 息 , 文 献 9,10包 含 了 常 用 的

28、 P2P 协 议 类 型 使 用 的 静 态 端 口 (Port Number), 当 P2P 应 用 使用 周 知 的 静 态 端 口 时 基 于 端 口 的 P2P 流 量 分 类 技 术 有 很 好 的 效 果 , 分 类 中只 需 要 根 据 解 析 出 的 数 据 报 文 端 口 号 就 能 很 容 易 识 别 出 P2P 应 用 的 类 型 ,分 类 的 准 确 率 和 分 类 效 率 都 很 高 。 但 是 越 来 越 多 新 的 P2P 应 用 , 不 再 使 用固 定 的 和 事 先 预 知 的 端 口 号 , IANA(Internet Assigned NumbersAu

29、thority)11分 配 周 知 (well-know)端 口 号 范 围 是 0 到 1023, 注 册 端 口 号 的范 围 是 1024 到 49151。 但 是 许 多 P2P 应 用 没 有 IANA 分 配 或 注 册 的 端 口 号 ,仅 使 用 周 知 的 默 认 端 口 , 而 这 些 通 常 与 IANA 分 配 的 端 口 号 存 在 交 迭 , 这导 致 基 于 端 口 的 方 法 , 无 法 正 确 识 别 P2P 流 量 的 协 议 类 型 。1.3.13 基 于 有 效 载 荷 (Payload-based) 方 法 的 研 究 现 状基 于 有 效 载 荷 的

30、 方 法 是 通 过 对 数 据 包 应 用 层 协 议 的 深 层 扫 描 发 现P2P 协 议 类 型 , 这 种 方 法 准 确 率 比 基 于 端 口 方 法 要 高 , 端 口 的 变 化 不 会 影 响 分 类2-湖南工业大学硕士学位论文:基于机器学习算法的P2P 流量分 类研究结 果 , 使 用 这 种 方 法 对 网 络 流 量 进 行 分 类 , 简 单 、 可 靠 。 文 献 3通 过 对协 议 类 型 的 请 求 和 应 答 信 息 , 以 及 特 定 的 字 符 串 来 识 别 Gnutella, eDonkey等 几 种 常 用 P2P 协 议 。 文 献 12于 2

31、004 年 提 出 基 于 应 用 签 名 的 P2P 流 量检 测 方 法 , 该 方 法 把 负 载 特 征 分 为 固 定 偏 移 量 (Fixed Offset)特 征 和 变 化偏 移 量 (Variable Offset)特 征 , 第 一 步 检 查 固 定 偏 移 量 , 第 二 步 检 查 变 化偏 移 量 , 在 性 能 和 精 度 上 都 取 得 了 令 人 满 意 的 效 果 。 文 献 13搜 集 了 8种 流 行 的 P2P 协 议 的 Payload 关 键 字 , 并 和 端 口 识 别 的 方 法 结 合 起 来 ,对 因 特 网 主 干 流 量 (两 条 O

32、C48 链 路 ) 进 行 了 分 析 。 文 献 14基 于 应 用 层签 名 , 提 出 一 种 简 单 、 有 效 、 灵 活 的 P2P 流 量 测 量 方 法 , 且 该 方 法 具 有易 于 扩 展 到 新 P2P 应 用 的 特 点 。尽 管 基 于 有 效 载 荷 方 法 的 识 别 技 术 避 免 依 赖 于 固 定 端 口 号 , 但 它 增加 了 网 络 识 别 设 备 的 复 杂 性 和 处 理 的 负 担 , 如 随 着 P2P 应 用 的 增 加 , 特 征串 的 数 量 15也 相 应 增 加 , 使 得 这 种 方 法 每 检 测 一 个 数 据 报 文 所 需

33、 要 匹 配的 特 征 串 越 来 越 多 , 从 而 识 别 的 效 率 逐 渐 降 低 。 这 种 方 法 必 须 保 持 与 广泛 的 应 用 语 义 和 P2P 级 语 法 知 识 的 一 致 性 , 必 须 有 能 力 对 潜 在 的 大 量 流 进行 并 发 分 析 。 当 遇 到 内 容 特 征 未 公 布 的 或 加 了 密 的 P2P 流 量 时 就 十 分 困 难或 是 不 可 能 , 另 一 个 问 题 是 直 接 分 析 应 用 层 内 容 可 能 触 及 侵 犯 个 人 隐 私等 法 律 问 题 。文 献 1在 考 虑 基 于 有 效 载 荷 识 别 方 法 时 ,

34、同 时 也 提 出 了 一 种 基 于 启发 式 规 则 的 P2P 流 量 的 分 类 方 法 , 该 方 法 对 于 分 类 P2P 与 非 P2P 有 比 较高 的 分 类 准 确 率 。 文 献 16通 过 传 输 层 统 计 P2P 的 连 接 直 径 和 双 向 连 接数 量 来 识 别 P2P 流 量 , 文 献 17对 基 于 端 口 、 基 于 应 用 层 签 名 和 基 于 传输 层 分 析 的 三 种 P2P 流 量 分 类 方 法 进 行 比 较 , 基 于 传 输 层 分 析 的 方 法 是三 种 方 法 中 最 好 的 。对 于 P2P 流 量 分 类 , 传 统

35、的 基 于 端 口 的 和 基 于 有 效 载 荷 的 解 决 方 案已 经 在 实 际 中 取 得 一 些 成 果 :L7-filter18是 基 于 Linux 内 核 的 ,挂 载 在IPtables 的 扩 展 匹 配 模 块 上 的 包 识 别 程 序 。 利 用 简 单 的 特 征 值 (如 : 端 口号 )和 对 应 用 层 的 数 据 使 用 正 则 表 达 式 来 匹 配 ,以 此 来 辨 认 应 用 层 使 用 的协 议 。 分 析 长 度 是 一 个 连 接 的 前 10 个 包 或 者 前 2048 字 节 。 IPP2P19是 工 作 在 Linux 环 境 下 ,同

36、 样 是 挂 载 在 IPtables 的 扩 展 匹 配 模 块 上 ,而 且 也同 样 使 用 特 征 串 匹 配 的 方 式 , 但 是 分 析 每 个 包 的 特 征 串 。 Cisco 的NBAR(Network-Based Application Recognition) 20是 一 个 可 以 广 泛 识 别不 同 应 用 程 序 的 辨 识 引 擎 。 通 过 使 用 PDLM(Packet Description LanguageModule)可 以 加 载 很 多 的 应 用 , 但 也 会 相 应 增 加 路 由 器 的 负 担 。3-第 一 章 引 言1.12 基 于

37、机 器 学 习 的 网 络 流 量 分 类 研 究 现 状对 流 量 分 类 使 用 机 器 学 习 21,22的 方 法 在 国 内 还 不 多 见 , 在 国 外 已 有一 定 的 研 究 。 文 献 23的 作 者 使 用 主 成 分 分 析 和 密 度 估 计 方 法 把 流 量 分 类到 不 同 的 应 用 。 作 者 仅 使 用 一 个 小 的 数 据 集 、 两 个 流 属 性 及 少 数 周 知 端口 对 应 的 网 络 应 用 , 进 行 研 究 。 文 献 24利 用 最 大 期 望 (EM)算 法 和 固 定的 流 属 性 集 , 将 网 络 流 量 聚 类 到 不 同

38、的 协 议 类 型 。 文 献 25提 出 一 种 无 监督 (unsupervised)的 机 器 学 习 算 法 来 识 别 不 同 网 络 应 用 的 框 架 , 用 流 的 统计 特 性 作 为 流 的 特 征 来 进 行 网 络 流 量 自 动 分 类 研 究 。 文 献 26,27 采 用 几种 不 同 的 机 器 学 习 算 法 对 网 络 流 量 进 行 分 类 研 究 , 采 用 的 机 器 学 习 算 法分 别 为 贝 叶 斯 网 (Bayesian Network)、 C4.5 决 策 树 、 贝 叶 斯 (Naive Bayes)及 贝 叶 斯 树 (Naive Bay

39、es Tree)。 文 献 28使 用 基 于 贝 叶 斯 分 类 器 (BayesClassifier)和 大 量 的 流 属 性 , 来 进 行 网 络 流 量 的 分 类 研 究 。 文 献 29的 作者 用 基 于 贝 叶 斯 训 练 神 经 网 络 (Bayesian trained Neural Network)的 监 督(Supervised)机 器 学 习 的 方 法 , 来 对 网 络 流 量 进 行 分 类 研 究 , 并 获 得 了 很好 的 分 类 准 确 度 。1.13 基 于 机 器 学 习 的 P2P 流 量 分 类 研 究 现 状国 内 外 对 P2P 流 量

40、的 分 类 使 用 机 器 学 习 技 术 也 有 少 量 的 研 究 , 文 献30,31采 用 一 种 Self Organizing Maps(SOM)的 人 工 神 经 网 络 来 识 别 P2P流 量 , Jeffrey Erman 等 32使 用 无 监 督 的 聚 类 算 法 来 分 类 Web 和 P2P 流 量 ,实 现 结 果 表 明 此 分 类 方 法 达 到 95%的 流 分 类 准 确 率 和 80%的 字 节 准 确 率 。文 献 2通 过 研 究 P2P 结 点 上 传 与 下 载 之 间 的 比 率 , 建 立 一 个 特 征 库 结 合机 器 学 习 算 法

41、来 分 类 新 的 P2P 流 量 。 文 献 33,34使 用 不 同 的 评 价 标 准 比 较了 贝 叶 斯 等 多 种 机 器 学 习 算 法 用 于 P2P 流 量 分 类 的 性 能 。 文 献 35提 出 了一 种 基 于 P2P 流 的 统 计 特 征 (26 种 ),利 用 支 持 向 量 机 (SVM)方 法 来 分 类BitTorrent、 pplive、 Skype、 MSN 等 四 种 P2P 流 量 的 方 法 , 对 实 验 数 据 有较 好 的 分 类 效 果 。1.14 不 同 层 面 的 流 量 分 析目 前 对 网 络 流 量 分 析 的 研 究 , 主

42、要 在 以 下 几 个 不 同 的 粒 度 上 进 行36,37:1) Bit-level 的 流 量 分 析主 要 关 注 网 络 流 量 的 数 量 特 征 , 如 网 络 线 路 的 传 输 速 率 以 及 吞 吐 率 的变 化 等 。2) Packet-level 的 流 量 分 析主 要 关 注 IP 包 (packet)的 到 达 过 程 、 延 迟 和 丢 包 率 等 。 C.Fraleigh 等 于38采 用 被 动 的 监 控 系 统 捕 获 packet-level 的 流 量 , 研 究 骨 干 网 在 流 量4-湖南工业大学硕士学位论文:基于机器学习算法的P2P 流量分

43、 类研究负 载 、 TCP 流 的 双 向 传 送 时 间 、 包 的 无 序 比 率 和 包 的 延 迟 等 方 面 的 变化 。3) Flow-level 的 流 量 分 析Flow 是 一 个 相 对 较 为 宽 松 的 定 义 , 其 划 分 的 主 要 依 据 是 地 址 和 应 用 协议 , 这 方 面 的 研 究 主 要 关 注 Flow 的 到 达 过 程 、 到 达 间 隔 以 及 其 局 部特 性 。4)Stream-level 的 流 量 分 析文 献 37给 出 stream 的 定 义 是 一 个 由 源 、 目 的 IP 地 址 以 及 应 用 协 议组 成 的 三

44、 元 组 。 其 目 的 主 要 是 在 一 个 更 粗 的 粒 度 上 研 究 主 干 网 的 长 期 流量 统 计 特 性 。上 述 四 个 层 面 的 研 究 , 流 量 的 粒 度 由 小 到 大 递 增 , 所 关 注 时 间 尺 度 也逐 渐 增 大 。 在 不 同 时 间 尺 度 上 , 网 络 流 量 往 往 表 现 出 不 同 的 行 为 规 律 。通 常 , 网 络 设 备 (三 层 交 换 机 、 路 由 器 等 )本 身 提 供 了 基 于 IP 包 头 的 分 析功 能 , 负 责 网 络 流 数 据 的 分 析 和 整 理 , 按 照 一 定 的 条 件 和 定 义

45、 良 好 的 数据 格 式 向 流 采 集 器 输 出 数 据 , 然 后 再 用 相 关 的 软 件 关 键 将 采 集 到 的 网 络流 数 据 进 行 整 理 、 分 析 和 客 户 端 展 现 。 因 此 Flow-level 的 流 量 分 析 将 是研 究 的 趋 势 。基 于 机 器 学 习 的 P2P 流 量 分 类 研 究 是 在 Flow-Level 的 层 次 上 展 开 ,不 同 的 P2P 协 议 类 型 具 有 不 同 的 传 输 数 据 的 模 式 , 根 据 这 些 模 式 可 以 对P2P 流 量 进 行 分 类 。1.15 研 究 内 容 及 组 织 结 构

46、1.3.14 论 文 研 究 内 容从 前 面 的 分 析 可 以 看 到 基 于 端 口 和 基 于 有 效 载 荷 的 P2P 流 量 分 类 方法 已 经 不 适 用 今 天 日 益 快 速 发 展 的 P2P 网 络 。 通 过 提 取 基 于 TCP/IP 网 络系 统 的 网 络 层 和 传 输 层 原 始 数 据 报 文 头 部 的 信 息 , 形 成 用 特 征 向 量 表 示的 P2P 流 , 结 合 机 器 学 习 的 方 法 来 分 类 P2P 流 是 我 们 要 研 究 的 内 容 。 本论 文 的 研 究 具 体 包 括 P2P 流 量 数 据 采 集 及 处 理 、

47、 特 征 产 生 及 特 征 选 择 、机 器 学 习 算 法 与 分 类 器 构 建 、 P2P 流 量 分 类 系 统 的 设 计 与 实 现 四 个 主 要内 容 。(1) P2P 流 量 数 据 数 据 采 集 及 处 理由 于 目 前 还 没 有 权 威 机 构 发 布 与 我 们 研 究 相 关 的 P2P 协 议 类 型 原 始数 据 , 所 以 , 研 究 的 数 据 需 要 我 们 通 过 自 己 建 立 的 环 境 采 集 , 采 集 基 于TCP/IP 协 议 的 网 络 数 据 报 文 , 在 网 络 层 和 传 输 层 进 行 数 据 解 析 , 按 流 的定 义 标

48、 准 统 计 流 的 特 征 , 处 理 成 能 用 于 机 器 学 习 的 形 式 ; 如 果 是 用 于 分5-第 一 章 引 言类 器 建 立 的 样 本 流 还 需 要 根 据 报 文 的 相 关 信 息 标 注 流 的 协 议 类 型 。(2) 特 征 产 生 及 特 征 选 择从 网 络 层 和 传 输 层 解 析 出 的 信 息 经 过 统 计 和 变 换 , 产 生 出 表 示 流 的特 征 向 量 , 并 通 过 特 征 选 择 方 法 , 在 保 证 分 类 准 确 率 和 减 少 特 征 统 计 计算 机 时 间 的 前 提 下 , 从 候 选 特 征 中 特 征 选 择

49、 用 于 机 器 学 习 算 法 的 较 优 的特 征 子 集 。(3) 机 器 学 习 算 法 与 分 类 器 构 建主 要 研 究 P2P 流 的 训 练 与 测 试 样 本 的 选 取 , 不 同 机 器 学 习 算 法 对 P2P流 量 分 类 的 效 果 , 机 器 学 习 算 法 参 数 的 设 置 , 用 单 独 的 测 试 数 据 对 分 类器 进 行 测 试 , 依 据 准 确 率 和 分 类 时 间 两 个 评 估 标 准 选 择 较 好 的 机 器 学 习算 法 及 其 应 用 时 P2P 流 量 分 类 的 较 优 分 类 参 数 , 以 及 用 于 构 建 分 类 器 的训 练 样 本 数 量 。(4) P2P 流 量 分 类 系 统 的 设 计 与 实 现系 统 设 计 成 分 类 器 构 建 和 分 类 两 个 阶 段 , 每 个 阶 段 设 计 有 数 据 采 集 、数 据 解 析 、 流 的 合 成 以

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 学术论文 > 毕业论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报