1、湖 南 工 业 大 学 学 位 论 文 原 创 性 声 明本 人 郑 重 声 明 : 所 呈 交 的 学 位 论 文 , 是 本 人 在 导 师 的 指 导 下 , 独立 进 行 研 究 工 作 所 取 得 的 成 果 。 除 文 中 已 经 注 明 引 用 的 内 容 外 , 本 论文 不 含 任 何 其 他 个 人 或 集 体 已 经 发 表 或 撰 写 过 的 作 品 成 果 。 对 本 文 的研 究 做 出 重 要 贡 献 的 个 人 和 集 体 , 均 已 在 文 中 以 明 确 方 式 标 明 。 本 人完全意识到本声明的法律结果由本人承担。作者签名: 日 期 : 年 月 日湖 南
2、 工 业 大 学 论 文 版 权 使 用 授 权 书本 人 了 解 湖 南 工 业 大 学 有 关 保 留 、 使 用 学 位 论 文 的 规 定 , 即 : 学校 有 权 保 留 学 位 论 文 , 允 许 学 位 论 文 被 查 阅 和 借 阅 ; 学 校 可 以 公 布 学位 论 文 的 全 部 或 部 分 内 容 , 可 以 采 用 复 印 、 缩 印 或 其 他 手 段 保 存 学 位论文;学校可根据国家或湖南省有关部门规定送交学位论文。作者签名: 导师签 名: 日 期 : 年 月 日-摘 要P2P 应 用 的 快 速 增 长 , 带 来 网 络 拥 塞 、 大 量 消 费 网 络
3、带 宽等 诸 多 问 题 , 而 传 统 的 基 于 端 口 与 有 效 载 荷 的 网 络 流 量 分 类 方法 存 在 着 很 多 缺 陷 , 研 究 按 照 5 元 组 (源 IP、 源 Port、 目 的 IP、目 的 Prot 及 IP 协 议 )的 定 义 , 将 P2P 报 文 分 成 双 向 TCP 或 UDP流 , 抽 取 独 立 于 端 口 、 协 议 和 有 效 载 荷 的 原 始 数 据 报 文 的 信 息作 为 P2P 流 的 特 征 , 形 成 特 征 向 量 , 用 特 征 向 量 表 示 流 , 流 的分 类 类 别 为 P2P 的 协 议 类 型 。用 提 出
4、 的 基 于 ReliefF-CFS 的 方 法 选 择 流 的 特 征 子 集 , 该方 法 结 合 ReliefF 和 基 于 相 关 性 (CFS)两 种 特 征 选 择 方 法 , 产 生适 合 于 分 类 P2P 流 的 特 征 子 集 。 首 先 利 用 ReliefF 特 征 选 择 方法 把 候 选 特 征 按 与 类 别 相 关 性 的 大 小 排 序 ,通 过 设 定 的 阈 值 选择 与 类 别 相 关 性 大 的 特 征 子 集 作 为 CFS 选 择 方 法 的 初 始 集 , 然后 利 用 CFS 结 合 正 向 搜 索 得 到 最 终 的 较 优 特 征 子 集
5、。研 究 使 用 C4.5 决 策 树 、 支 持 向 量 机 (SVM)、 K 近 邻 (KNN)三种 机 器 学 习 算 法 构 建 P2P 流 量 分 类 器 , 利 用 获 取 的 原 始 数 据 寻找 分 类 器 的 最 优 分 类 参 数 , 主 要 采 用 分 类 准 确 率 和 分 类 时 间 标准 进 行 评 估 ; 并 研 究 统 计 原 始 数 据 报 文 的 部 分 信 息 分 类 P2P 流 ,实 验 中 分 别 统 计 流 的 双 向 50、 100、 150、 200 个 报 文 信 息 , 结果 显 示 不 仅 减 少 了 特 征 统 计 计 算 的 复 杂 度
6、 和 分 类 的 时 间 , 而 且有 更 高 的 分 类 准 确 率 。为 了 让 研 究 的 成 果 能 有 实 际 的 应 用 价 值 , 通 过 构 建 相 应 的硬 件 、 软 件 环 境 , 对 P2P 流 量 的 在 线 实 时 分 类 作 了 初 步 的 研 究 。设 计 并 实 现 了 基 于 机 器 学 习 算 法 的 P2P流 量 分 类 原 型 系 统 ,系 统 分 类 分 类 器 构 建 和 分 类 两 个 阶 段 , 每 个 阶 段 有 数 据 采 集 、数 据 解 析 、 流 的 合 成 以 及 分 类 四 个 模 块 。关 键 字 P2P, 流 量 分 类 ,
7、特 征 选 择 , 机 器 学 习I-ABSTRACTMore and more P2P applications consume network bandwidth andgenerate network congestion. The traditional P2P traffic classificationmethods based on port and payload have many objections. According to thefive-tuple definition (source IP address, source port number, destinat
8、ion IPaddress, destination port number and IP protocol), the packets are classifiedinto bidirectional TCP or UDP flow. The flow attributes irrelevant toprotocol and ports are extracted to be characteristic vector that is used torepresent the traffic. The traffic classification type is the protocol t
9、ype ofP2P.The traffic characteristic subset is decided by using the ReliefF-CFSmethod, which combines with ReliefF and CFS to generate characteristicsubsets for classifying the P2P traffic. The candidate characteristics are firstordered by the dependency using the ReliefF method, of which larger tha
10、nthreshold is set into the original set for CFS method, then the final optimalcharacteristic set is decided by using CFS and forward search.The P2P traffic classifier is constructed using C4.5 decision tree, SVMand KNN. And the optimal parameters are determined by using the originalcharacteristic se
11、t and estimated with the classification accuracy and time.Part of original packets is statistical to classify P2P traffic. In experiment,the number of 50, 100,150 and 200 bidirectional packets is statistical. Theresult shows that the promoted method has lower complexity andclassification time, and h
12、igher classification accuracy.The online real-time classification of P2P traffic is researched byconstructing hardware and software platform, which can promote theapplication.The P2P traffic classification prototype based on machine learningmethod is designed and implemented, which contains the two
13、stages ofconstruction and classification. Each stage contains data collection, dataparse, traffic compound and classification.Keyword: p2p; traffic classification; feature selection; machine learningII-目 录摘 要 .IABSTRACTII第 一 章 引 言 11.1 研 究 背 景 11.2 研 究 目 的 及 意 义 11.3 国 内 外 研 究 现 状 . 21.3.1 基 于 端 口 (
14、Port-based)方 法 的 研 究 现 状 . 21.3.2 基 于 有 效 载 荷 (Payload-based) 方 法 的 研 究 现 状 21.3.3 基 于 机 器 学 习 的 网 络 流 量 分 类 研 究 现 状 . 41.3.4 基 于 机 器 学 习 的 P2P 流 量 分 类 研 究 现 状 . 41.3.5 不同层面的流量分析 41.4 研究内容及组织结构. 51.4.1 论 文 研 究 内 容 51.4.2 论 文 组 织 结 构 6第 二 章 基 于 RELIEFF-CFS 的 P2P 流 量 特 征 选 择 82.1 P2P 流的 定义及特征 产生. 82.1
15、.1 P2P 流 的 定 义 及 表 示 82.1.2 P2P 流 特 征 的 产 生 82.2 特 征 选 择 理 论 与 研 究 现 状 92.3 基 于 RELIEFF-CFS 的算法进行特征选择. 112.3.1 用 基 于 ReliefF 算 法 对 P2P 流 特 征 进 行 初 步 选 择 的 方 法 . 112.3.2 用 CFS 方 法 选 择 较 优 特 征 子 集 . 122.4 实 验 结 果 与 分 析 132.5 本 章 小 结 17第 三 章 基 于 机 器 学 习 P2P 流 量 分 类 器 研 究 193.1 基 于 支 持 向 量 机 (SVM)的 P2P
16、流 量 分 类 器 方 法 193.1.1 核函数介绍 193.1.2 最 大 间 隔 原 则 . 20I-1.5 基 于 C4.5 决 策 树 的 P2P 网 络 流 量 分 类 器 221.6 基 于 KNN 的 P2P 流 量 分 类 器 . 231.7 实 验 结 果 与 分 析 241.3.6 机 器 学 习 最 优 参 数 搜 索 241.3.7 机 器 学 习 算 法 参 数 设 置 251.3.8 样 本 数 量 与 分 类 准 确 率 的 关 系 . 251.3.9 类 别 数 量 与 分 类 准 确 率 的 关 系 . 261.3.10 使 用 独 立 测 试 样 本 集
17、对 分 类 器 进 行 测 试 281.3.11 实验结论 301.8 本 章 小 结 30第 四 章 基 于 机 器 学 习 的 P2P 流量分类系统的设计. 311.4.3 系 统 框 架 . 311.4.4 数据采集模块的设计 311.4.5 数据解析模块的设计 321.4.6 合 成 流 模 块 的 设 计 . 341.4.7 分 类 模 块 的 设 计 342.6 本 章 小 结 35第 五 章 基 于 机 器 学 习 的 P2P 流 量 分 类 系 统 的 实 现 .362.1.3 分 类 器 构 建 阶 段 的 实 现 . 362.3.3 数据采集功能的实现. 362.3.4 数
18、 据 解 析 、 流 的 合 成 模 块 的 实 现 . 372.3.5 分 类 模 块 的 实 现 . 372.3.6 系统主要功能介绍 . 372.3.7 分类器构建阶段实验. 392.1.4 在线分类阶段的实现 413.2 在 线 数 据 的 捕 获 、 解 析 413.3 在 线 流 的 的 合 成 . 433.4 在 线 分 类 策 略 . 432.1.5 在 线 分 类 . 453.1.3 在 线 分 类 实 验 环 境 的 构 建 453.1.4 在 线 分 类 算 法 . 453.1.5 在 线 分 类 实 验 . 462.1.6 本 章 小 结 48II-第 六 章 结 论
19、496.1 结 论 . 496.2 进一步的工作 50参考文献. .51附 录 56致 谢 57III-湖南工业大学硕士学位论文:基于机器学习算法的P2P 流量分 类研究第 一 章 引 言1.9 研究背景P2P (peer-to-peer)技 术 是 近 年 来 互 联 网 最 热 门 的 技 术 , 以 其 对 等性 高 、 扩 展 性 强 、 健 壮 性 高 等 诸 多 优 点 和 独 特 的 技 术 优 势 在 在 VoIP、 下载 、 流 媒 体 、 协 调 计 算 等 领 域 得 到 飞 速 发 展 1,2,3, P2P 的 协 议 类 型 、 用 户规 模 和 网 络 流 量 均
20、呈 爆 发 式 增 长 , 测 量 研 究 表 明 在 欧 洲 P2P 应 用 已 占 ISP业 务 总 量 的 60% 80%4, 跃 然 成 为 网 络 带 宽 的 最 大 消 费 者 , P2P 应 用 的兴 起 , 也 打 破 了 网 络 运 营 商 原 有 的 运 营 和 商 业 模 式 。 再 加 上 Internet 网重 要 性 的 日 益 提 高 和 P2P 结 构 的 日 益 复 杂 , P2P 的 安 全 性 、 可 管 理 性 受 到了 严 峻 的 挑 战 , 人 们 意 识 到 越 来 越 有 必 要 对 P2P 流 量 和 P2P 行 为 进 行 深入 的 了 解
21、、 分 析 , 为 监 控 与 管 理 P2P 提 供 技 术 支 持 。P2P 对 网 络 带 宽 资 源 的 滥 用 , 已 经 受 到 各 个 网 络 服 务 提 供 商 、 网 络运 营 商 和 网 络 管 理 者 的 高 度 重 视 。 P2P 应 用 的 快 速 发 展 也 给 社 会 带 来 了一 定 的 负 面 影 响 , 如 病 毒 和 木 马 的 快 速 传 播 、 色 情 和 暴 力 等 不 健 康 内 容不 受 限 制 的 共 享 、 盗 版 音 乐 和 影 视 不 受 版 权 制 约 的 下 载 等 方 面 , 如 何 给广 大 的 互 联 网 使 用 者 提 供 一
22、 个 安 全 、 可 靠 和 高 效 的 使 用 环 境 , 是 网 络 管理 需 要 解 决 的 问 题 。 站 在 网 络 资 源 拥 有 者 的 角 度 , 如 何 优 化 现 有 的 各 种网 络 资 源 , 如 何 根 据 网 络 的 发 展 趋 势 , 做 出 合 理 的 规 划 和 设 计 , 也 是 一个 重 要 的 问 题 。1.10 研究目的及意义P2P 流 量 分 类 (P2P Traffic Classification)是 指 在 基 于 TCP/IP 协 议 的Internet 网 中 , 按 照 P2P 的 协 议 类 型 5,6, 将 P2P 通 信 产 生 的
23、 双 向 TCP 或UDP 流 (Flow)进 行 分 类 。 它 是 认 识 、 管 理 、 优 化 各 种 P2P 资 源 的 重 要 依据 。 随 着 P2P 的 不 断 发 展 , 由 于 很 多 新 的 P2P 系 统 (如 : BitTorrent, eDonkey,FastTrack)采 用 动 态 端 口 7、 协 议 加 密 8以 及 其 它 方 面 的 原 因 , 如 , Kazza、Gnutella 等 一 方 面 使 用 Web 的 80 端 口 号 传 输 其 流 量 , 另 一 方 面 其 报 文 格式 也 模 仿 http 流 量 , 而 基 于 有 效 载 荷
24、的 P2P 分 类 方 法 中 协 议 解 码 需 要 协议 知 识 和 完 整 的 数 据 , 且 签 名 匹 配 需 要 更 新 协 议 变 化 和 很 难 处 理 协 议 加密 问 题 。 使 得 传 统 的 基 于 端 口 (Port-based)9的 P2P 流 量 分 类 和 基 于 有 效载 荷 (Payload-based)3的 P2P 流 量 分 类 方 法 已 不 能 保 证 进 行 正 确 的 P2P1-第 一 章 引 言流 量 的 分 类 和 统 计 。所 以 研 究 依 据 P2P 流 量 的 特 性 , 采 用 新 的 方 法 和 技 术 , 对 P2P 流 量 的
25、协 议 类 型 进 行 高 准 确 的 分 类 , 即 , P2P 流 量 分 类 , 是 非 常 必 要 的 。P2P 流 量 是 记 录 和 反 应 P2P 应 用 及 其 用 户 活 动 的 重 要 载 体 。 P2P 流量 分 析 和 分 类 是 认 识 P2P 的 一 面 镜 子 。 P2P 流 量 分 类 也 是 管 理 和 优 化 各种 P2P 资 源 的 重 要 依 据 。 在 基 于 机 器 学 习 的 P2P 流 量 分 类 研 究 中 , 用 基于 统 计 特 征 表 示 的 流 (样 本 流 ), 发 现 规 律 , 构 建 分 类 器 , 分 类 新 的 P2P流 量
26、 所 对 应 的 协 议 类 型 。 研 究 具 有 以 下 价 值 。(1)利 用 基 于 ReliefF-CFS 等 特 征 选 择 方 法 和 基 于 支 持 向 量 机 (SVM)、C4.5 决 策 树 、 K 最 近 邻 (KNN)等 机 器 学 习 相 结 合 的 方 法 , 研 究 适 合 于 P2P流 量 分 类 的 分 类 技 术 , 可 以 获 得 流 的 特 征 选 择 、 分 类 器 构 造 等 新 的 分 类方 法 和 技 术 , 具 有 较 强 的 理 论 价 值 。(2)研 究 所 得 到 的 分 类 技 术 , 可 以 应 用 于 Internet 网 上 P2
27、P 流 量 的 分类 , 根 据 P2P 流 的 协 议 类 型 在 线 识 别 和 分 类 P2P 流 , 可 以 应 用 于 下 列 网络 管 理 应 用 中 。 网 络 拥 塞 和 路 由 选 择 网 络 计 费 , 为 改 变 传 统 包 月 计 费 方 式 提 供 支 持 网 络 质 量 服 务 (Qos) 网 络 的 规 划 、 设 计 和 管 理1.11 国 内 外 研 究 现 状1.3.12 基于端口(Port-based)方法的研究现状基 于 端 口 的 P2P 分 类 使 用 数 据 报 文 头 部 传 输 层 的 端 口 信 息 , 文 献 9,10包 含 了 常 用 的
28、 P2P 协 议 类 型 使 用 的 静 态 端 口 (Port Number), 当 P2P 应 用 使用 周 知 的 静 态 端 口 时 基 于 端 口 的 P2P 流 量 分 类 技 术 有 很 好 的 效 果 , 分 类 中只 需 要 根 据 解 析 出 的 数 据 报 文 端 口 号 就 能 很 容 易 识 别 出 P2P 应 用 的 类 型 ,分 类 的 准 确 率 和 分 类 效 率 都 很 高 。 但 是 越 来 越 多 新 的 P2P 应 用 , 不 再 使 用固 定 的 和 事 先 预 知 的 端 口 号 , IANA(Internet Assigned NumbersAu
29、thority)11分 配 周 知 (well-know)端 口 号 范 围 是 0 到 1023, 注 册 端 口 号 的范 围 是 1024 到 49151。 但 是 许 多 P2P 应 用 没 有 IANA 分 配 或 注 册 的 端 口 号 ,仅 使 用 周 知 的 默 认 端 口 , 而 这 些 通 常 与 IANA 分 配 的 端 口 号 存 在 交 迭 , 这导 致 基 于 端 口 的 方 法 , 无 法 正 确 识 别 P2P 流 量 的 协 议 类 型 。1.3.13 基 于 有 效 载 荷 (Payload-based) 方 法 的 研 究 现 状基 于 有 效 载 荷 的
30、 方 法 是 通 过 对 数 据 包 应 用 层 协 议 的 深 层 扫 描 发 现P2P 协 议 类 型 , 这 种 方 法 准 确 率 比 基 于 端 口 方 法 要 高 , 端 口 的 变 化 不 会 影 响 分 类2-湖南工业大学硕士学位论文:基于机器学习算法的P2P 流量分 类研究结 果 , 使 用 这 种 方 法 对 网 络 流 量 进 行 分 类 , 简 单 、 可 靠 。 文 献 3通 过 对协 议 类 型 的 请 求 和 应 答 信 息 , 以 及 特 定 的 字 符 串 来 识 别 Gnutella, eDonkey等 几 种 常 用 P2P 协 议 。 文 献 12于 2
31、004 年 提 出 基 于 应 用 签 名 的 P2P 流 量检 测 方 法 , 该 方 法 把 负 载 特 征 分 为 固 定 偏 移 量 (Fixed Offset)特 征 和 变 化偏 移 量 (Variable Offset)特 征 , 第 一 步 检 查 固 定 偏 移 量 , 第 二 步 检 查 变 化偏 移 量 , 在 性 能 和 精 度 上 都 取 得 了 令 人 满 意 的 效 果 。 文 献 13搜 集 了 8种 流 行 的 P2P 协 议 的 Payload 关 键 字 , 并 和 端 口 识 别 的 方 法 结 合 起 来 ,对 因 特 网 主 干 流 量 (两 条 O
32、C48 链 路 ) 进 行 了 分 析 。 文 献 14基 于 应 用 层签 名 , 提 出 一 种 简 单 、 有 效 、 灵 活 的 P2P 流 量 测 量 方 法 , 且 该 方 法 具 有易 于 扩 展 到 新 P2P 应 用 的 特 点 。尽 管 基 于 有 效 载 荷 方 法 的 识 别 技 术 避 免 依 赖 于 固 定 端 口 号 , 但 它 增加 了 网 络 识 别 设 备 的 复 杂 性 和 处 理 的 负 担 , 如 随 着 P2P 应 用 的 增 加 , 特 征串 的 数 量 15也 相 应 增 加 , 使 得 这 种 方 法 每 检 测 一 个 数 据 报 文 所 需
33、 要 匹 配的 特 征 串 越 来 越 多 , 从 而 识 别 的 效 率 逐 渐 降 低 。 这 种 方 法 必 须 保 持 与 广泛 的 应 用 语 义 和 P2P 级 语 法 知 识 的 一 致 性 , 必 须 有 能 力 对 潜 在 的 大 量 流 进行 并 发 分 析 。 当 遇 到 内 容 特 征 未 公 布 的 或 加 了 密 的 P2P 流 量 时 就 十 分 困 难或 是 不 可 能 , 另 一 个 问 题 是 直 接 分 析 应 用 层 内 容 可 能 触 及 侵 犯 个 人 隐 私等 法 律 问 题 。文 献 1在 考 虑 基 于 有 效 载 荷 识 别 方 法 时 ,
34、同 时 也 提 出 了 一 种 基 于 启发 式 规 则 的 P2P 流 量 的 分 类 方 法 , 该 方 法 对 于 分 类 P2P 与 非 P2P 有 比 较高 的 分 类 准 确 率 。 文 献 16通 过 传 输 层 统 计 P2P 的 连 接 直 径 和 双 向 连 接数 量 来 识 别 P2P 流 量 , 文 献 17对 基 于 端 口 、 基 于 应 用 层 签 名 和 基 于 传输 层 分 析 的 三 种 P2P 流 量 分 类 方 法 进 行 比 较 , 基 于 传 输 层 分 析 的 方 法 是三 种 方 法 中 最 好 的 。对 于 P2P 流 量 分 类 , 传 统
35、的 基 于 端 口 的 和 基 于 有 效 载 荷 的 解 决 方 案已 经 在 实 际 中 取 得 一 些 成 果 :L7-filter18是 基 于 Linux 内 核 的 ,挂 载 在IPtables 的 扩 展 匹 配 模 块 上 的 包 识 别 程 序 。 利 用 简 单 的 特 征 值 (如 : 端 口号 )和 对 应 用 层 的 数 据 使 用 正 则 表 达 式 来 匹 配 ,以 此 来 辨 认 应 用 层 使 用 的协 议 。 分 析 长 度 是 一 个 连 接 的 前 10 个 包 或 者 前 2048 字 节 。 IPP2P19是 工 作 在 Linux 环 境 下 ,同
36、 样 是 挂 载 在 IPtables 的 扩 展 匹 配 模 块 上 ,而 且 也同 样 使 用 特 征 串 匹 配 的 方 式 , 但 是 分 析 每 个 包 的 特 征 串 。 Cisco 的NBAR(Network-Based Application Recognition) 20是 一 个 可 以 广 泛 识 别不 同 应 用 程 序 的 辨 识 引 擎 。 通 过 使 用 PDLM(Packet Description LanguageModule)可 以 加 载 很 多 的 应 用 , 但 也 会 相 应 增 加 路 由 器 的 负 担 。3-第 一 章 引 言1.12 基 于
37、机 器 学 习 的 网 络 流 量 分 类 研 究 现 状对 流 量 分 类 使 用 机 器 学 习 21,22的 方 法 在 国 内 还 不 多 见 , 在 国 外 已 有一 定 的 研 究 。 文 献 23的 作 者 使 用 主 成 分 分 析 和 密 度 估 计 方 法 把 流 量 分 类到 不 同 的 应 用 。 作 者 仅 使 用 一 个 小 的 数 据 集 、 两 个 流 属 性 及 少 数 周 知 端口 对 应 的 网 络 应 用 , 进 行 研 究 。 文 献 24利 用 最 大 期 望 (EM)算 法 和 固 定的 流 属 性 集 , 将 网 络 流 量 聚 类 到 不 同
38、的 协 议 类 型 。 文 献 25提 出 一 种 无 监督 (unsupervised)的 机 器 学 习 算 法 来 识 别 不 同 网 络 应 用 的 框 架 , 用 流 的 统计 特 性 作 为 流 的 特 征 来 进 行 网 络 流 量 自 动 分 类 研 究 。 文 献 26,27 采 用 几种 不 同 的 机 器 学 习 算 法 对 网 络 流 量 进 行 分 类 研 究 , 采 用 的 机 器 学 习 算 法分 别 为 贝 叶 斯 网 (Bayesian Network)、 C4.5 决 策 树 、 贝 叶 斯 (Naive Bayes)及 贝 叶 斯 树 (Naive Bay
39、es Tree)。 文 献 28使 用 基 于 贝 叶 斯 分 类 器 (BayesClassifier)和 大 量 的 流 属 性 , 来 进 行 网 络 流 量 的 分 类 研 究 。 文 献 29的 作者 用 基 于 贝 叶 斯 训 练 神 经 网 络 (Bayesian trained Neural Network)的 监 督(Supervised)机 器 学 习 的 方 法 , 来 对 网 络 流 量 进 行 分 类 研 究 , 并 获 得 了 很好 的 分 类 准 确 度 。1.13 基 于 机 器 学 习 的 P2P 流 量 分 类 研 究 现 状国 内 外 对 P2P 流 量
40、的 分 类 使 用 机 器 学 习 技 术 也 有 少 量 的 研 究 , 文 献30,31采 用 一 种 Self Organizing Maps(SOM)的 人 工 神 经 网 络 来 识 别 P2P流 量 , Jeffrey Erman 等 32使 用 无 监 督 的 聚 类 算 法 来 分 类 Web 和 P2P 流 量 ,实 现 结 果 表 明 此 分 类 方 法 达 到 95%的 流 分 类 准 确 率 和 80%的 字 节 准 确 率 。文 献 2通 过 研 究 P2P 结 点 上 传 与 下 载 之 间 的 比 率 , 建 立 一 个 特 征 库 结 合机 器 学 习 算 法
41、来 分 类 新 的 P2P 流 量 。 文 献 33,34使 用 不 同 的 评 价 标 准 比 较了 贝 叶 斯 等 多 种 机 器 学 习 算 法 用 于 P2P 流 量 分 类 的 性 能 。 文 献 35提 出 了一 种 基 于 P2P 流 的 统 计 特 征 (26 种 ),利 用 支 持 向 量 机 (SVM)方 法 来 分 类BitTorrent、 pplive、 Skype、 MSN 等 四 种 P2P 流 量 的 方 法 , 对 实 验 数 据 有较 好 的 分 类 效 果 。1.14 不 同 层 面 的 流 量 分 析目 前 对 网 络 流 量 分 析 的 研 究 , 主
42、要 在 以 下 几 个 不 同 的 粒 度 上 进 行36,37:1) Bit-level 的 流 量 分 析主 要 关 注 网 络 流 量 的 数 量 特 征 , 如 网 络 线 路 的 传 输 速 率 以 及 吞 吐 率 的变 化 等 。2) Packet-level 的 流 量 分 析主 要 关 注 IP 包 (packet)的 到 达 过 程 、 延 迟 和 丢 包 率 等 。 C.Fraleigh 等 于38采 用 被 动 的 监 控 系 统 捕 获 packet-level 的 流 量 , 研 究 骨 干 网 在 流 量4-湖南工业大学硕士学位论文:基于机器学习算法的P2P 流量分
43、 类研究负 载 、 TCP 流 的 双 向 传 送 时 间 、 包 的 无 序 比 率 和 包 的 延 迟 等 方 面 的 变化 。3) Flow-level 的 流 量 分 析Flow 是 一 个 相 对 较 为 宽 松 的 定 义 , 其 划 分 的 主 要 依 据 是 地 址 和 应 用 协议 , 这 方 面 的 研 究 主 要 关 注 Flow 的 到 达 过 程 、 到 达 间 隔 以 及 其 局 部特 性 。4)Stream-level 的 流 量 分 析文 献 37给 出 stream 的 定 义 是 一 个 由 源 、 目 的 IP 地 址 以 及 应 用 协 议组 成 的 三
44、 元 组 。 其 目 的 主 要 是 在 一 个 更 粗 的 粒 度 上 研 究 主 干 网 的 长 期 流量 统 计 特 性 。上 述 四 个 层 面 的 研 究 , 流 量 的 粒 度 由 小 到 大 递 增 , 所 关 注 时 间 尺 度 也逐 渐 增 大 。 在 不 同 时 间 尺 度 上 , 网 络 流 量 往 往 表 现 出 不 同 的 行 为 规 律 。通 常 , 网 络 设 备 (三 层 交 换 机 、 路 由 器 等 )本 身 提 供 了 基 于 IP 包 头 的 分 析功 能 , 负 责 网 络 流 数 据 的 分 析 和 整 理 , 按 照 一 定 的 条 件 和 定 义
45、 良 好 的 数据 格 式 向 流 采 集 器 输 出 数 据 , 然 后 再 用 相 关 的 软 件 关 键 将 采 集 到 的 网 络流 数 据 进 行 整 理 、 分 析 和 客 户 端 展 现 。 因 此 Flow-level 的 流 量 分 析 将 是研 究 的 趋 势 。基 于 机 器 学 习 的 P2P 流 量 分 类 研 究 是 在 Flow-Level 的 层 次 上 展 开 ,不 同 的 P2P 协 议 类 型 具 有 不 同 的 传 输 数 据 的 模 式 , 根 据 这 些 模 式 可 以 对P2P 流 量 进 行 分 类 。1.15 研 究 内 容 及 组 织 结 构
46、1.3.14 论 文 研 究 内 容从 前 面 的 分 析 可 以 看 到 基 于 端 口 和 基 于 有 效 载 荷 的 P2P 流 量 分 类 方法 已 经 不 适 用 今 天 日 益 快 速 发 展 的 P2P 网 络 。 通 过 提 取 基 于 TCP/IP 网 络系 统 的 网 络 层 和 传 输 层 原 始 数 据 报 文 头 部 的 信 息 , 形 成 用 特 征 向 量 表 示的 P2P 流 , 结 合 机 器 学 习 的 方 法 来 分 类 P2P 流 是 我 们 要 研 究 的 内 容 。 本论 文 的 研 究 具 体 包 括 P2P 流 量 数 据 采 集 及 处 理 、
47、 特 征 产 生 及 特 征 选 择 、机 器 学 习 算 法 与 分 类 器 构 建 、 P2P 流 量 分 类 系 统 的 设 计 与 实 现 四 个 主 要内 容 。(1) P2P 流 量 数 据 数 据 采 集 及 处 理由 于 目 前 还 没 有 权 威 机 构 发 布 与 我 们 研 究 相 关 的 P2P 协 议 类 型 原 始数 据 , 所 以 , 研 究 的 数 据 需 要 我 们 通 过 自 己 建 立 的 环 境 采 集 , 采 集 基 于TCP/IP 协 议 的 网 络 数 据 报 文 , 在 网 络 层 和 传 输 层 进 行 数 据 解 析 , 按 流 的定 义 标
48、 准 统 计 流 的 特 征 , 处 理 成 能 用 于 机 器 学 习 的 形 式 ; 如 果 是 用 于 分5-第 一 章 引 言类 器 建 立 的 样 本 流 还 需 要 根 据 报 文 的 相 关 信 息 标 注 流 的 协 议 类 型 。(2) 特 征 产 生 及 特 征 选 择从 网 络 层 和 传 输 层 解 析 出 的 信 息 经 过 统 计 和 变 换 , 产 生 出 表 示 流 的特 征 向 量 , 并 通 过 特 征 选 择 方 法 , 在 保 证 分 类 准 确 率 和 减 少 特 征 统 计 计算 机 时 间 的 前 提 下 , 从 候 选 特 征 中 特 征 选 择
49、 用 于 机 器 学 习 算 法 的 较 优 的特 征 子 集 。(3) 机 器 学 习 算 法 与 分 类 器 构 建主 要 研 究 P2P 流 的 训 练 与 测 试 样 本 的 选 取 , 不 同 机 器 学 习 算 法 对 P2P流 量 分 类 的 效 果 , 机 器 学 习 算 法 参 数 的 设 置 , 用 单 独 的 测 试 数 据 对 分 类器 进 行 测 试 , 依 据 准 确 率 和 分 类 时 间 两 个 评 估 标 准 选 择 较 好 的 机 器 学 习算 法 及 其 应 用 时 P2P 流 量 分 类 的 较 优 分 类 参 数 , 以 及 用 于 构 建 分 类 器 的训 练 样 本 数 量 。(4) P2P 流 量 分 类 系 统 的 设 计 与 实 现系 统 设 计 成 分 类 器 构 建 和 分 类 两 个 阶 段 , 每 个 阶 段 设 计 有 数 据 采 集 、数 据 解 析 、 流 的 合 成 以