ImageVerifierCode 换一换
格式:DOCX , 页数:3 ,大小:60.83KB ,
资源ID:2293644      下载积分:20 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-2293644.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于KNN的相关内容推荐8984454.docx)为本站会员(dreamzhangning)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

基于KNN的相关内容推荐8984454.docx

1、如 果 做 网 站 的 内 容 运 营 , 相 关 内 容 推 荐 可 以 帮 助 用 户 更 快 地 寻 找 和 发 现 感 兴 趣 的 信 息 ,从 而 提 升 网 站 内 容 浏 览 的 流 畅 性 , 进 而 提 升 网 站 的 价 值 转 化 。 相 关 内 容 推 荐 最 常 见 的两 块 就 是 “关 联 推 荐 ”和 “相 关 内 容 推 荐 ”, 关 联 推 荐 就 是 我 们 常 说 的 购 物 篮 分 析 , 即使 用 购 买 了 某 商 品 的 用 户 同 时 购 买 了 什 么 这 个 规 则 来 发 现 商 品 间 的 潜 在 联 系 , 之 前 有相 关 的 文

2、章 介 绍 向 上 营 销 、 交 叉 营 销 与 关 联 推 荐 ; 关 联 推 荐 是 基 于 用 户 行 为 分析 的 推 荐 , 而 相 关 内 容 推 荐 是 基 于 内 容 固 有 特 征 的 推 荐 , 只 与 内 容 本 身 有 关 , 与 用 户的 行 为 完 全 无 关 , 所 以 相 关 内 容 推 荐 的 模 型 是 一 种 “冷 启 动 ”的 算 法 , 不 需 要 任 何 历史 浏 览 访 问 数 据 的 支 持 。内 容 固 有 属 性相 关 内 容 推 荐 因 为 完 全 不 借 助 用 户 浏 览 行 为 的 数 据 , 所 以 底 层 数 据 不 依 赖 于

3、 网 站的 点 击 流 日 志 , 唯 一 的 基 础 数 据 就 是 内 容 的 固 有 属 性 及 完 整 信 息 。 我 们 以 豆 瓣 网的 几 大 块 内 容 为 例 来 看 看 对 于 这 些 内 容 一 般 包 含 哪 些 固 有 属 性 :书籍 书名、作者、出版时间、出版社、分类、标签音乐 专辑名、歌手、发行时间、发行方、风格流派、标签电影 电影名称、导演、演员、上映时间、制片方、类型、标签豆 瓣 很 多 地 方 都 使 用 了 “标 签 ”这 个 词 , 用 贴 标 签 的 形 式 来 完 成 内 容 的 分 类 和 标 识 ,但 其 实 标 签 又 分 为 很 多 种 ,

4、有 些 标 签 是 在 内 容 生 成 时 就 被 贴 上 的 , 有 些 可 能 是 后 续 用户 贴 上 去 的 , 而 且 豆 瓣 一 般 为 内 容 和 标 签 定 义 了 原 始 分 类 , 如 书 籍 分 为 文 学 、 流 行 、文 化 既 然 分 类 和 标 签 内 容 源 生 就 带 有 , 那 同 样 可 以 作 为 内 容 的 固 有 属 性 。还 需 要 说 明 的 是 , 这 里 不 涉 及 文 本 挖 掘 和 字 符 切 分 模 糊 匹 配 等 问 题 , 因 此 内 容 的标 题 、 简 介 和 全 文 不 参 与 文 本 相 似 度 的 分 析 , 虽 然 这

5、些 可 能 在 构 建 完 整 的 相 关 内 容 模型 中 不 可 缺 少 , 但 这 里 只 考 虑 一 些 固 有 属 性 是 否 相 同 实 现 简 单 应 用 。 基 于 上 述 豆 瓣 几类 内 容 的 属 性 特 征 , 选 择 和 整 理 适 合 分 析 的 内 容 属 性 如 下 :“作 者 ”就 是 指 内 容 的 创 造 者 , “来 源 ”指 内 容 的 发 布 方 或 获 取 渠 道 , “分 类 ”为 内容 归 属 的 类 别 , “标 签 ”可 以 包 含 对 内 容 的 各 类 描 述 信 息 和 关 键 词 等 。 这 里 为 了 能 够 尽可 能 清 晰 地

6、 描 述 整 个 分 析 模 型 和 思 路 只 选 取 了 大 部 分 内 容 都 包 含 的 一 些 属 性 , 如 果 要构 建 更 加 高 效 的 相 关 内 容 分 析 模 型 , 需 要 更 完 整 的 内 容 属 性 , 可 以 根 据 自 身 内 容 的 特征 进 行 属 性 的 定 义 和 选 取 。KNN 算 法 及 应 用KNN( K-Nearest Neighbor algorithm) , K 最 近 邻 算 法 , 通 过 计 算 样 本 个 体 间的 距 离 或 者 相 似 度 寻 找 与 每 个 样 本 个 体 最 相 近 的 K 个 个 体 , 算 法 的 时

7、 间 复 杂 度 跟样 本 的 个 数 直 接 相 关 , 需 要 完 成 一 次 两 两 比 较 的 过 程 。 KNN 一 般 被 用 于 分 类 算 法 ,在 给 定 分 类 规 则 的 训 练 集 的 基 础 上 对 总 体 的 样 本 进 行 分 类 , 是 一 种 监 督 学 习( Supervised learning) 方 法 。这 里 我 们 不 用 KNN 来 实 现 分 类 , 我 们 使 用 KNN 最 原 始 的 算 法 思 路 , 即 为 每 个内 容 寻 找 K 个 与 其 最 相 似 的 内 容 , 并 推 荐 给 用 户 。 相 当 于 每 个 内 容 之 间

8、 都 会 完 成 一 次两 两 比 较 的 过 程 , 如 果 你 的 网 站 有 n 个 内 容 , 那 么 算 法 的 时 间 复 杂 度 为 Cn2, 即n(n-1)/2。 但 是 用 内 容 固 有 属 性 有 一 个 好 处 就 是 因 为 固 有 属 性 一 旦 创 建 后 基 本 保 持 不变 , 因 此 算 法 输 出 的 数 据 一 旦 计 算 好 之 后 不 需 要 重 复 计 算 去 刷 新 , 也 就 是 对 于 网 站 内容 而 言 , 原 有 内 容 的 数 据 在 首 次 初 始 化 之 后 可 以 不 断 重 复 使 用 , 只 要 更 新 新 增 内 容 的数

9、 据 就 可 以 , 数 据 的 统 计 计 算 可 以 使 用 增 量 更 新 的 形 式 , 这 样 可 以 有 效 地 减 少 服 务 器的 计 算 压 力 。相 关 内 容 模 型有 了 基 础 数 据 和 算 法 的 支 持 , 我 们 就 可 以 创 建 数 据 模 型 了 。 先 看 下 基 础 数 据 的 类型 , 作 者 、 分 类 、 来 源 和 标 签 都 是 字 符 型 , 其 中 作 者 、 分 类 、 来 源 基 本 可 以 当 做是 单 个 值 的 属 性 , 标 签 一 般 包 含 多 个 值 。 首 先 由 于 都 是 字 符 可 以 确 定 属 性 之 间

10、相 似 性的 判 定 只 能 通 过 “是 否 相 同 ”, 无 法 体 现 数 值 上 的 差 异 , 所 以 对 于 作 者 、 分 类 、 来 源 这几 个 单 值 属 性 而 言 , 比 较 的 结 果 就 是 一 个 布 尔 型 的 度 量 , 相 同 或 者 不 相 同 ; 对 于 标 签这 个 多 值 属 性 可 以 考 虑 使 用 Jaccard 相 关 系 数 , 但 因 为 每 个 内 容 标 签 的 个 数 存 在 较大 差 异 , 使 用 验 证 后 的 结 果 并 不 理 想 , 所 以 不 考 虑 使 用 ( 当 然 , 如 果 内 容 的 标 签 个 数比 较 固

11、 定 , Jaccard 相 关 系 数 是 有 效 的 ) 。 因 此 , 直 接 创 建 加 权 相 似 度 模 型 如 下 , 首先 是 标 签 的 相 似 度 分 值 设 定 :相同标签数 图书比例 相似度分值0 70% 01 20% 12 6% 23 3% 4=4 1% 5再 结 合 作 者 、 分 类 和 来 源 , 通 过 加 权 设 定 总 体 的 相 似 度 分 值 :属性 相同时分值 不同时分值 权重 加权分值分布作者 1 0 25 0,25分类 1 0 10 0,10来源 1 0 15 0,15标签 1,5 0 10 0,50将 所 有 属 性 加 权 相 似 度 分 值

12、 的 结 果 相 加 应 该 分 布 在 0,100, 分 值 越 高 说 明 内 容间 的 相 似 度 越 高 。 对 于 这 种 简 单 的 加 权 相 似 度 评 分 模 型 , 估 计 又 有 很 多 人 要 问 权 重 是怎 么 确 定 的 , 确 实 , 这 里 的 权 重 并 没 有 通 过 任 何 定 量 分 析 模 型 的 方 法 去 计 算 , 只 是 简单 的 经 验 估 计 , 但 估 计 的 过 程 经 过 反 复 地 调 整 和 优 化 , 也 就 是 不 断 地 尝 试 调 整 各 属 性的 权 重 系 数 并 输 出 结 果 , 抽 样 检 验 结 果 是 否

13、符 合 预 期 、 是 否 有 提 升 优 化 的 空 间 。基 于 上 述 内 容 间 相 似 度 的 计 算 结 果 , 套 用 KNN 的 原 理 实 现 相 关 内 容 推 荐 就 异常 简 单 了 , 只 要 根 据 每 个 内 容 与 之 比 较 的 所 有 内 容 的 相 似 度 分 值 降 序 排 列 取 前 K个 内 容 作 为 该 内 容 的 最 相 关 内 容 推 荐 给 用 户 就 可 以 了 。 当 然 中 间 可 能 会 涉 及 相 同 相 似度 分 值 的 内 容 如 何 排 序 的 问 题 ( 因 为 模 型 的 关 系 分 值 分 布 可 能 不 会 很 离

14、散 ) , 建 议 如果 相 似 度 分 值 相 同 使 用 随 机 排 序 , 以 保 证 推 荐 结 果 有 一 定 的 变 化 , 均 匀 内 容 的 曝 光 。好 了 , 所 有 的 分 析 流 程 介 绍 完 了 , 好 像 跟 前 一 篇 的 距 离 和 相 似 度 度 量 完 全 没 有关 系 , 其 实 距 离 和 相 似 度 度 量 是 KNN 的 基 础 算 法 , 因 为 KNN 的 个 体 相 似 度 或 邻 近的 距 离 都 会 选 择 距 离 度 量 和 相 似 度 度 量 中 的 某 种 方 法 进 行 计 算 , 但 这 里 考 虑 到 了 现 实的 数 据 情

15、 况 和 应 用 环 境 , 并 不 是 KNN 就 一 定 要 硬 套 欧 氏 距 离 , 其 实 换 一 种 简 单 的 方法 可 能 反 而 更 加 适 合 整 个 模 型 , 而 且 模 型 的 最 终 效 果 可 能 会 更 理 想 。 所 以 一 切 的 数 据挖 掘 算 法 的 选 择 和 使 用 都 是 基 于 数 据 模 型 的 有 效 性 和 输 出 结 果 的 效 果 来 决 定 的 , 并 不是 简 单 的 算 法 效 果 就 一 定 不 好 , 而 高 级 复 杂 的 算 法 一 定 更 加 有 效 。 对 了 , 如 果 你 已 经做 了 相 关 内 容 推 荐 , 那 么 优 化 相 关 内 容 推 荐 这 篇 文 章 里 面 介 绍 的 一 些 方 法 将 是 检 验推 荐 效 果 的 一 个 很 好 的 参 考 。

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报