收藏 分享(赏)

大规模社会媒体谣言分析与辟谣技术.pptx

上传人:Facebook 文档编号:9619343 上传时间:2019-08-18 格式:PPTX 页数:29 大小:944.81KB
下载 相关 举报
大规模社会媒体谣言分析与辟谣技术.pptx_第1页
第1页 / 共29页
大规模社会媒体谣言分析与辟谣技术.pptx_第2页
第2页 / 共29页
大规模社会媒体谣言分析与辟谣技术.pptx_第3页
第3页 / 共29页
大规模社会媒体谣言分析与辟谣技术.pptx_第4页
第4页 / 共29页
大规模社会媒体谣言分析与辟谣技术.pptx_第5页
第5页 / 共29页
点击查看更多>>
资源描述

1、大规模社会媒体谣言分析与辟谣技术,清华大学自然语言处理与计算社会科学实验室 刘知远,目录,谣言的定义、研究和观点 谣言统计定量分析 谣言内容主题分析 谣言时序分布分析 基于机器智能的辟谣技术 总结,社会媒体谣言,社会媒体是谣言泛滥的温床,已经严重危害公共利益和社会稳定,定义,辞海:没有事实根据的传闻;捏造的消息流言心理学:一种通常以口头形式在人们中传播,目前没有可靠证明标准的特殊陈述,周公恐惧流言日,王莽谦恭未篡时。 向使当初身便死,一生真伪复谁知。 (唐)白居易 七律,谣言研究与观点,社会学关注谣言与个体、群体间之间的关联 社会心理学关注流言传播中的“动机,认知,记忆,意象” 历史学将流言称

2、为“来自历史,影响历史,更阐释历史” 主要观点 谣言强度 = 重要性 不确定性 相关程度、不安性、不确定性,谣言研究与观点,统计物理学通过仿真研究谣言的传播模型 借鉴传染病传播模型计算机领域关注微博谣言定量分析 通过微博用户及其发布信息的可信度进行研究 发现Twitter上的谣言一般会在评论中被质疑,社会媒体谣言数据,从新浪微博收集9079条谣言,其中1002条已被删除 起于:2011-08-24;截至:2013-05-15 7055个谣言发布者,4559个举报人共1187类不同谣言,发布次数超过9条的有129类,微博谣言时间分布,贞子3D电影9.12上映,“李天一”事件,果粒橙含农药,贞子3

3、D电影 5.12上映,微博谣言影响力分布,谣言制造者,微博谣言首次举报时间间隔分布,微博谣言主题分类,抓取谣言和相关的信息 分词与词性标注 统计词汇TF、IDF等特征 基于MapReduce进行Canopy-Kmeans聚类,微博谣言主题分类,谣言共计9079条,通过初步聚类得到1798类 手工标注谣言类别: 政治性谣言:往往有着明确的意识形态或者政治斗争的目的,如:钓鱼岛海域爆发海战的谣言 经济类谣言:涉及一些大的公司或者经济贸易的谣言,如:三星赔偿苹果几十车硬币的谣言 欺诈类谣言:多含有“求转发”、“转发有奖”等字眼,如四川藏区儿童需要御寒冬衣的谣言 社会生活类谣言:多为社会各界人物的花边

4、新闻等。如:六小龄童去世的谣言 常识类谣言:关于自然常识、历史常识、生活常识的谣言。如:阿司匹林能治疗心脏病,微博谣言主题分类,微博谣言主题自动分类,利用机器学习技术构建分类器,正确率88.2%错误分析:分类出错较多是将社会生活类(s)错分为政治类(p),或将政治类(p)错分为社会生活类(s),微博谣言时序分类,面向100类最流行谣言,分析转发次数的时序分布特征,将谣言分为四类: A:刚发布即出现较大峰值A1:有一个较大峰值A2:有多个较大峰值 B:发布一段时间后才出现峰值B1:有一个较大峰值B2:有多个较大峰值,微博谣言时序分类,微博谣言时序分类,多数谣言趋向于在一开始刚发布时就获得较大的转

5、发(7:3) 多数谣言只会有一个较大峰值(7:3),微博谣言的周期性,名人/知名机构的谣言存在时间通常较短 北京时间3月12日消息,在83版西游记中扮演孙悟空的演员六小龄童(章金莱),3月12日早上八点半病逝于浙江绍兴慈济医院,享年53岁。如果他给你的童年带去了无数欢乐,请默默的转发,让更多人祝愿猴哥一路走好!永远的猴哥一路走好。 我在:http:/ 各位央视焦点访谈已播出,可口可乐承认旗下“果粒橙”含有美国禁用农药“多菌灵”,多菌灵可致脑麻痺、肝脏腫瘤等癌症。包括香港正在销售的“果粒橙”,专家指出,“多菌灵”跟其他农药一样,对脑部影响最大,可引致局部麻痹,并会导致癌症。 请火速转给你在乎的朋

6、友,不要给孩子们喝这种饮料。,微博谣言的周期性,微博谣言时序分类,欺诈类谣言往往会在刚发布时即获取大量转发数,但通常在之后不会再次出现 特殊情况:寻人类欺诈谣言可能会有多个峰值,原因可能是辟谣难度较大,微博谣言的自动辟谣技术,识别谣言需要大量知识储备,目前无法做到全自动 结合机器智能和群体智能进行谣言自动识别 分析微博用户特长和可疑谣言的主题 寻找最有可能判定该谣言的专家,C. Liang, Z. Liu, M. Sun. Expert Finding for Microblog Misinformation Identification. COLING 2012.,微博谣言的自动辟谣技术,标

7、注859条谣言(来源:谣言粉碎机、微博辟谣微博) 将谣言按照传播原因划分为: 知识受限谣言:缺乏专业知识而导致误信或无法辨认谣言 例如:阿司匹林可以治疗急性心脏病 需要寻找该专业领域的专家 时空受限谣言:由于地域和时间限制无法辨认谣言 例如:杭州上城区一妇女周日喝了3罐可乐,周一被送进医院,周三离开了这个世界。验尸结果是她死于细螺旋体病,她直接用嘴对罐饮用。 需要寻找当地的相关权威部门或知情人士,微博谣言的自动辟谣技术,构建自动分类器,可以将候选谣言自动划分为两类,准确率达86.5% 利用200万微博用户数据构建微博专家库,人工标注为疑似谣言推荐专家的准确性 实验表明,当对每条信息平均推荐5个

8、专家用户时,准确率达50%以上,微博谣言的自动辟谣框架,总结,社会媒体是谣言泛滥的温床,已经严重危害公共利益和社会稳定 社会媒体谣言的语言使用、主题和传播过程具有显著特点 现有信息处理技术很难做到精准识别谣言 可以综合利用机器智能和群体智能实现社会媒体高效自动辟谣,参考书目,奥尔波特等,谣言心理学 诺埃尔.卡普费雷,谣言:世界最古老的传媒 李若建,虚实之间20世纪50年代中国大陆谣言研究 蔡静,流言:阴影中的社会传播 孔飞力 ,叫魂:1768年中国妖术大恐慌 孟小峰,艾静,马如霞,万维网信息可信性问题 Carlos Castillo, et al. Information Credibility on Twitter, 2011. Vahed Qazvinian, et al. Rumor has it: Identifying Misinformation in Microblogs, 2011. Ceren Budak, et al. Limiting the Spread of Misinformation in Social Networks, 2011.,感谢各位领导老师!,刘知远 ,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报