1、收 稿日期 : 2015 12 05基金项目 : 湖北省教育厅人文社会科学研究项目 “基于用户需求的地方新闻网站内容生成创新研究 ”( 项目编号 : 15G161) 。作者简介 : 柯( 1978 ) , 女 , 副 教授 , 研究方向 : 网络传播 、网络技术 、数据挖掘 。理 论探索 新浪微博信息传播的影响因素分析与效果预测柯1, 2( 1 武 汉工商学院 , 湖北 武汉 430065; 2 湖北网络社会发展研究中心 , 湖北 武汉 430065)摘 要 本 文以新浪微博平台为数据采集平台 , 对微博信息传播的影响因素和效果进行数据分析 , 在借鉴信息传播四要素和流行三要素的基础上 , 总
2、结出了影响微博信息传播的 16 个因素 。首先通过对 “风云人气榜 ”上随机抓取的 320 个新浪微博用户数据进行多元线性回归预测 , 实证得到粉丝数 、工作时间和发布时间对微博信息传递有促进作用 , 而活跃度 、休息时间和日期对信息传播有阻碍作用 ; 然后利用爬取数据中提取的 441 005个转发样本 , 通过逻辑回归 、朴素贝叶斯和贝叶斯网络的概率模型分析 , 实证了社交类型对用户微博转发行为的影响最为显著 , 微博社交需求显著高于内容需求 , 并且根据 OC 曲线得出综合类型对用户微博转发行为的预测最为精准 。关键词 新浪 ; 微博信息 ; 传播效果 ; 回归分析 ; 效果预测 ; 影响
3、因素DOI: 103969/j issn1008 0821201603004中 图分类号 TP393 文献标识码 A 文章编号 1008 0821 ( 2016) 03 0022 05Analysis and Effect Prediction of The Influence Factors ofSina Micro blog Information DisseminationKe Yun1, 2( 1 Wuhan Technology and Business University, Wuhan 430065, China;2 Internet Society Development es
4、earch Center, Wuhan 430065, China)AbstractIn this paper, the influence factors and results of the data acquisition are analyzed based on Sina Weiboplatform, summed up the 16 factors that affect the microblogging information dissemination, on the basis of the four ele-ments and draw on the disseminat
5、ion of information on the prevalence of the three elements First, through the“Stormpopularity list”of 320 randomly grab Weibo user data multiple linear regression forecasting, empirical get the number offans, working time and release time on the microblogging messaging promote the role and activity,
6、 rest the time and datehave hindered the spread of information Then take the data extracted from the 441005 forwarding samples, through logisticregression, Naive Bayesian and Bias network probability model analysis, empirical social types of user microblogging for-warding behavior is the most signif
7、icant, the social needs of micro blog is significantly higher than the content needs, ac-cording to the OC curve to get the comprehensive type of user microblogging forwarding behavior prediction is the most ac-curateKey wordssina; micro blog information; dissemination effect; regression analysis; e
8、ffect prediction; influencefactors据中国互联网络信息中心 第 36 次中国互联网发展状况 统计报告 称 , 截至 2015 年 6 月 , 我国网民规模达 6. 68亿 , 互联网普及率为 48. 8%, 微博用户为 2. 0432 亿 , 网民使用率为 30. 6%, 而使用新浪微博的用户占 69. 4%, 微博俨然成为广大网民网络社交的重要聚集地 。由于微博信息传播速度快 , 影响面广 , 信息产生的舆论控制难 , 研究和总结微博信息传播的影响因素已成为学者的重点工作 , 国内外专家对此进行了大量的研究 。文献 1 通过调查微博记录中信息的扩散情况 , 研
9、究得出微博的影响度与用户的影响度和粉丝数有直接关系 ; 文献 2 对新浪微博进行测量统计分析 , 得出微博热度与用户粉丝数成正相关 ;文献 3 提出了一种新颖的方法分析微博信息传播网络222016 年 3 月第 36 卷 第 3 期现 代 情 报Journal of Modern InformationMar. , 2016Vol. 36 No. 3的属性 , 基于信息分散 、信息聚集 、信息传递 3 种关系分析了信息传播网络的演变情况 ; 文献 4 根据微博中用户发表 、浏览 、回复和转发博文的基本行为 , 提出了微博信息传播的竞争窗口模型 , 并例证了信息的动态传播 ; 文献 5 从实证的
10、角度出发 , 探究了微博信息传播的纵向效果 , 应征了微博因共同兴趣 、爱好聚集的观点 , 得出了微博信息传播效果随层次增加而衰减的规律 ; 文献 6研究用户的在线行为以及微博信息的传播规律 , 提出基于用户属性 、社交关系和微博内容三类综合特征 , 使用机器学习的分类方法 , 对给定微博的用户转发行为进行预测 。传播的路径也是影响微博信息快速转发的重要因素 , 导致微博信息迅速传播的因素是每层转发人数不断递增 , 转发路径呈裂变方式发展 7 9。为了进一步研究和探索微博信息传播的影响因素 , 从根本上揭示微博信息传播效果 , 本文以新浪微博平台作为研究的数据基础 , 对微博信息传播进行例证分
11、析 , 为微博信息传播效果的预测奠定基础 。1 微博信息传播的特征微博是一个用户信息分享 、传播和获取的平台 , 通过关注 、粉丝 、评论 、转发等功能实现信息的传播和共享 10。在互联网信息传递的过程中 , 微博担负了重要的角色 。由于其推发便捷 , 图文并茂的功能使其成为社交网络中交互最为广泛的平台 。微博中信息的传播有两个途径 ,一个是靠博主的粉丝传播路径 ; 另一个是转发路径 , 任何一个路径都可以实现信息的网式传播 , 这种传播可以看作是一个拓扑结构 , 结构包括节点 、边和网络 3 个方面 , 在微博信息传播的结构中用户就是节点 , 用户间的关系即为边 , 拓扑网络即为微博信息的传
12、播路径 。若定义 G = V, E, W 为传播图 , W 为传播节点的影响力集合 , E 表示微博传播的所有路径集合 。下图 为微博的发布者 , 1为微博信息传播过程中的传播节点 。当节点1转播了微博的发布者 的原贴后就生成了一条由 指向1的有向链 , 当 2又转发了 1所转发的微博时 , 又生成一条由 1指向 2的有向链 , 以此类推形成一个从微博的发布者 为中心 , 层层扩散的级联传播网式拓扑结构 , 图1 为微博信息传播的结构与路径示意图 。图 1 微博信息传播的结构与路径示意图2 微博传播影响因素分析根据文献 11 的概述 , 涉及信息的传播有四要素 :信源 、信宿 、信道和信息 ,
13、 与此相对应的微博信息传播的主要因素有 : 微博信息传播者 、传播受体 、传播渠道和传播环境 。微博信息作为一种涉人涉事的流行事物 , 依据马尔科姆 格拉德威尔流行三要素的阐述 , 需要具备 3 个基本要素 : 个别人物法则 、附着力因素法则和环境威力法则 。本文在借鉴前人研究结果的基础上 , 认为影响微博传播的主要因素有 : 个别人物 、所处环境以及微博内容附着力 。影响微博信息传播的主要因素如图 2 所示 。图 2 影响微博信息传播因素结构图按照流行的三要素理论及微博传播因素的划分 , 本文从原始数据中提取出影响微博信息传播的可以从原始数据中提取出 16 个变量如表 1 所示 。32201
14、6 年 3 月第 36 卷第 3 期新浪微博信息传播的影响因素分析与效果预测Mar. , 2016Vol. 36 No. 3表 1 影响微博信息传播的因素变量符 号 因素变量说明 符 号 因素变量说明Fannum 上游用户粉丝数 Fcontent, 与上游用户的兴趣相似度Fanquai 上游用户粉丝质量Fcontent, 与原创者的兴趣相似度fact 待预测用户转发活跃度Fcontent, 与被测用户的兴趣相似度珔n 上游用户每条微博平均被转发次数 L 微博内容的长度珔 用户每条微博平均转发率T1 原创微博发表时间段1 上游用户是否认证T2 上跳微博的发表时间段2 微博原创者是否认证ti 单词
15、权重f与上游用户的交互度 TF IDF 微博中所有词语的 TF IDF 和表 1 中 Fanquai表示的是用户粉丝的质量 , 其表达式为 :Fanquai=1 pNum+ pjFans( i)FanquajFriend( j)( 1)上式中 Fans( i) 为用户 i 的粉丝集合 , Friend( j) 为关注j 的用户集合 , p 为阻尼系数 , Num 为用户总数 。单个用户的转发活跃度 fact与该单个用户最近转发微博总数量 numrepost、最近原创微博数量 numpost有关 , 关系如下 :fact=numrepostnumpost( 2)用户 与微博信息的上游传播者 之间
16、的交互强度 f和 微博中转发 微博中内容的次数 num及 转发微博的总次数 numu相关 , 其表达式为 :f=numnum( 3)采用 ICTCLAS 汉语分词系统对信息 Ccontent和用户历史转发记录集合 Chistory的并集进行分词 , 可以得到词汇字典 D= w1, , wn , 其中 wi表示并集中出现过的词语 , n 表示出现过的单词个数 , ni表示词语 wi在文本中的词频 , k 表示文本中出现过的不同单词总数 。每个单词的权重 ti的计算公式如下 :ti= TFi IDFi=nik1nk logC c wic( 4)根据式 ( 4) 可以计算当前和历史的各单词的权重向量
17、空间 content, history, 如下 :content= ( t1t2 tn)history= ( t1t2 tn)( 5)运用式 ( 5) 中的向量空间模型的余弦值作为内容相关性的度量值 Fcontent。Fcontent= coscontent, history=contenthistorycontent history( 6)TF IDF 是一种统计方法 , 用于作为文件与用户查询之间相关程度的度量和评级 。3 微博传播效果预测3. 1 传播效果多元线性回归预测为了对微博传播效果进行预测和分析 , 本文在新浪微博 “风云人气榜 ”上随机抓取 320 个用户 。截取了 2015
18、年8 月 17 日至 2015 年 8 月 23 日时间段内的数据 , 其中微博总数量为 4 524条 , 以转发数量 y 为因变量 , 以粉丝数 x、活跃度 fact、工作时间 1、休息时间 2、日期 3和当前微博发布时间时间 为自变量 , 根据上文的分析建立微博传播效果计算公式 :y = ax1000+ bfact+ c11+ c22+ c33+ c + d ( 7)运用 SPSS 软件进行多元回归分析 , 表 2 列出了各参数的估计值 、标准差 、t 检验值和 t 检验值对应的概率值 ( 显著性 ) , 当概率值越小时其参数的回归效果越好 。表 2 传播效果多元线性回归预测自变量描述 自
19、变量符号 回归系数 标准差 t 检验值 显著性常数项 d 1 672. 998 3 779. 6177 0. 42 0. 6596粉丝数 x 0. 83091 0. 08204 10. 12 0. 0000活跃度fact621. 007 597. 5269 1. 03 0. 3008工作时间 1 2 643. 4804 1 562. 6417 1. 71 0. 0937休息时间 2 522. 8288 2 595. 2642 0. 19 0. 8396日 期 3 3421. 105 2 484. 0894 1. 41 0. 1709发布时间 4 0. 10178 0. 07901 1. 31
20、0. 1986由表 2 中回归分析结果的数据情况 , 可以得到 : ( 1) 自变量粉丝数 x 对因变量的影响是最显著的 , 平422016 年 3 月第 36 卷第 3 期现 代 情 报Journal of Modern InformationMar. , 2016Vol. 36 No. 3均每增加 10 000个粉丝数就会多大约 8 次的转发 。( 2) 自变量活跃度 fact、休息时间 2和日期 3对因变量转发数量的影响均为负的 , 即上述 3 个自变量的值变大时转发量会减小 , 而粉丝数 、工作时间和发布时间 3 个变量对转发数量的影响是正的 。( 3) 工作时间与休息时间相比 , 工
21、作期间对微博转发量的影响更大 。3. 2 传播效果概率预测传播效果的概率预测指的是利用用户转发的概率大小进行微博信息传播效果预测 , 设微博关注有向网络为 GU, E, U 为传播网络中所有博客的集合 , E 为传播网络中的关系集合 , 博客 u0在时刻 t 发布或转发某微博信息 ,经过层层转发 , 传播到了 un, 则将该微博的传播路径记为Pu0, u1, , un, 如果博客 u 关注了传播者 un, 那么用 p来表示博客 u 转发 un所转发此条微博概率 。本文从爬取的数据中提取出 441 005个转发样本 , 将全部样本划分为训练集和测试集 , 采用逻辑回归 、朴素贝叶斯 、贝叶斯网络
22、预测方法 , 其中贝叶斯方法需要估算每个因子的类条件概率密度 。本文采用非参数方法对总体分布密度函数进行估计 , 计算方法如式 ( 8) 所示 :pf( x C) =1nni =11hx xi( )h( 8)式中 p( x C) 表示需要估计的因子 f 再转发或忽略类 C report, ignore 中的条件概率密度 , n 表示相应类中的样本个数 , h 表示窗口宽度 , 表示正态分布窗口函数 。预测结果以如下所示的混淆矩阵的形式表示 。预 测被转发 未被转发实 被转发 际 未被转发 本文采用查准率和查全率来度量预测模型的效果 。这里查准率是指正确预测微博数占预测为该类微博的比例 ,查全率
23、是指被正确预测的微博数占该类实际全部微博的比例 , 查准率 Paccurate和查全率 Precall的计算如式 ( 9) 所示 :Paccurate= + Precall= +( 9)综合指标 P 用来描述查准率和查全率 , 其计算公式如式 ( 10) 所示 :P =2 Paccurate PrecallPaccurate+ Precall( 10)根据变量的特征可以分为用户类型 、社交类型和微博本身类型共 3 类 , 其中 Fannum、Fanquai、1和 2为用户类型变量 , f、Fcontent, 和 Fcontent, 为社交类型的变量 ,Fcontent, 、L、T1和 T2为微
24、博本身类型的变量 。表 3 是基于新浪平台数据的微博信息传播效果概率预测 。表 3 基于新浪平台数据的微博信息传播效果概率预测结果类 别 逻辑回归方法 朴素贝叶斯方法 贝叶斯网络方法基于 Fannum、Fanquai、1、2的预测Paccurate0. 612 0. 603 0. 647Precall0. 647 0. 795 0. 757P 0. 629 0. 686 0. 698基于 f、Fcontent, i( i =1, 2) 预测Paccurate0. 726 0. 726 0. 737Precall0. 507 0. 606 0. 648P 0. 579 0. 661 0. 690
25、基于 Fcontent、L、T1、T2的预测Paccurate0. 549 0. 579 0. 581Precall0. 725 0. 521 0. 622P 0. 625 0. 549 0. 619综合预测Paccurate0. 671 0. 721 0. 762Precall0. 667 0. 716 0. 761P 0. 667 0. 715 0. 761OC 以真正类率为纵坐标 , 以负正类率为横坐标 , 当曲线递增的幅度越大 , 预测方法的效果越好 。图 3 为 4 种类型预测方法的 OC 曲线 。由图 3 的 OC 曲线可以得到 :( 1) 基于 f、Fcontent, i( i
26、= 1, 2) 的预测 ( 即社交类型 ) 对用户转发行为影响最大 , 而基于 Fcontent, 、L、T1、T2的预测对用户转发行为的影响是最小的 。( 2) 微博的社交需求远远高于其内容的需求 。522016 年 3 月第 36 卷第 3 期新浪微博信息传播的影响因素分析与效果预测Mar. , 2016Vol. 36 No. 3图 3 三类特征的 OC 曲线( 3) 综合类型方法对用户转发行为的预测最为精准 。4 结 论本文在概述了新浪微博信息传播特征的基础上 , 总结了信息传播网络的结构和典型类型的特点 , 然后针对影响新浪微博信息传播的因素进行分析 , 总结了流行三要素与传播特征可以
27、提取的 16 个因素变量 , 并对各变量的提取依据和计算方法进行了分析说明 , 通过多元线性回归预测分析概率模型分析 , 得出粉丝数量是决定传播效果的主要因素 ,同时工作时间和发布时间对微博信息传递也有促进作用 , 通过逻辑回归 、朴素贝叶斯和贝叶斯网络的概率模型分析 , 实证了社交类型对用户微博转发行为的影响最为显著 。参 考 文 献 1 Kim J W, Candan K S, Tatemura J Efficient overlap and contentreuse detection in blogs and online news articles C Proceed-ings of
28、 the 18th international conference on World wide webACM, 2009: 81 90 2 张赛 , 徐恪 , 李海涛 微博类社交网络中信息传播的测量与分析 J 西安交通大学学报 , 2013, 47 ( 2) : 124 130 3 王晓明 , 王莉 , 杨敬宗 微博信息传播网络的结构属性分析 J 中文信息学报 , 2014, 28 ( 3) : 55 60 4 WU Ming, GUO Jun, XIE Jian jun Social media communica-tion model research based on Sina wei
29、bo C Proc of the 6thInternational Conference on Intelligent Systems and Knowledge En-gineering Berlin: Springer Verlag, 2011: 445 454 5 陈远 , 袁艳红 微博信息传播效果实证研究 J 信息资源管理学报 , 2012,( 3) : 28 34 6 曹玖新 , 吴江林 , 石伟 , 等 新浪微博网信息传播分析与预测 J 计算机学报 , 2014, 37 ( 4) : 779 788 7 KWAK H, LEE C, PAK H, et al What is Twi
30、tter, a socialnetwork or a news media C Proc of the 19th InternationalConference on World Wide Web New York: ACM Press, 2010:591 600 8 TIAN Zhan wei, ZHANG Qing pu Empirical analysis of mi-croblog information flow features bases on complex network theory J Advances in Information Sciences and Servic
31、e Sciences,2012, 4 ( 7) : 163 171 9 沈珂轶 社会网络的社团发现与动态特性研究 D 上海 :上海交通大学 , 2011 10 袁毅 微博客信息传播结构 、路径及其影响因素 J 图书情报工作 , 2011, 55 ( 12) : 26 30 11 邢雨晴 , 刘红翠 , 周瑞 , 等 微博信息传播模式及其应用的实证研究的文献综述 J 中国外资 , 2012, ( 18) : 275 277( 本文责任编辑 : 郭沫含櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸櫸)( 上接第 21 页 )参 考 文 献 1 Deben
32、ham J , Clark J The knowledge audit J obotics andComputer Integrated Manufacturing Journal, Pergamon Press,1994, 11 ( 3) : 201 211 2 Henczel S The Information audit as a first step towards effectiveknowledge management: an opportunity for the special librarian J Inspel, 2000, 34 ( 3/4) : 210 226 3 L
33、iebowitz J , ubenstein Montano B , McCaw D , et al Theknowledge audit J Knowledge and Process Management,2000, 7 ( 1) : 3 10 4 Wang jiankang and Xiao jiuling Knowledge management auditframework and methodology based on processes J Journal ofTechnology Management in China, 2009, 4 ( 3) : 239 249 5 Le
34、vantakis, T , Helms, . W Spruit, M. Developing areference method for knowledge auditing J In T. Yamagchi( Ed ) , Proceedings of the 7th Conference of Practical Aspects onKnowledge Management Lecture Notes in Artificial IntelligenceVol 5345 Berlin Heidelberg: Springer Verlag, 2008: 147 159 6 郭咸纲 西方管理
35、思想史 M 北京 : 经济管理出版社 ,2007 7 马丁 , 海森格 , 沃贝克 知识管理 原理及最佳实践 ( 第2 版 ) M 赵海涛 , 彭瑞梅 , 译 北京 : 清华大学出版社 ,2004 8 Brinkkemper, S Method engineering: engineering of informationsystems development methods and tools J Information and Soft-wre Technology, 1996, 38 ( 4) : 275 280 9 Weerd, I van de, and Brinkkemper, S
36、 Meta modeling forsituational analysis and design methods M Submitted for publi-cation Utrecht University, 2007 10 Weerd, I van de, Brinkkemper, S Meta modeling for sit-uational analysis and design methods J In M. . Syed, S. N. Syed ( Eds ) , Handbook of esearch on Modern Systems A-nalysis and Desig
37、n Technologies and Applications Hershey: IdeaGroup Publishing, 2008: 38 58 11 Booch, G , J. umbaugh, and Jacobson The Unified ModelingLanguage User Guide M Addison Wesley, 1999 12 蒂瓦纳 知识管理十步走 : 整合信息技术 、策略与知识平台( 第 2 版 ) M 董小英 , 李东 , 祁延莉 , 译 北京 : 电子工业出版社 , 2004 3( 本文责任编辑 : 郭沫含 )622016 年 3 月第 36 卷第 3 期现 代 情 报Journal of Modern InformationMar. , 2016Vol. 36 No. 3