收藏 分享(赏)

浅析-Social Network和Graph Mining 的应用和机器学习技术.docx

上传人:春华秋实 文档编号:3630145 上传时间:2018-11-14 格式:DOCX 页数:21 大小:3.95MB
下载 相关 举报
浅析-Social Network和Graph Mining 的应用和机器学习技术.docx_第1页
第1页 / 共21页
浅析-Social Network和Graph Mining 的应用和机器学习技术.docx_第2页
第2页 / 共21页
浅析-Social Network和Graph Mining 的应用和机器学习技术.docx_第3页
第3页 / 共21页
亲,该文档总共21页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、文档名称 文档密级2018-10-29 华为保密信息,未经授权禁止扩散 第 1 页, 共 21 页浅析 Social Network和Graph Mining的应用和机器学习技术 【摘要】随着移动互联网的到来,UCG(用户产生内容)的不断发展,社交网络(Social Network )已经不断普及并深入人心,用户可以随时随地在网络上分享内容,由此产生了海量的用户数据,面对大数据时代的来临,复杂多变的Social Network数据是有很多实用价值有待挖掘的。本文通过对专家协作和主题的关系发现系统和其相关的论文材料进行分析,讨论Social Network和Graph Mining相关的机器学习

2、技术, 为基于关系图谱的Social Network数据挖掘和应用提供一些思路。随着Facebook,Twitter,新浪微博,LinkedIn 等社交媒体网站的流行,对Social Network 的数据挖掘是近几年的一个技术热点,而Social Network中的用户与用户,用户与主题,用户与活动的关系网络就是一种图结构的海量数据,所以Social Network 的分析中一个主要方向就是针对关系图的Graph Mining。而针对Social Network 和Graph Mining,传统计算机技术面临很多挑战,比如,图节点和边的数据已经达到数十亿的数据级别,海量图数据的分析计算和检索

3、比较困难。而且,图数据结构是很复杂的,基于图结构的数据构建算法模型复杂度很高,比如,构建Social Network影响力传播的动态传播模型是很复杂的。还有,海量数据处理,势必带来并行化处理的要求,而图数据的关联性大,图数据分割复杂,导致基于图数据的分析算法并行化难度很大。面对这些挑战和困难,学术界已经有一些研究和实验,以下介绍的arnetminer系统的算法介绍,可以为基于图数据的Social Network和Graph Mining工作提供一些方法和思路。先来看一下,什么是图数据挖掘?图是一种很重要的数据结构,关于图数据的数据挖掘有很多方向和应用领域,简介如下:文档名称 文档密级2018-

4、10-29 华为保密信息,未经授权禁止扩散 第 2 页, 共 21 页纯理论的图数据挖掘中一个热点是频繁子图的数据挖掘(Frequent Subgraph Mining),即从图数据集合中寻找出现次数不少于最小支持度的子图。这个领域中有很多算法,AMG,FSG ,FFSM,gSpan, SUBDUE,GBI,SIGMAR ,GREW 等等。本文分析的是面向Social Network的图数据挖掘,主要关注的是社群发现(Community Detection),专家发现和排名(Ranking),结构洞分析(Structure Hole ),影响力分析(Influence Analysis),社交

5、关系(Social Tie ),还有多种不同类型网络的数据集成等问题。首先,讨论一下Social Network数据挖掘的应用方式:1, 基于Social Network的意见传播,动态网络影响力传播分析。 举个例子:华为发布P6 手机后,需要做媒体宣传推广,假设领导给定100万预算,需要利用新浪微博做P6手机推广,那么市场人员最关心的问题就是,预计每个新浪博主的宣传费是1万元,怎么用这100万预算,在新浪微博上把P6 手机的推广做的效果最好? 具体化描述就是:基于新浪微博数据的用户Social Network中,需要找到Topic是“手机”相关的100个人(节点),这100个节点的影响力传播

6、范围最大。这就是Social Network分析的典型应用之一,需要分析相关主题图结构数据中的“意见领袖”,“结构洞”(即跨越不同社群子网络的桥文档名称 文档密级2018-10-29 华为保密信息,未经授权禁止扩散 第 3 页, 共 21 页接节点),“动态网络影响力传播模型”等问题。类似的影响力传播图示:2, 领域专家发现,排名。举个例子:公司需要招聘数据挖掘方面的专家和牛人,招聘人员最关心的问题是,怎么找到学术界最有影响力的专家,以及这些专家擅长的学术课题,研究的技术方向,主要参加哪些学术会议,发表哪些论问题,合作者有哪些? 具体化描述就是:在某个学术主题Topic下,在相关论文,会议和作

7、者构成的图数据中,找到专家的综合影响力分析排名,并找到专家与和合作者的关系,专家与研究课题,和相关学术会议的关系。(注:学术界专家评价有一个重要的参数是H-index 指数,H-index 指发表 N篇论文,每篇论文的引用数至少是N,他的H-index就是N。) 比如,数据挖掘领域专家排名:3, 社交关系分析。按照Social Network的六度空间理论,每两个人的关文档名称 文档密级2018-10-29 华为保密信息,未经授权禁止扩散 第 4 页, 共 21 页系一般只需要通过6个中间人就可以建立关系,所以社交媒体中,人们之间关系基本都可以组成网络结构。社交关系分析,典型的应用案例是:通过

8、用户的电话记录,或者邮件记录,分析哪些人是你的家人,哪些人是你的同事,谁是谁的领导等关系。比如下图:4, 相关主题的历史和趋势分析。 某个主题,他的描述表达方式,在不同的时间,会有很多表达方式,会有一些相关的子主题,这些不同的表达方式或子主题就是针对某个主题的一个Topic演进关系图。比如:与Deep Learning 相关的主题有Deep architecture,Deep belief network,Neural network, Feature selection,Reinforcement learning等,这些主题都与Deep Learning 有着密切的关系,分析这些主题随着时

9、间的变化可以看下图:5, 基于地理位置的某领域专家分布分析。比如,公司想做某个领域的研究,并建立相关主题的研究所,就需要分析,哪些地区,这个领文档名称 文档密级2018-10-29 华为保密信息,未经授权禁止扩散 第 5 页, 共 21 页域的专家有哪些。比如,下图中我们看到Deep Learning方面,全球顶尖专家的分布和介绍:6, 知识图谱的构建。知识图谱是Google,Baidu,Yahoo,SOSO等知名搜索引擎近几年新发展的技术。其核心是提供用户查询信息与相关知识的关系,直接通过图示的方法展现密切关联的信息,比仅仅提供网页链接,对用户而言,价值要大很多。而且,信息的关联就是知识的直

10、接体现. 所以,知识图谱被称作新一代的搜索引擎技术。 比如,某明星最近有哪些热点新闻,并且与哪些人有哪些关系等等。腾讯的SOSO华尔兹提供的明星社交图谱就是一个典型应用:文档名称 文档密级2018-10-29 华为保密信息,未经授权禁止扩散 第 6 页, 共 21 页实际上,各大通信运营商已经开始关注社交网络的数据挖掘和应用。比如,中国移动已经在规划基于VGOP分析构建用户关系网,简介如下:文档名称 文档密级2018-10-29 华为保密信息,未经授权禁止扩散 第 7 页, 共 21 页通过以上的介绍,我们可以知道Social Network和Graph Mining的实用价值和应用场景。然后

11、,我根据专家协作和主题的关系发现系统http:/arnetminer.org/,具体分析 Social Network和Graph Mining的相关技术。该系统是清华的唐杰老师带领团队研发的针对学术专家研究分析的系统,唐杰老师是Social Network 领域学术界的大牛,这里可以看到Social Network领域学术界的专家和发展趋势:文档名称 文档密级2018-10-29 华为保密信息,未经授权禁止扩散 第 8 页, 共 21 页文档名称 文档密级2018-10-29 华为保密信息,未经授权禁止扩散 第 9 页, 共 21 页Arnetminer系统是以学术论文为主要数据,进行专家排

12、名,关系挖掘,学术主题相关性发现,历史趋势分析等课题进行研究的公开网站,上面的这些图就是该网站上截取的内容。该系统与华为公司有合作项目。唐杰老师有一个PPT“Computational Models for Social Networks”,对 Social Network的模型,算法和应用做了一个全面的总结,网上可以下载:http:/ Finding in A Social NetworkJing Zhang, Jie Tang, and Juanzi LiDASFAA2007,主要是对领域专家发现排名系统的模型算法进行说明。2)Topic level expertise search ov

13、er heterogeneous networksJie Tang Jing Zhang Ruoming Jin Zi Yang Keke Cai Li Zhang Zhong SuMLJ2011, 主要是ArnetMiner系统构建和查询的模型进行详细说明,这篇论文很长,介绍很全面。3)ArnetMiner: Extraction and Mining of Academic Social NetworksJie Tang, Jing Zhang,Limin Yao, Juanzi Li ,Li Zhang, Zhong Su文档名称 文档密级2018-10-29 华为保密信息,未经授权禁止

14、扩散 第 10 页, 共 21 页KDD2008,主要是对于学术领域,ArnetMiner系统的信息抽取,名称消歧,数据集成等的模型和架构,ACT模型详细说明。与上一篇论文不同的是,上一篇很全面,这一片很详细,对核心的关系构建模型ACT,有详细的说明。4)Inferring Social Ties across Heterogenous NetworksJie Tang,Tiancheng Lou,Jon KleinbergWSDM2012,主要是从不同类型的多个网络中,对用户信息进行集成Transfer学习。5)Social Influence Analysis in Large-scale

15、 NetworksJie Tang,Jimeng Sun ,Chi Wang and Zi YangKDD2009,主要是对网络节点影响力评估模型TAP进行详细说明。6)Social Action Tracking via Noise Tolerant Time-varying Factor GraphsChenhao Tan, Jie Tang, Jimeng Sun, Quan Lin and Fengjiao WangKDD2010,主要是针对基于时间段的网络影响力活动动态传播模型NTT-FGM进行详细说明。7) Learning to Infer Social Ties in Larg

16、e NetworksWenbin Tang, Honglei Zhuang, and Jie TangKDD2011,主要是使用半监督学习的方法进行自动添加关系label的模型PLP_FGM详细说明。8)SAE: Social Analytic Engine for Large NetworksYang Yang, Jianfei Wang, Yutao Zhang, Wei Chen, Jing Zhang, Honglei Zhuang,Zhilin Yang, Bo Ma, Zhanpeng Fang, Sen Wu, Xiaoxiao Li, Debing Liu, and Jie T

17、angKDD2013,主要是对ArnetMiner的新版本SAE平台框架进行说明,数据集成方面比较详细。同时,以上资料中还有介绍大规模分布式图数据挖掘的并行算法介绍。其他参考资料:THUKEG-SAE-D1-1 ,THUKEG-SAE-D3-12,THUKEG-SAE-C1-C2,THUKEG-SAE-B2等,不一一列举。ArnetMiner(即 SAE)总体架构可以看以下几张图:文档名称 文档密级2018-10-29 华为保密信息,未经授权禁止扩散 第 11 页, 共 21 页文档名称 文档密级2018-10-29 华为保密信息,未经授权禁止扩散 第 12 页, 共 21 页下面介绍几个专题

18、技术:1, 社群发现(Community Detection),即相关主题的图节点聚类。主要使用了FCM算法,即基于模糊集的均值聚类算法。与普通K-means聚类不同的是,每个点可以与多个类群建立关系,而且,每个关系有个叫“隶属度”的权重系数,范围是0,1,0.8,0.5等等,所以每个点有一个模糊分类子集,N 个类的模糊子集形成隶属度矩阵,通过迭代方法求聚类中心点,得到N 个文档名称 文档密级2018-10-29 华为保密信息,未经授权禁止扩散 第 13 页, 共 21 页社群聚类。2, 专家排名:学术论文中,每篇文章的合作者,可以构成一个网络,而且这个网络,是基于该论文主题(Topic)的专

19、家网络。所以,根据专家基本信息(Profile)给出初始分数(Score),针对某个Topic的很多论文中的专家网络关系,基于类似Google PageRank的算法,可以迭代地计算每个节点(专家)的排名。这也被称为基于传播的算法“a propagationbased approach for finding expert in a social network.”,专家网络如下图:另外,H-index是学术界的比较重要的排名指数。3, 针对论文和作者,会议构建Topic Model,专家查询时,要区分领域,需要把专家,论文,会议,分成不同的Topic进行查询。与业界流行的Topic Mode

20、l算法,Latent Dirichlet Allocation (LDA) 方法类似,参考了 Author-Topic(AT) model 模型,ArnetMiner提出了两种优化的模型,结合论文作者和会议,Author-Conference-Topic (ACT) model 和结合论文引用的 Citation-Tracing-Topic (CTT) model。这里的ACT模型是核心模型,论文中提到3种ACT模型的实现方法:Three different strategies are employed to implement the topic model,In the first 文档

21、名称 文档密级2018-10-29 华为保密信息,未经授权禁止扩散 第 14 页, 共 21 页model (ACT1, Figure 6 (a), each author is associated with a multinomial distribution over topics and each word in a paper and the conference stamp is generated from a sampled topic. In the second model (ACT2, Figure 6 (b), each author-conference pair i

22、s associated with a multinomial distribution over topics and each word is then generated from a sampled topic. In the third model (ACT3, Figure 6 (c), each author is associated with a topic distribution and the conference stamp is generated after topics have been sampled for all word tokens in a pap

23、er.对比language model (LM),Author-Topic(AT) model,LDA模型的论文数据测试结果如下:文档名称 文档密级2018-10-29 华为保密信息,未经授权禁止扩散 第 15 页, 共 21 页专家或Topic 查询时,使用了迪科斯彻算法求图的最短关联路径(Dijkstra algorithm to find the shortest associations)。4, 社交网络节点影响力的算法模型。ArnetMiner提出了Topical Affinity Propagation (TAP) 模型,基于Topic在Social network 构建影响力模型

24、。这个模型基于因子图(Factor Graph),又称作Topical Factor Graph (TFG) model,该模型图示如下:文档名称 文档密级2018-10-29 华为保密信息,未经授权禁止扩散 第 16 页, 共 21 页通过该模型计算Social Network中,针对某主题(Topic)影响力最大节点的概率。该模型在实现时,基于一个逻辑回归的算法,计算每个节点的影响力分数(influence score),这是主要的衡量数据。“Finally, according to the obtained influence scores and the topic distribu

25、tion , we can easily generate the topic-level social influence graphs.”使用以上网络影响力算法模型在Social network 中用于发现某个文档名称 文档密级2018-10-29 华为保密信息,未经授权禁止扩散 第 17 页, 共 21 页Topic的 “意见领袖 ”,进行测试对比的算法:Here we present 3 methods for expert identification: 1) PageRank+LanguageModeling (PR), 2) PageRank with global Influe

26、nce(PRI) and 3) PageRank with topic-based influence (TPRI).(1是传统算法,2,3是基于影响力分数(influence score)的PageRank。从这里看PageRank是网络节点影响力排名的核心算法。)。结果如下:5, 在一定时间段内,社交网络影响力传播的动态图模型算法。ArnetMiner提出了 Noise Tolerant Time-varying Factor Graph Model (NTT-FGM) 模型, Attribute augmented network: The attributeaugmented netw

27、ork is denoted as Gt = (V t,Et,Xt, Y t), whereV t is the set of users and Et is the set of links between users at time t, and Xt represents the attribute matrix of all users in the networkat time t, and Y t represents the set of actions of all users at time t.(动态网络定义,图节点边的状态+时间t+用户属性 +活动)文档名称 文档密级20

28、18-10-29 华为保密信息,未经授权禁止扩散 第 18 页, 共 21 页该模型比较复杂,可以表现出Social Network的网络动态模型,依据该模型可以对网络中的活动,进行预测,分析出下一时刻某活动主题在网络中的传播状态。我估计这个模型的实现类似于马尔科夫随机场的算法。细节还不是很清楚。6, 对于网络中节点关系的自动标注。很多情况下,各种不同网络中的数据关系是未知的,或者只有小部分数据有关系标注(Label),大部分数据是没有关系标注的。这就需要一些半自动的算法进行关系标注,ArnetMiner提出了一种半监督(semi-supervised)的算法Partially-labeled

29、 Pairwise Factor Graph Model (PLP-FGM)。图示如下:文档名称 文档密级2018-10-29 华为保密信息,未经授权禁止扩散 第 19 页, 共 21 页这里使用了信念传播网模型Loopy Belief Propagation ,使用牛顿- 拉夫逊方法(Newton-Raphson method)求解。不过,我觉得首先假设节点关系是有一定规律的,如不同时间打电话或发邮件的关系不同 (主观分析规则或从已有Label数据分析得出规则,这个是关键)。该模型与支持向量机SVM,转移概率流图TPFG 方法的对比测试:7, 不同网络系统中的数据对齐。相同的名称实体在不同的

30、网络中名称可能是不同的。ArnetMiner提出一种方法进行数据对文档名称 文档密级2018-10-29 华为保密信息,未经授权禁止扩散 第 20 页, 共 21 页齐和数据集成:“ in the first stage, we calculate the relevance score of an entity to the query q by utilizing language model; in the second stage, we select the top-ranked entities as candidates and construct a heterogeneous

31、 subgraph. ”参看“SAE: Social Analytic Engine for Large Networks”。8, 图模型算法的并行化分布式计算方法。图数据的挖掘往往需要对海量数据进行数据挖掘,而且算法比较复杂,有效的进行并行化分布式算法处理是一个重点。目前大规模图挖掘算法的思路是基于Map Reduce将矩阵与向量相乘的过程并行化,但却没有针对Map Reduce特点对图数据进行划分,会产生大量中间结果,需要大量的文件I/O 交互,算法代价很高。针对这些问题,ArnetMiner提出MPI (Message-Passing Interface)的方法,针对Map Reduce

32、方式的分布式图模型算法进行优化。MPI是个消息通信接口,“MPI is a message-passing library interface specification. In the message-passing parallel programming model, data is moved from the address space of one process to that of another process through cooperative operations on each process. Based on the message passing scheme

33、, we employ the master-slave model.”通过以上分析,我们大致可以了解典型的Social Network和Graph Mining数据挖掘的应用和具体实现技术。包括美国“棱镜门”中的项目,其实很多领域已经在针对海量的用户关系数据进行图模型的数据分析和深度挖掘。华为公司也在很多领域进行了Social Network 和Graph Mining相关的研究和应用,比如产品和业务的个性化推荐,在各技术领域的专家寻找和发现,业界技术专利与相关公司的对比分析,产品中的用户刻画和用户关系分析,基于社交网络的产品意见调查分析, 基于社交媒体的智能营销等。同时,也提出了很多新的模型算法和专利技术。相信,在大数据浪潮中,我们可以通过这些技术文档名称 文档密级2018-10-29 华为保密信息,未经授权禁止扩散 第 21 页, 共 21 页更好地发现有价值的知识信息,为企业,产品和社会提供更大的帮助。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 大学论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报