1、“互联网+”背景下科研用户的小数据融合研究 李立睿 邓仲华 武汉大学信息管理学院 摘 要: 目的 /意义从“互联网+”的视角研究科研用户小数据的动态获取与跨界融合问题。方法/过程分析小数据的内涵和特征,梳理科研用户小数据的来源与构成,从科研用户环境、科研用户需求以及科学研究模式 3 个角度分析科研用户小数据融合的重要性。在此基础上,重点探讨面向科研用户小数据融合的主要原则与具体过程。结果 /结论科研用户的小数据融合包括基础库、关联级融合、特征级融合和需求级融合 4 个层面,并通过数据收集数据关联特征提取知识需求的方式,高效促进小数据的融合创新,为科研用户潜在需求的预测与个性服务的推送提供支持。
2、关键词: “互联网+”; 小数据; 数据融合; 科研用户; 科学研究; 作者简介:李立睿(ORCID:0000-0003-4338-4174),博士研究生;E-mail:;作者简介:邓仲华(ORCID:0000-0003-2389-5487),教授。收稿日期:2016-01-18基金:国家自然科学基金资助项目“大数据环境下面向科学研究第四范式的信息资源云研究”(项目编号:71373191)研究成果之一Analysis on Small Data Fusion of Researchers in the Context of “Internet + ”Li Lirui Deng Zhonghua
3、 School of Information Management,Wuhan University; Abstract: Purpose / significance This paper aims to study the issue on dynamic acquisition and transboundary fusion of small data of researchers from the perspective of “Internet + ”. Method / processIt analyzes the connotation and characteristics
4、of small data,and clarifies the source and constitution of small data of researchers. Furthermore,the significances of small data fusion is expounded from the perspectives of researchers environment,researchers requirements and scientific research pattern. On this basis,the paper discusses the main
5、principles and specific process of small data fusion. Result / conclusionSmall data fusion has four levels of basis,association,feature and requirement. It is an important way to effectively promote the fusion innovation with the data acquisition,data association,feature extraction and knowledge dem
6、ands. This pattern provides a support for the prediction of potential demands and push of personalized services.Keyword: “Internet + ”; small data; data fusion; researcher; scientific; research; Received: 2016-01-18从 2011 年互联网思维的首次提出1,到 2015 年“互联网+”作为国家重要发展战略2,互联网已经对我国整个社会产生了深远影响。科研活动作为国家创新发展的重要驱动力,
7、面对以互联融合为主要特征的“互联网+”这一重要思维理念和技术创新浪潮3,其产生的转变是显而易见的。这无形促使科研用户需求的多样化和复杂化。然而,小数据是用户个体化、独特化的特征数据集合,具有突出的个体特征性和多源异构性。因此,用户小数据的深度融合,不仅顺应了“互联网+”的思维模式,而且有利于跨越用户时间和空间的限制,进行个性化需求的获取。起初,对于数据融合及其相关技术的研究主要集中于军事领域,美国国防部从军事应用的角度认为数据融合是将来自多种传感器和信息源的数据进行联合、相关和组合,以获得数据主体的精确位置和身份信息,从而形成对战场态势的全面估计和评价4-5。随着互联网技术的发展,数据融合与信
8、息融合的边界越来越模糊,并且逐渐引起了图书情报领域的关注。化柏林提出了将融合论作为情报学研究的主要方法论之一,并强调了数据融合、信息融合和知识融合在情报学中的作用6。随后,他进一步论述了数据融合对情报工作的重要性,分析了不同类型多源信息的融合方法7。此外,化柏林等还从多源信息融合的表示形式、流程与技术、算法与模型的角度,系统阐述了信息融合的相关理论和应用8。王征等通过对用户的多源行为数据进行获取、表述和挖掘,据此采用信息融合技术将数据进行标准化,为高校图书馆推荐系统的优化提供了支持9。不难发现,对数据融合的研究虽然已取得了一定进展,但是通过数据融合进行用户需求的发现和预测的研究仍比较欠缺。鉴于
9、此本文在相关文献研究的基础上,对科研用户小数据的来源、构成进行了系统梳理,并提出以小数据为主体的整个融合流程,对于用户需求的深度解读具有重要作用。1 小数据的内涵及其特征1.1 小数据的内涵2014 年,美国康奈尔大学计算机科学教授 D.Es-trin 等对小数据进行了研究通过对其父亲去世前几个月的日常行为(包括邮件发送频次、购物频次以及活动范围等)发现了老人身体的异样,而这种异样并没有通过医院的正规体检而显示出来。因此,这种日常行为的表征数据可以作为一种新的医学证据,为病人的诊断和治疗提供更加直接的科学依据。随后,D.Es-trin 通过开发一种移动化数据系统,将个体用户所涉及的全部行为数据
10、(如电子商务行为、社交媒体行为、邮件的发送与接收等)存储到这一系统,以此实现单个用户的数据跟踪,从而实时监控用户随时间变化的健康情况10。由此可见,这类小数据是个体用户全面特征的完全表征,是针对个体用户的全方位、多层次行为模式和情景感知的全部数据集合11。随着时间的推移,这种数据集合是现实个体用户的虚拟表达和描述。通过对该数据集合的分析,能够实时动态地挖掘和预测个体用户的兴趣偏好、行为习惯以及需求状态等。1.2 小数据的特征尽管对于小数据的定义并未形成统一的认识,但是通过对当前小数据的相关理论和实践应用的梳理,可以发现小数据具有以下方面的显著特征:1.2.1 具有鲜明的个体独特性小数据是围绕个
11、体用户所感知的数据集合,体现了较高的数据价值密度。不同个体用户,其行为特征具有一定的特异性,这导致涉及的小数据集也各异。即使对于同一个事件,不同的个体用户由于学习背景、认知能力、思维方式不同,其产生的行为方式也是不同的。这也决定了小数据的个体独特性特征。而这一特征恰好为用户个性化需求的获取创造了条件。1.2.2 具有复杂多样的数据特性一方面,随着高性能传感器、可穿戴设备、智能设备的广泛普及和运用,这些设备所产生的数据类型体现出广泛的半结构化和非结构化特征,并且随着时间的推移以及个体用户活动范围的扩大,其产出的数据量也在逐渐增多,从而进一步加剧了数据的复杂性;另一方面,个体在日常的生活、学习和工
12、作中,其自身产生的数据内容也具有多样性,如视频数据、图片数据、文本数据等,同时这些数据集具有一定的主观性、离散性和随机性。1.2.3 具有高度的实时动态性由于对于个体的感知和监控是全天候、全方位的,因此小数据的获取和收集也是实时更新、动态存储的。对于同一个体用户而言,在不同的时间,其所处的情景状态是不一样的,从而使小数据集合具有动态性和不确定性。另外,个体用户所承担的任务和遇到的问题也是不断变化的,用户的需求行为随之变化,这将促使小数据集合的实时变动。因此,与大数据相比,小数据是以个体用户为中心而感知的数据集合体。因此,对于特定小数据的分析和处理,更加强调数据的个性思维、因果思维、精准定位思维
13、以及用户参与思维12。在大数据成为图书情报机构研究热点的同时,小数据切实体现了用户个体的个性化、实时化数据,从而成为图书情报机构开展多样化服务的重要组成和有力支撑13。2 科研用户小数据的构成科研用户作为图书情报机构的重要服务对象,对于用户全方位信息的获取,是分析其需求模式、保证服务质量的重要环节。当前,科研用户的自主学习方法、信息交流工具以及资源获取方式变得更加多样化,这导致个体科研用户所产生的数据变得更加广泛,类型亦更加复杂。个体科研用户的小数据的具体构成如表 1 所示:表 1 科研用户小数据的构成 下载原表 从表 1 中可以发现,科研用户小数据是密切以用户为中心而进行收集、感知和获取的,
14、其涵盖了用户特征数据、情景状态数据、线上活动数据、线下活动数据、用户生成数据以及科研角色数据。这些数据以全方位、多层次的方式描述了科研用户的研究模式和需求变化。因此科研用户小数据具有以下鲜明的特征:来源广泛:用户在研究过程中所涉及的数据包括馆藏资源的获取数据、各类资源网站的访问数据、传感设备的感知数据、研讨交流数据、自生成数据等;结构多样,涵盖了结构化数据、半结构化数据以及非结构化数据,包括用户日志、文本数据、空间数据、纸质文档、图形图像、音频视频等;全面精确:小数据的获取和分析不仅嵌入到科研用户的整个研究生命周期,而且对于涉及用户解决每个研究问题或任务的全过程,进行了全面深入的数据感知;动态
15、更新:根据不同时间点、不同地理位置以及科研用户不同状态,所涉及的小数据是实时更新的。3 科研用户小数据融合的驱动力分析3.1 科研用户环境的推动科研环境是研究人员开展科研活动的必要条件和重要保证,直接关系到研究项目的有序推进和研究成果的创新产出。一方面,信息技术的发展,数据的获取与产生变得便捷化和快速化,无论是在日常生活中,还是在研究过程中,科研用户已经被大数据环境所覆盖,这种环境不仅深刻影响了科研用户的行为方式,而且正在改变科研用户的思维理念和决策模式。另一方面,“互联网+”已经作为国家的一项重要行动战略,并成为了一种新的经济形态14,在这一重要背景下,基于互联网思维来发现问题、分析问题和解
16、决问题已逐渐转变成了一种趋势,各个领域正在以泛在互联与跨界融合的方式推动着自身的转型和创新。因此,科研用户作为创新项目的主要实施者和推动者,围绕科研用户自身的小数据融合既是大数据环境的必然要求,又是“互联网+”背景下精准获取科研需求、全面深入服务创新的重要体现。3.2 科学研究模式的要求数据密集型科研范式的兴起与形成,加速了跨学科知识的融合,促进了科研团队的协同,进而导致了科研模式以协作化的方式,从传统的假设验证逐渐转向以数据为驱动的知识发现,科研用户不再将精力主要集中于数据的收集和获取阶段,而是在海量科学数据中,构建研究模型,进行数据分析和知识挖掘。此外,通过对科研长尾效应的分析15,相比大
17、型科研项目,大多数科研用户作为科研团队成员,其项目研究规模都是相对较小,并且科学数据趋于异质性、以个人管理为主,但是,这类科研用户的数据或知识需求往往不能够被服务机构所重视16,从而导致个性化服务难以得到保证。因此,围绕不同层次、不同来源、不同机构的科研用户进行个体化小数据的采集、整理和融合,是适应科研模式转变,满足科研长尾用户具体需求,服务科研长尾用户的重要环节。3.3 科研用户需求的驱使泛在信息环境下,面对研究项目的复杂化,研究模式的集成化,一方面,科研用户所处的情景变得极具动态化,从而导致服务需求是实时的、模糊的,对这种需求的全面感知仅仅根据用户的描述,已经不能成为图书情报机构提供个性化
18、服务的唯一参考依据,这也充分体现了面向科研用户全方位小数据融合的重要性;另一方面,科研用户作为研究团队的一员,其研究任务和担任角色也是变化的,这直接体现在科研用户情景状态和行为方式的细微差异上,这就需要服务人员要以整个项目生命周期的视角来全面看待科研用户的需求变化17,而小数据的深度融合恰能够全面而细致的展现科研用户需求。因此,面向科研用户的小数据融合对于以多维度视角分析用户需求提供了可能。一方面,小数据是科研用户的虚拟描述,通过对其进行深度融合,能够分析和获取用户实时而全面的需求;另一方面,小数据融合是互联网思维的重要体现,为多源数据的交叉分析和验证,提供了解决方案,有效应对了科研用户的兴趣
19、和需求动态转变所导致的服务效度延迟和服务内容单一的困境。4 面向科研用户的小数据融合4.1 科研用户小数据融合的原则小数据融合是“互联网+”互联互通、跨界融合典型特征的体现,也是科研范式转变过程中用户需求精准分析和服务个性推送的基础。面向科研用户的小数据融合从全方位的视角反映了用户、行为和事件之间的因果关系,可以更加全面地揭示科研用户自身行为的联系、科研用户之间的联系、科研用户与服务机构的联系以及服务机构与服务机构之间的联系,以此挖掘新的需求变化规律和服务应对模式,为高效推送个性化服务提供有力数据支撑和决策支持。因此,科研用户小数据融合的原则主要体现在以下方面:4.1.1 全面性与系统性相结合
20、用户的整个科研活动是一个连续性的过程。从项目生命周期的视角来看,其主要涉及项目选定、项目实施、项目结题和项目评估 4 个方面,随着项目的推进,科研用户需求和行为不断发生变化,从而导致服务机构的服务模式也随之进行相应的调整。在整个周期过程中,用户的情景状态、行为方式以及需求表征都是相互关联、相互作用,在时间和空间维度,共同形成了完整而全面的个体科研用户的小数据生态系统。因此,以科研用户为导向的小数据融合应注重数据生命周期以及项目生命周期的系统性,强化全面而深入的融合流程,从而提升融合效度。4.1.2 互补性与多维性相促进不同层次的小数据融合,反映了科研用户的不同需求侧重点,由此可知,小数据的互补
21、性不仅体现在针对个体科研用户的不同信息来源之间的数据互补,而且体现在科研团队或者组织内部,不同用户之间的数据互补。此外,由于科研用户专业背景、观念意识以及认知能力不同,由此所产生的行为方式、反应状态和心理变化各有差异,且随着研究问题的变化而更加具有不确定性。因此,小数据融合既要根据科研用户的需求变化强弱,对不同层次、不同来源的小数据进行有选择性的判断,又要根据不同科研用户进行多维的数据建构,如情景维度、时间维度和空间维度等,这样才能明晰不同科研用户之间的相互关联作用机理,为小数据深度融合提供明确的维度参照。4.2 科研用户小数据融合的过程小数据的融合实质上是一种多层次、多维度的数据处理过程,通
22、过围绕个体化科研用户,将不同来源的数据在不同的时间点和空间点上进行有针对性地滤重、分类、整合、关联、评估等处理,形成多样化的数据融合集,从而以动态化的方式进行不同类型和层次需求的挖掘,为个性化的需求预测和服务决策提供保障。面向科研用户的小数据融合主要包括基础库、关联级融合、特征级融合以及需求级融合 4 个要素,并且体现在用户科研的整个项目生命周期中,其共同支撑了科研用户的全方位、立体化的小数据生态系统的形成与构建。4.2.1 基础库又称为基础资源库,该层主要由用户小数据资源库和项目小数据资源库组成。其中,用户小数据资源库根据科研用户的行为特征和规律,将获取的小数据集经过一定序化,从而形成动态资
23、源库;项目小数据资源库是以项目信息为主体,根据项目生命周期中不同阶段,对其进行详细描述的数据资源库,包括子项目信息、项目的阶段性成果信息、项目进度管理信息、项目人员变动信息等。由于一个科研用户可能承担了多个项目研究任务,并且在每个任务的完成过程中,用户所担任角色具有显著的差异性。因此,基础资源库内部可以通过对零散小数据进行全面收集和初步整理,包括一致性检验和冲突检验。并围绕科研用户的行为模式,进行不同时间间隔和不同物理位置的小数据资源汇聚,从而实现多源小数据的互联、共享和协同,减少冗余数据的干扰,发挥小数据作为基础资源的互补优势。图 1 科研用户小数据的融合过程 下载原图4.2.2 关联级融合
24、该层以小数据资源库为基础,其主要包括数据映射、异构加权、数据滤重和数据更新 4 个方面。首先,根据不同来源的小数据特点,建立统一化目标数据模型,通过对序化数据资源库中的差异型字段、互补型字段进行判断,并与目标数据模型进行对比,确定数据映射的逻辑关系转换方案,保证数据映射的准确性。其次,对不同类型和级别的数据进行加权,可以采用加权平均法的方式,对用户不同层次的信息进行权值分配,以专家评估为参考导向,进行权值修正。然后,在小数据的收集过程中,不同数据源所获取的数据在一定程度上会存在重合或覆盖,而数据滤重就是对这部分冗余数据进行处理,保证数据质量,提高关联效率。最后,由于小数据的动态性、实时性特征,
25、需要对获取的数据进行不断地补充、更新,在对数据进行时空校对的基础上,以保证数据的全面性,以此使小数据达到关联互通。4.2.3 特征级融合该层主要包括数据集成、属性分析、特征提取和特征关联,其目标是对关联小数据进行属性分析,从而识别小数据集内部的特征信息,并进行整合和关联,同时对科研用户情景进行描述,形成小数据的特征视图。其一,在数据关联的基础上,通过结合科研用户实时情景,在时间维度方面,与原有数据集进行快速集成,为以数据驱动的特征分析提供保障。其二,在与用户进行交互沟通、实时反馈的同时,对整个小数据集进行属性的分析和挖掘,其中包括数据属性的分类和聚类,以协同的方式进行科研用户行为特征提取,保证
26、其准确性和实时性。其三,对于不同的特征信息,以不同的视角,形成全方位的特征关联,构建科研用户特征知识空间类簇18,并为各行为模式之间因果关系的挖掘奠定基础。4.2.4 需求级融合该层主要包括特征分类、特征聚合、特征挖掘、态势判断、小数据融合知识库和需求视图,其目的是对小数据特征进行分析,结合科研用户研究情景,构建小数据融合知识库,形成实时化和多维化的用户需求视图。一方面,在特征级属性融合的基础上,对多维度的特征属性进行时空维度检验,根据科研用户当前心理状态情景、目标任务情景和行为方式情景,进行特征分类和特征聚合,保证不同情景层次的全面描述;另一方面,通过与科研用户进行互动,逐步将多种证据体(需
27、求特征)合并成综合化证据体(需求特征知识),即利用实时数据融合算法,进行特征挖掘19。因此,小数据融合知识库是科研用户特征知识空间的集合,可以充分展现科研用户在时间维度和空间维度的需求视图。在时间维度层面,通过将同一行为模式或类型在不同时间段的特征进行融合,准确分析科研用户的心理状态、行为偏好的演变过程,据此了解其长期需求与短期状态的关系,从而实现需求趋势判断、行为动向感知以及服务前瞻预测的个性化服务格局;在空间维度层面,通过厘清科研用户的网络关系,主要包括物理网络关系和虚拟网络关系,描述科研用户的物理位置动向网络、社交网络、合作网络、知识网络、服务网络等,从而进行网络关键节点和主要关系分析,
28、发现用户在多层次网络节点上的需求规律和行为方式,例如,通过对科研用户的线上网络行为数据和线下社会活动网络数据进行分析,并结合情景数据的多维视图,能够较为完整地分析出科研用户对于同一研究问题的心理状态和兴趣节点的轻微变化,从而摆脱传统以经验为导向的需求获取方式,转向围绕科研用户完整化需求动因链的分析模式。由此可见,面向科研用户的小数据融合采用数据收集-数据关联-信息特征-知识需求的模型进行逐层融合,将下一层作为上一层的输入,以跨界融合的方式,对各层的结构与内容进行分析,从而有利于科研用户的需求产生动因、需求相关特征、需求趋势变化以及需求解决方案等整个需求链的实时把控。同样,对于不同的研究群体,可
29、能根据单个科研用户需求的相关性,进行自动化的互联,促进服务的最大化扩散。5 结语科研用户研究环境和范式的变化,使得个性化、多样化和专深化的知识推送服务变得更加迫切,这也推动了图书情报机构的服务理念转变和服务模式升级。小数据作为科研用户的个体特征化数据,是科研用户行为和需求的虚拟描述,对于支持服务计划和决策的提升,具有相当重要的补充和支撑作用。因此,全方位、多层次地对小数据进行融合是提升小数据质量,实现小数据增值的重要手段,是实施个性化服务的先决条件。另外,“互联网+”背景下,泛在互联与跨界融合已经成为现代个性化服务创新的基础20,面向科研用户的小数据融合既是顺应这一趋势的重要体现,又是转变图书
30、情报机构服务思维的关键举措。参考文献1冀勇庆.李彦宏是提出“互联网思维”的第一人EB/OL.2015-11-25.http:/ 2新华社.政府工作报告(全文)EB/OL.2015-10-18.http:/ 3国务院.国务院关于积极推进“互联网+”行动的指导意见EB/OL.2015-12-10.http:/ 4高翔,王勇.数据融合技术综述J.计算机测量与控制,2002,10(11):706-709. 5WALTZ E,LINAS J.Multisensor data fusionM.London:Artech House Publisher,1990. 6化柏林.情报学三动论探析:序化论、转化论
31、与融合论J.情报理论与实践,2009,32(11):21-24. 7化柏林.多源信息融合方法研究J.情报理论与实践,2013,36(11):16-19. 8化柏林,李广建.大数据环境下多源信息融合的理论与应用探讨J.图书情报工作,2015,59(16):5-10. 9王征,谢奉君.基于多源信息融合的高校图书馆推荐系统J.情报理论与实践,2014(2):93-97. 10ESTRIN D.Small data,where n=meJ.Communications of the ACM,2014,57(4):32-34. 11马晓亭,陈臣.基于可信小数据的图书馆个性化服务研究J.图书情报工作,20
32、15,59(1):85-88. 12孙红蕾,郑建明.小数据思维驱动下的数字文化治理路径探析J.图书馆学研究,2015(18):39-43. 13陈臣,马晓亭.基于小数据的图书馆个性化推送服务与服务质量保证研究J.情报理论与实践,2015,38(10):95-99. 14新浪科技.曹国伟:“互联网+”代表的是一种新经济形态EB/OL.2015-12-10.http:/ 15杨平,田野.长尾数据共享研究进展J.图书情报工作,2014,58(8):133-138. 16HEIDORN P B.Shedding light on the dark data in the long tail of scienceJ.Library trends,2008,57(2):33-35. 17邓仲华,李立睿,陆颖隽.大数据环境下嵌入科研过程的信息服务模式研究J.图书与情报,2014(1):30-34,40. 18李立睿,邓仲华.面向科研的嵌入式知识推送服务研究(下)基于用户兴趣模型的视角J.图书馆杂志,2015(8):15-20. 19王恩雁,李向阳.应对灾情态势评估的多源信息融合规划研究J.情报理论与实践,2014,37(6):68-72,54. 20马化腾,张晓峰,杜军.互联网+:国家战略行动路线图M.北京:中信出版社,2015.