1、大数据视角下的技术创新路径识别研究 周潇 黄璐 马婷婷 西安电子科技大学经济与管理学院 北京理工大学管理与经济学院 北京物资学院物流学院 摘 要: 近年来, 以信息技术为代表的新兴技术受到社会各界的广泛关注。然而, 由于新兴技术的高度不确定性, 如何有效预测并选择合适的商业化路径是目前学术界的研究难点。本文从大数据的角度出发, 提出了一种基于文本分析、三元组提取法 (SAO) 、技术路线图等方法构建而成的“技术创新路径识别模型”, 对多种异构数据反映的技术发展规律进行探索。该模型在获取研究领域主要技术点的基础上, 可以对技术点间动态演化关系以及技术创新路径进行识别。在案例部分, 本文以固体脂质
2、纳米粒子 (SLN) 为例, 研究其在医药及化妆品领域的商业化创新路径。研究表明, 目前 SLN 有 4 条创新路径, 其中, 在化妆品产业的创新应用是未来市场开发重点。关键词: 新兴技术; 大数据; 技术路线图; 文本分析; 固体脂质纳米颗粒; 作者简介:周潇 (1986-) , 女 (汉) , 陕西西安人, 西安电子科技大学经济与管理学院 (讲师) , 博士, 研究方向:技术预测及创新管理。作者简介:黄璐 (1984-) , 女 (汉) , 江西抚州人, 北京理工大学管理与经济学院 (副教授) , 硕士生导师, 博士, 研究方向:技术预测及创新管理。作者简介:马婷婷 (1984-) , 女
3、 (汉) , 湖南湘潭人, 北京物资学院物流学院 (讲师) , 博士, 研究方向:文本挖掘、科技预测与评价、技术并购。收稿日期:2015-10-15基金:西安电子科技大学基本科研业务费资助项目基于文本挖掘与技术路线图的新兴技术创新路经研究 (编号:XJS15069) , 起止时间:2015.7-2016.7A research on the technology innovation pathway identification model from the perspective of big dataZhou Xiao Huang Lu Ma Tingting School of Econ
4、omics and Management, Xidian University; School of Management and Economics, Beijing Institute of Technology; School of Logistics, Beijing Wuzi University; Abstract: Recently, new emerging science and technologies ( NESTs) have received extensive attention from the society. How to predict effectivel
5、y the innovation pathways and select the appropriate developmental direction are core issues in current research due to high uncertainties in the development of NESTs. Our research investigates deeply the potential laws from the variety heterogeneous information from the perspective of big data. The
6、n, by relying on the methods of text analysis, SAO theory and TRM, we build an identification model for gauging technology innovation pathways. In the case study, we take solid lipid nanoparticles ( SLNs) as an example to deeply investigate its innovation pathways in the pharmaceutical and cosmetic
7、markets. The research results show that there are four innovation pathways in SLN domain and the most promising one is in developing cosmetic market.Keyword: new emerging science and technologies (NEST) ; big data; technology roadmapping (TRM) ; text analysis; solid lipid nanoparticles (SLNs) ; Rece
8、ived: 2015-10-151 引言大数据时代的来临使人类生活发生了颠覆性改变, 足量的有效数据可以帮助人们精确预测未来事物的发展趋势。大数据即巨量数据, 其容量超过目前主流软件的获取及分析范围。对大数据的应用主要是指, 在合理的时间内获取、分析、管理数据, 并快速形成可被企业决策、政府工作使用的重要参考信息。人类对大数据的研究应用始于 2009 年, 当时 Google 公司充分利用短期内出现的大量搜索数据, 精确预测出 H1N1 禽流感在美国爆发的时间及区域, 比美国卫生署早了 2 个星期, 避免了大量的人力、物力损失。此次成功预测仅仅通过数据来发现问题, 抛开了行业制约和复杂的方法模
9、型, 打破传统医疗预测中必须使用的临床检验及样本测试。在大数据时代, 科学家的研究与预测更关注结论, 而不是过程, 即“只需知道是什么, 而不是为什么”。以数据为导向的管理理念已成为各国政府寻求科技创新、行业发展的有效手段1。当今社会, 大量新兴技术如雨后春笋般不断涌现。研究表明, 新兴技术在投入市场的进程中, 存在大量的机遇与挑战。如何有效判断新兴技术未来发展趋势, 并筛选出最佳的技术创新路径已成为目前的一大研究难题。现有研究更多是依赖于专家对新兴技术未来发展的主观把控, 缺乏定量化的识别研究2, 而大数据的兴起则为新兴技术的发展预测开拓了一个新的方向。人们可以借助大数据, 对多种异构信息反
10、映的潜在规律进行深入探索, 从而识别出新兴技术的未来发展路径。本文站在市场投资者的角度, 从大数据的视角对新兴技术的技术演化过程进行深入挖掘。在这里, 本研究引入技术路线图这一重要工具, 对新兴技术的主要创新路径进行识别。技术路线图 (TRM) 是指通过可视化的表现手段 (通常为图形) , 对技术发展过程中不断变化的市场环境、经济环境以及技术环境进行动态展示的一种工具, 已被广泛应用于技术创新领域3-5。自上世纪 70 年代开始, 国内外学者围绕技术路线图开展了大量研究。按照 TRM 的绘制思路及方法, 我们可以将 TRM 的研究分为两类:基于定性分析的 TRM 以及基于文献计量学的TRM。其
11、中, 基于定性分析的 TRM 主要以文献学习、德尔菲法为基础, 结合专家意见构建并绘制, 能在一定程度上反映行业的主流思想。而基于文献计量学的TRM 则充分利用统计分析和数据挖掘技术, 通过统计出版物、专利的发表情况及引用情况来解释科学技术的进步程度, 并展现随时间推移的研究成果。按照两种技术路线图的研究思路, 我们对代表性的研究人员及研究特征做了如下总结:见表 1。表 1 两类 TRM 的研究对比 Table 1 The comparison of two kinds of TRM 下载原表 近年来, 众多学者对技术路线图的应用范围和绘制方法进行了多元创新, 尤其在识别多维数据、数据反映的技
12、术演化关系上做出了大量研究, 其中, 三元组提取法 (SAO) 是识别该类关系中最具代表性的一种工具11。在三元组 SAO 结构中, S 代表主语 (subject) , 反映新技术点或解决方案的名词结构;A 代表谓语动词 (action) , 反映解决方式;O 代表宾语 (Object) , 反映旧的技术点或被解决的问题。这样的 SAO 结构在强调技术点的同时, 还能够对技术点间的语义关系进行展示, 可以帮助研究者获取对技术点间完整的语义理解12,13, 这就弥补了传统研究中仅能通过专家讨论及文献分析识别技术演化方式的缺陷。具体关系如图 1 所示。图 1 SAO 结构示意图 Figure 1
13、 The schematic diagram of SAO structure 下载原图近年来, 基于 SAO 结构分析的文本挖掘方法已经被广泛应用于技术创新领域。Yoon 等人14通过提取专利信息中的 SAO 结构, 并对其进行语义相似度计算, 获取了技术应用的可行性和发展过程。随后, 他又利用该方法对技术发展趋势进行有效预估15。Cascini 等人16通过对 SAO 结构的深入挖掘, 解决了专利设计结构的可视化问题, 并以此显示了技术的创新进程。张嶷等人10对专利信息的 SAO 结构进行提取, 并结合 TRIZ 的有关思路, 找到了染料敏化太阳能电池的技术演化路径。围绕新兴技术创新路径识
14、别研究这一主题, 本文的研究主要包括四部分:一是获取能反映新兴技术发展规律的多源数据;二是利用三元组提取法 (SAO) 获取不同研究主体 (技术点) 的关联及演化关系, 从而识别核心的技术演化方向;三是利用技术路线图的重要思路与方法, 对“技术簇”间的动态演化关系进行可视化展示, 从而为识别技术创新路径奠定基础;最后, 本文以“固体脂质纳米粒子”(SLN) 这一新兴技术为例, 对该识别方法的有效性进行了验证。2 研究设计2.1 研究方法合理评估新兴技术在发展过程中所处的研究阶段及发展方向17是目前学术界关注的焦点, 也是各国在国际竞争中获取先机的重要条件。在此背景下, 本文获取了大量的异构数据
15、 (科技文献、专利以及商业报告) , 利用三元组提取法深入挖掘潜在的技术演化关系, 并利用 TRM 将演化关系可视化, 从而有效预测技术的创新路径。这种方法以数据分析为基础, 因而结果较为客观, 较适用于拥有大量相关数据, 且对时效性要求较高的技术路径识别研究。在这种研究思路的指导下, 本文构建了“基于 SAO 及 TRM 的技术创新路径识别模型”, 主要涉及两方面的研究:“技术演化关系的提取”和“技术创新路径的识别与可视化”。在“技术演化关系的提取”中, 三元组提取模型是主要的研究方法。由于技术具有系统性与层次性, 往往需要多方协作才能完成具体功能, 因而一个有效的三元组应包含一个完整的技术
16、组成 (演化) 关系。目前, 可以进行 SAO 结构提取的软件包括 Goldfire Innovator、Stanford Parser 以及 Alchemy API。其中 Goldfire Innovator 软件功能最为强大。该软件与全球多个专利及专业网站相连, 能对获取的科技信息进行详尽的语义分析, 因而被广泛应用于语义理解等领域。本文利用该软件, 从文本信息中提取反映技术演化规律的 SAO 结构。另外, SAO 结构的主语和宾语, 可以反映待研究领域的核心技术点 (对这些技术点的提取则充分利用了文本分析中“自然语言处理”、“主题词簇合并”等分析步骤, 本研究团队对该部分的研究成果发表于
17、 2014 年的 TF从横向上看反映了同层间随时间变化的发展过程19,20。按照本文的研究思路, 我们将不同数据源获取的 SAO 结构分别作为技术层、产品层以及市场层的输入;层级之间的联系则利用 SAO 中相同的技术点 (即“S”或“O”) 作为连接纽带。各 SAO 结构的出现时间以文献最早出现时间为准。而由一系列反映相似功能或应用方向的 SAO 结构组成的技术演化进程, 则代表一条核心技术创新路径。为了保证技术路径的可信度, 我们还通过研讨会的方式召集领域专家对结果进行讨论。基于这种思路, 从“技术点识别”、“技术点间演化关系的确定”到最后“技术创新路径的识别”, 是一个从微观 (显性信息)
18、 到中观 (显性信息的有效组合) 再到宏观 (隐形信息) 的过程21, 见表 2。表 2 反映技术演化规律的三层结构 Table 2 Three-level hierarchical structure to reveal the technology evolution laws 下载原表 按照这个研究思路, 本文的模型框架如图 2 所示。图 2 基于 SAO 理论及 TRM 的技术创新路径识别模型示意图 Figure 2 The schematic diagram for the technology innovation pathway identification model base
19、d on SAO and TRM 下载原图2.2 研究数据本文的数据源共分为三类:科技文献数据 (WOS) 、专利数据 (DII) 以及商业报告 (ABI/Inform) 。这三类数据 SAO 结构所展示的研究侧重点也有所差异。从科技文献信息中获取的 SAO 结构, 其反映的核心要素为技术领域或实验方法的创新;从专利数据中获取的 SAO 结构则更侧重于产品应用;从商业报告获取的SAO 结构, 则系统阐述了产品应用及市场扩张情况。出于商业保密的原因, 企业并不会对所有产品进行专利申请, 所以在对创新产品的界定上还需要商业信息的有效补充。3 实证分析为了验证研究模型的有效性, 我们以固体脂质纳米粒
20、子这一新兴技术为例, 利用上述研究方法识别其主要的创新路径。纳米导药系统 (NEDD) 是纳米技术在临床医学中的一项重要应用。与传统导药系统相比, NEDD 在解决药物传递过程中的溶解性、提高药物的靶向性、延长药效时间以及降低药物成本上有着独特的优势22。而固体脂质纳米粒子 (SLN) 作为其中重要的纳米导药载体, 也受到了临床医学界的广泛关注。SLN 的第一篇学术文章发表于 1991 年, 其突出优势在于体积小、接触面大以及在药物传递过程中能够实现定向投递并控制释速。这些优势大大减小了传统投递过程中造成的细胞毒性等副作用23,24, 因而具有良好的发展前景。在对 SLN 创新路径进行识别前,
21、 本文先对数据源做一个简单说明。我们在前期曾对 NEDD 领域做了深入的背景研究, 并提出了一个有效的新兴技术检索策略22。根据该检索策略获取了 NEDD 科技文献数据集 (包括 WOS 及 Medline 数据库, 总和超过 10 万条) 、DII 专利数据集以及 ABI/Inform 商业数据集。在此基础上, 我们利用文本挖掘的手段, 对 SLN 子数据集进行分离, 并通过二次检索对数据集进行有效补充, 从而获取 SLN 科技文献数据 2936 条、专利数据 305条以及商业数据 148 条。随后利用 Vantage Point 软件对数据集进行文本挖掘, 并通过主题词簇合并 (term
22、clumping) 等相关步骤进行主题提取25, 分别获取了 97、63 以及 34 个核心技术点。在利用 Goldfile 软件对 SLN 文本数据进行挖掘分析后, 本文共获取了 172 个重要 SAO 结构。将这些 SAO 结构与技术点进行文本拟合, 共有 105 个 SAO 结果与之匹配。为了进一步对这些 SAO 结构进行重要度筛选, 笔者及研究团队于 2013年 9 月 28 日在美国亚特兰大召开了 NEDD 研讨会, 邀请 40 余位专家对研究结果进行讨论。与会专家通过对 SAO 结构的筛选, 最终确定了 64 个有效结构。在进一步对相似性进行研究后, 最终分别从三个数据集中汇总出
23、9 个、5 个以及 3个重要关系。由于篇幅所限, 仅在表 3 中列出部分筛选结果。表 3 有效 SAO 结构示例 Table 3 Some examples of the effective SAO structure 下载原表 在专家的帮助下, 利用 TRM 的绘制思路, 笔者及研究团队对合并的 17 个重要SAO 结构进行可视化展示, 具体如图 3 所示。图 3 固体脂质纳米粒子技术创新路径 Figure 3 The SLN technology innovation pathway 下载原图从图 3 中可以看出, SLN 共包含三种粒子, 即药载 SLN (用实线圈表示) , 核酸类 S
24、LN (用虚线圈表示) 以及纳米脂质载体 (即 NLC, 用双线圈表示) 。从 SLN的相关产品来看, 目前该粒子主要的应用方向是抗癌药物、皮肤药物、防晒产品以及保湿产品。其中抗癌药物是 SLN 中最重要的应用领域。从 SLN 的市场分布来看, SLN 商业化发展刚刚起步, 其最具有发展前景的市场为医药市场及化妆品市场。然而, SLN 在化妆品市场上的发展远远早于医药行业。深入研究后发现, 世界各国都对药物产品有严格的监管机制, 新药需要经过大量的临床实践才能推向市场。与之相比, 各国对化妆品的管制则相对宽松, 这就导致了SLN 相关产品在这两个市场的推广时间上存在较大差距26。对图 3 进行
25、深入分析后, 本研究识别出了 SLN 产业中的 3 条技术创新路径, 并邀请领域专家对这 3 条创新路径的出现原因、发展制约以及参与主体做了以下讨论。第一, 药载 SLN 在医药领域的技术创新路径。药载 SLN 是将多肽、蛋白质等药物载入到 SLN 内核中, 并在纳米粒子的帮助下进行药物定向投递及控制释放的一种药物载体。其在改善传递过程中的热力不稳定性及毒副作用方面, 具有较高的创新性。另外, 由于 SLN 粒子可避免化学不稳定性药物 (如维生素 A 等) 的降解, 其在皮肤类药物的研制过程中发挥着重要的作用。从对科技文献的数据统计中可以看出, 学界对药载 SLN 的研究起步最早, 自 200
26、0 年起就出现了可应用于皮肤病治疗的甘油三酸脂 SLN 粒子。经过十几年发展, 该领域的研究已较为成熟, 相关论文数量也占领域总论文数量的一半以上。到了 2012 年, 他莫西芬负载的 SLN 粒子被应用于抗癌制剂的生产上, 开创了该类粒子用于抗癌治疗的先河。第二, 核酸类 SLN 在抗癌治疗上的技术创新路径。该类 SLN 是将 DNA 质粒等基因片段导入到 SLN 粒子中, 并通过基因转染的方式进行药物传递的一种导药粒子。其特点是靶向性及穿透性较为突出。自 2009 年以来, 学术界对该类粒子的研究就在不断加强, 目前已出现了质粒 DNA、siR-NA 等负载的 SLN 粒子。该类粒子在抗癌
27、制剂的研发中作用显著。值得说明的是, 抗癌制剂是当前医药市场的主流研发方向。目前全球通过批准的抗癌制剂约有 1500 多种27, 而以 SLN为代表的靶向抗癌药物则是近几年发展的新秀。这类药物能够阻断肿瘤细胞中的异常分子而不影响正常细胞, 因此具有很大的创新性。从图 3 中可以看出, 2013 年国际医药市场上已正式出现了 SLN 抗癌产品。第三, NLC (纳米脂质载体) 在化妆品产业的技术创新路径。NLC 是对传统 SLN粒子的一种有效改进与创新。它以性能差异较大的固体及液体脂质为原材料, 被广泛应用于新型化妆品的研发中。由于 NLC 本身的物理结构具有反射紫外线的特性, 其与一些相关药物
28、 (如紫外线阻隔剂等) 综合使用时, 可增强产品的防晒效果。另外, NLC 粒子还具有“闭合作用”, 能够有效锁住水分。基于这种性质, 该粒子已被引入到保湿产品的研发中28。学术界对 NLC 的研发始于2004 年, 其相关产品 (保湿乳液) 于 2007 年被投放市场。到了 2014 年, 具有提高紫外线反射效果的 NLC 防晒霜也在市场上得到有效推广。在对 SLN 的技术创新路径进行深入挖掘后, 我们发现 SLN 产品在医药市场有很大的技术优势 (特别是在脑癌治疗方面) 。然而由于投资巨大且缺乏大规模临床测试, 医药商对该类产品的开发仍持谨慎态度, 但在近 5 年这一现象逐渐得到改善。以
29、Incyte 及 Sirna Therapeutics 为代表的公司已对 SLN 相关药品展开研发。与在医药产业上的缓慢发展不同, SLN 在化妆品产业上却得到了重点关注。由于其安全、低毒的特性, SLN 及其二代产品 NLCs 被广泛应用于护肤产品的研发中26,29。该行业的领军企业包括 Kemira Pigments 公司、Beiersdorf 公司以及 IFAC 公司, 其代表产品包括 Coenzyme Q10、Vitamin A30等。值得注意的是, 虽然 SLN 具有巨大的技术优势与可观的发展前景, 但目前并未进行大规模生产。在 2013 年 10 月波士顿研讨会上, 与会专家就这一
30、现象的产生原因进行了重点讨论, 并总结出两大原因。一是目前大部分皮肤治疗产品渗透角质层的能力有限, 即使是新的 SLN 产品也不能大幅度改善这一弊端。二是, 由于传统产品的产业链非常稳定, SLN 产品缺乏相应的产业支撑, 想要在近期扩大市场份额还有较大难度。然而经过临床测试, 由皮下注射方式传递的 SLN 产品对皮肤的治愈效果较传统产品有大幅度提升, 因此发展皮下注射 SLN 产品将是未来的一个重要的应用方向。4 主要研究结论与启示本文在获取大量多源数据的基础上, 基于 SAO 理论及技术路线图法提出了识别技术创新路径的一般思路与模型。该模型在获取新兴技术主要技术点的基础上, 对技术点间演化
31、关系进行了深入挖掘, 动态追踪并预测技术的基础研发、创新应用及产业化的发展路径。为了验证模型的有效性, 本文选择了中国制造 2025重点发展领域生物制药中的代表性技术:固体脂质纳米粒子 (SLN) 进行了实证分析。研究表明, SLN 具有两条创新路径, 即基于 NLC 的化妆品开发及基于药物及核酸 SLN 的医药开发。其中在化妆品领域的市场开发是目前的一大重点, 而发展皮下注射的SLN 产品则将是未来的一个重要的应用方向。由于我国对 SLN 的基础研究处于领先地位, 有效的利用这一优势将会帮助我国实现技术突围, 推动相关产业的飞速发展, 因而具有较强的现实意义。本模型的创新之处在于改变了传统方
32、法中较少使用定量数据、主要依靠专家智力对技术发展轨迹做定性判断的识别模式, 提出了一种在大数据的支撑下, 定性及定量相结合的路径动态识别方法, 并可视化地展示这一发展进程, 从而更客观、有效的追踪并预测技术的未来发展。需要说明的是, 该研究模型目前还存在一定的局限性。一是利用 SAO 结构仅能获取技术点间的有效关系, 而如何提炼出一组通用的技术演化模式则需要借助领域专家的判断。二是缺乏对包含最新发展理念及商业资讯的网页、微博等实时数据的有效分析。未来将在这两个方面对该模型进行有效改进。参考文献 4Gerdsri N, Kongthon A, Puengrusme S.Discovering t
33、he professional communities and social networks of emerging research areas:Use of technology intelligence from bibliometric and text mining analysisC.PICMET12 Proceedings:Technology Management for Emerging Technologies, 2012:114-121.4Gerdsri N, Kongthon A, Puengrusme S.Discovering the professional c
34、ommunities and social networks of emerging research areas:Use of technology intelligence from bibliometric and text mining analysisC.PICMET12 Proceedings:Technology Management for Emerging Technologies, 2012:114-121. 6Preisler A, Selke T, Focke H, et al.Development of a technology roadmap for solar
35、thermal cooling in AustriaJ.Energy Procedia, 2012, 30 (1) :1422-1431.6Preisler A, Selke T, Focke H, et al.Development of a technology roadmap for solar thermal cooling in AustriaJ.Energy Procedia, 2012, 30 (1) :1422-1431. 10Zhang Y, Zhou X, Porter A L, et al.Triple helix innovation in Chinas dye-sen
36、sitized solar cell industry:Hybrid methods with semantic TRIZ and technology roadmappingJ.Scientometrics, 2014, 99 (1) :55-75.10Zhang Y, Zhou X, Porter A L, et al.Triple helix innovation in Chinas dye-sensitized solar cell industry:Hybrid methods with semantic TRIZ and technology roadmappingJ.Scient
37、ometrics, 2014, 99 (1) :55-75. 12Choi S, Yoon J, Kim K, et al.SAO network analysis of patents for technology trends identification:A case study of polymer electrolyte membrane technology in proton exchange membrane fuel cellsJ.Scientometrics, 2011, 88 (3) :863-883.12Choi S, Yoon J, Kim K, et al.SAO
38、network analysis of patents for technology trends identification:A case study of polymer electrolyte membrane technology in proton exchange membrane fuel cellsJ.Scientometrics, 2011, 88 (3) :863-883. 13郭俊芳, 汪雪锋, 邱鹏君, 等.基于 SAO 分析的技术路线图构建研究J.科学学研究, 2014, 32 (7) :976-981.Guo Junfang, Wang Xuefeng, Qiu
39、Pengjun, et al.The research on construction model for technology roadmapping based on SAO analysisJ.Studies in Science of Science, 2014, 32 (7) :976-981.13郭俊芳, 汪雪锋, 邱鹏君, 等.基于 SAO 分析的技术路线图构建研究J.科学学研究, 2014, 32 (7) :976-981.Guo Junfang, Wang Xuefeng, Qiu Pengjun, et al.The research on construction mod
40、el for technology roadmapping based on SAO analysisJ.Studies in Science of Science, 2014, 32 (7) :976-981. 15Yoon J, Kim K.Detecting signals of new technological opportunities using semantic patent analysis and outlier detectionJ.Scientometrics, 2012, 90 (2) :445-461.15Yoon J, Kim K.Detecting signal
41、s of new technological opportunities using semantic patent analysis and outlier detectionJ.Scientometrics, 2012, 90 (2) :445-461. 16Cascini G, Fantechi A, Spinicci E.Natural language processing of patents and technical documentationM/Document Analysis Systems VI.Springer Berlin Heidelberg, 2004:508-520.16Cascini G, Fantechi A, Spinicci E.Natural language processing of patents and technical documentationM/Document Analysis Systems VI.Springer Berlin Heidelberg, 2004:508-520.