收藏 分享(赏)

面向产业结构优化的多区间套关联函数大数据建模.doc

上传人:无敌 文档编号:168905 上传时间:2018-03-23 格式:DOC 页数:8 大小:105KB
下载 相关 举报
面向产业结构优化的多区间套关联函数大数据建模.doc_第1页
第1页 / 共8页
面向产业结构优化的多区间套关联函数大数据建模.doc_第2页
第2页 / 共8页
面向产业结构优化的多区间套关联函数大数据建模.doc_第3页
第3页 / 共8页
面向产业结构优化的多区间套关联函数大数据建模.doc_第4页
第4页 / 共8页
面向产业结构优化的多区间套关联函数大数据建模.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、面向产业结构优化的多区间套关联函数大数据建模 李桥兴 庞博 吴俊芳 杨勇 贵州大学管理学院 贵州大学喀斯特地区发展战略研究中心 贵州大学体育学院 摘 要: 鉴于关联函数在产业优化决策中有较好的应用, 并且大数据给产业结构的调整升级带来了新的机遇和挑战, 研究大数据情境下的多区间套关联函数及其在产业结构优化中的应用就有非常好的现实意义。根据海量、多源、异构和低密度价值等四个基本特征阐述国民经济系统已经具备产业大数据, 探讨了在产业大数据情境下关联函数的模型构造思路并给出模型的基本模式, 以期为实施产业结构的可拓优化提供建模参考。关键词: 关联函数; 大数据; 产业优化; 建模思路; 作者简介:李

2、桥兴 (1973-) , 男, 汉族, 广西平乐人, 博士后, 教授, 硕士生导师, 学科带头人, 主要研究方向:产业经济学、管理科学与工程等。收稿日期:2017-08-15基金:国家自然科学基金西部项目 (项目编号:71663011) Received: 2017-08-150 引言随着互联网、云计算和物联网等信息技术的发展, 人类已经步入了大数据时代, 大数据成为重要的生产要素1。计算机应用产生的数据量巨大、结构复杂、类型众多, 用传统的方法已经无法满足大数据环境下的管理决策。针对大数据特征挖掘其价值, 同时使用数学方法对其进行分析和建模, 是管理决策的重要依据, 成为国家、企业和个人的基

3、本技能2-3。一般认为, 大数据的处理流程可划分为数据采集、数据处理与集成、数据分析和数据解释等 4 个阶段4。大数据分析有助于发现蕴含于大数据中的低密度价值并形成知识, 为管理与决策提供科学保障。因此, 大数据分析成为大数据研究的重要内容, 并且已经取得了若干成果, 如基于云模型的大数据相关分析、基因表达数据分析5-6等。然而, 目前国内外对于大数据的研究成果大都立足于计算机与信息科学, 从管理与经济视角切入的研究较少7。部分学者认为, 解决大数据问题还需从管理和技术等多方面进行规划8。因此, 基于大数据驱动的管理与决策研究成为大数据应用的重要内容, 是大数据研究的主要发展趋势之一。可拓学的

4、研究对象是现实中的矛盾问题, 它采用形式化模型研究事物拓展的可能性和开拓创新的规律与方法9。关联函数理论是可拓学的重要内容, 用于刻画事物发生质变和量变的程度, 为解决管理实践中遇到的许多矛盾问题提供了有效思路10-11。当前, 关联函数理论成果主要包括两区间套的一维和多维关联函数模型以及三区间套的一维和二维关联函数12-14。关联函数模型用于定量化描述事物发生质变和量变的程度, 能够准确判断事物的发展趋势, 比如在产业结构优化调整中, 利用关联函数来定量描述产业结构与“标准模式” (世界各国产业结构变动的一般特征) 之间的偏差, 能够说明这种结构转化的趋势15。在大数据时代, 管理者将面临由

5、于产业数据的海量、多源、异构和低密度价值等导致数据处理和数据分析困难、商业价值不易挖掘等问题, 因此关联函数建模需要充分考虑大数据的四个特征。本论述分析了产业大数据的四个基本特征和关联函数的大数据建模思路, 给出了面向产业结构优化的关联函数大数据建模基本模式, 有助于更好地适应未来产业优化调整的决策需求。1 多区间套关联函数的大数据建模思路大数据科学与技术作为新兴的科学技术门类已经渗透到各个研究领域, 但大数据有别于传统数据的特征给关联函数型建模带来了新的挑战。大数据的多源化导致收集来的数据类型众多、异构特征明显, 导致数据不能直接用于建模;大数据的体量巨大给关联函数区间套的选取和位置值公式建

6、模也带来了挑战;大数据的低密度价值也使得数据挖掘更具有重要性和复杂性。鉴于此, 本论述从大数据的多源异构、海量和低密度价值等方面阐述关联函数的大数据建模思路。1.1 基于多源和异构特征的关联函数建模思路产业数据的多源特征主要表现为产业数据可来自多种渠道, 如政府统计公报、行业信息、企业年报、各类型的统计年鉴、各类网站和媒体机构、学术论文等。另外, 产业数据的异构特征表现为各种数据既能够以文字或表格的形式记录于各种统计年鉴、政府公报或企业财务报告等, 也可以通过相关部门领导和负责人的讲话录音、电话视频、政府企业网站等途径获取。鉴于产业数据收集途径众多, 并且收集的产业数据同时包含有结构化、半结构

7、化和非结构化等多种数据形式, 使当今时代的产业数据表现出明显的多源异构特征。关联函数理论是可拓学的定量表达形式。鉴于可拓学已经成为人工智能的理论基础学科之一, 其关联函数建模如何适应大数据的多源异构特征是学者们必须解决的问题。本论述以产业大数据为例阐述关联函数的大数据建模思路。可拓学解决矛盾问题的首要任务是把问题和条件等采用基元进行形式化表达, 因此将具有多源异构特征的产业数据用简单化和形式化的基元模型表达出来是关联函数大数据建模的首要工作。基元作为可拓学的逻辑细胞, 在面对多源异构的数据时也显示了其特有的优势。基元包括物元、事元和关系元, 必要的时候还可以采用复合元。基元通过对象 Om、特征

8、 cm和量值 vm (Om关于 cm的取值) 等构成的三元组来形式化描述事物、问题、信息、知识和策略等。特别值得提出的是, 基元中的量值 vm包含了数量取值和非数量取值。因此, 在解决产业结构优化调整问题的过程中, 基元已经适应了产业大数据的异构特征, 能够恰当地表达产业大数据中的结构化、半结构化和非结构化的数据类型。鉴于此, 复杂的产业优化问题能够采用可拓学的基元模型进行形式化表达, 其量值 vm可以是定量值也可以是定性值。产业优化问题的基元模型建立以后, 在构建关联函数模型开展相关问题描述时, 还需要继续将定性数据转化为定量数据。定性数据可以分为两种, 即表达程度的数据和表达状态或类型的数

9、据。第一种类型的定性数据通常可以按照程度判断在 01 之间赋值;第二种类型的定性数据需要将其映射到一个整数集合中并取离散值。关联函数建模首先根据问题需要选择区间套类型 (二区间套、三区间套或多区间套) 。对于连续型特征值, 决策者可以根据历史产业数据、管理者经验和经济现象规律等来设定区间套。对于离散型特征值, 决策者也可以根据问题需求设定类型边界, 并在边界确定后把离散点之间的范围视同连续型区间套。在大数据情景下, 区间套的选取往往需要突破经典关联函数的正域和负域 (或满意区间、可接受区间和不可接受区间) 等限制而更多地表现为多区间套 (三个以上的区间组成) 。产业数据从符合决策者要求到远离决

10、策者要求之间可以包含多种情况, 并且各情况之间也往往没有一个明显的界限, 因此在关联函数大数据建模时可根据管理者的决策需求设置为多区间套。以康体运动产业为例, 该产业是将健康产业和体育产业进行有机结合而在国民经济系统中涌现出来。评价康体运动产业要从两个角度考虑, 即要能体现产业对健康的促进作用和要能体现产业的竞争力。假定两个角度分别选择 n 个和 m个评价特征, 即评价特征集分别为 C1= (c11, c12, ., c1n) 和 C2= (c21, c22, ., c2m) 。确定评价特征后, 要根据管理者的决策需求确定评价特征的变化范围, 即确定区间套。由于大数据往往决定了决策需求的复杂性

11、 (多重性或多标准性等) , 因此特征值的定量数据范围将至少可以包含其量值域 (可取值范围) 、标准正域 (最满意范围) 、正域 (满意范围) 和负域 (不满意范围) 等, 即假设区间 Xik (cij) (i=1, j=1, 2, ., n 或 i=2, j=1, 2, ., m;k=0, 1, 2, .) 且 (k 表示区间的个数, 即 k 区间套) 。如此建立的多区间套可较好地解决产业大数据的多源异构特征。1.2 基于海量特征的关联函数建模思路产业的海量数据表现为数据规模的庞大且呈指数级增长。产业数据首先是该产业内大量企业的经营数据, 包括财务数据、产量数据、员工 (含身体状况等) 数据

12、、环境 (如车间温度、湿度等) 数据, 等等。这些数据随着互联网、物联网、电子商务等发展, 其每个经营个体在各方面产生的大量数据 (含历史数据和实时数据) 聚集起来, 必然会形成 PB 级的数据量。面对如此庞大的数据, 在研究产业发展和产业优化等问题时, 必须采用恰当的方法对海量数据进行处理。在采用可拓学理论研究产业结构的优化调整时, 如何对海量数据进行关联函数建模, 是管理者决策时需要解决的重要问题。显然, 产业的海量数据具有明显的相似属性和一定程度的冗余属性, 在做数据分析 (包含数据建模, 如关联函数建模) 前需要先简化数据。简化数据的方式可以有多种, 比如聚类分析和冗余度分析等。聚类分

13、析是数据挖掘中常用的一种简化数据的方法。部分学者采用关联函数值大小代替聚类对象之间的接近度和相似程度, 使每一个簇中的数据都具有相似的性质和特征, 然后再从每一个簇中随机抽取适量的数据进行研究, 从而实现对海量数据进行聚类16。海量数据的冗余度分析过程亦类似。通过聚类分析、冗余度分析等手段, 达到使海量数据精简的目标。精简后的数据更方便用于提取多区间套, 从而有利于构建关联函数并实现关联函数的大数据建模。以青少年体质健康评价为例, 在采用可拓学理论研究问题时, 先根据实际经济问题 (如体育产业优化升级、区域特色产业培育等) 建立基元 (含物元、事元和关系元) 模型, 此时的基元一般表现为高维数

14、据元17;然后根据数据的海量特征通过一定的处理方法 (如聚类和冗余度分析等) , 使数据达到降维和体量缩小等目的;最后对处理后的数据进行区间套提取和关联函数构造。在研究青少年体质健康状况时, 一般可以获得海量的体测数据。每个研究对象 (即青少年个体特征) 都有多个评价指标, 如身高、体重、血压、肺活量、立定跳远、跑步成绩等, 因此体测数据很容易形成海量数据。管理者可以根据研究需要选择恰当的指标, 通过剔除冗余指标使数据降维和体量降低。另外, 管理者还可以通过聚类分析将数据通过特有的计算方法分为不同的簇, 使得同一簇内的体测对象个体之间具有高度的相似性。一般来说, 聚类标准的设定情况决定了聚类的

15、准确程度。通常评价一个学生体质的好坏可以分为体质好、体质一般和体质差三大类, 其数据可直接对应着关联函数的标准域、正域和节域。经过精简后的海量数据根据情况确定区间套后, 可以采用经典的关联函数构造方法建模, 从而实现青少年体质状态的判断, 如关联函数值 k (x) 1, 说明该学生可以归为体质好的那一簇;k (x) =1 说明该同学的体质状况位于满意区间的临界点;0k (x) 1, 说明该同学体质一般, 需要强化体育锻炼和注意自身营养;关联函数值 k (x) 在-1 和 0 之间, 说明该同学的体质状况不佳, 但可以通过加强体育锻炼较快地提升自身体质等等。在具体操作过程中, 可以随机选取两个学

16、生构成第一簇, 这时的正域可以由这两个学生体测值的并集来确定, 再计算其他学生的关联度, 然后将取最大值的那个学生归为该簇, 此时正域需要与新加入学生的对应体测值取并集来作调整;或者如果关联函数值整体小于 0, 则重新创建一簇;依次类推, 直到所有学生都有对应的簇为止16。如此, 即可在海量数据情况下实现关联函数的大数据建模。1.3 基于低密度价值特征的关联函数建模思路基于前面分析, 产业数据因为来源渠道多和类型复杂等使得数据的信息不能完全被显性表达, 特别是半结构化和非结构化的产业数据需要借助一定的计算机工具将抽象数据直观显现。因此, 产业原始数据是具有不完全、有噪声、模糊或随机等特征的海量

17、数据, 也导致产业数据明显显示出低密度价值的大数据特征。在产业优化的可拓决策和可拓评价过程中, 管理者显然需要在产业数据库里提取有价值的信息 (数据) , 并采用这些有价值数据进行关联函数建模。面对具有低密度价值的海量大数据的关联函数建模的思路, 一般是在产业大数据里采用数据挖掘等工具提取有价值数据。一方面, 管理者在低密度价值产业数据库里挖掘具有利用价值的少部分数据, 然后采用这些有价值数据构建多区间套 (如确定最满意区间、比较满意区间、满意区间、不满意区间等) 和最优值点, 然后再建立关联函数模型。另一方面, 管理者可以采用数据挖掘等工具建立同一产业不同类型数据之间或不同产业数据之间的关联

18、模式, 用关联规则挖掘出数据间隐藏的潜在关系。然而, 面对庞大的产业数据, 传统的关联规则方法可能不再适用。管理者基于可拓学视角把数据库作为基元的集合, 通过建立可拓数据库基元模型将复杂的数据库简化为直观的形式化模型, 把特征元分为决定项和决策项两种类型, 根据基元关于某个特征量值的异同来判断关联函数的异同18。以康体运动产业为例, 与康体运动相关的企业可以有多个特征, 如果企业 N 用n 个特征 C1, C2, ., Cn和对应的量值 v1, v2, ., vn来描述, 我们可以建立康体运动企业的可拓数据库基元模型如下:其中 N 为康体运动企业的集合, 即 N= (n1, n2, ., ns

19、) 。在进行关联规则算法前, 我们可以先通过关联函数判断各企业之间的相似性, 如果两个企业关于某特征的关联函数相同, 那么其对应的量值要么相同要么是一种包含关系18, 这样我们可以将这两个企业归为一类, 只选取一个进行研究。2 产业大数据的关联函数建模步骤面向产业大数据的多区间套关联函数建模, 主要依据大数据的“海量、多源、异构、低密度价值”特征, 研究产业大数据的复杂联系并进行数据分块 (多区间套) , 揭示产业发展的未来变化趋势, 反映复杂经济系统发展演化的潜在规律。根据以上提出的关联函数建模思路, 给出产业大数据的关联函数建模步骤如下。(1) 根据区域产业的发展现状和优化调整目标, 提出

20、产业结构优化调整的矛盾问题;按照可拓学的基元理论, 构建矛盾问题的基元模型;采用可拓创新方法, 提出产业结构调整的多种优化策略基元;确定产业结构的最优标准;选择恰当的评估指标体系, 对优化策略进行选优。(2) 建立定量化模型, 构建评估的多区间套, 即选择区间 A1、A 2、A 3、A n (n 大于等于 2) 满足关系式 , 分别代表决策者的价值取向, 如最满意范围、较满意范围、满意范围、不满意范围、反对范围等。一般来说, 首先需要统一产业大数据表达形式, 去掉对产业数据由于多源异构带来的多量纲和不同量级的影响;其次, 根据决策需要判断是否采用全体数据建模, 若否则需采用数据挖掘等工具进行有

21、价值数据的提取;最后, 按照决策的价值取向对获取的有价值数据进行区间划分, 获得多区间套。(3) 利用多区间套建立位置值公式, 其基本模式如下:其中 Di= (x, A i) 表示点 x 关于区间 Ai (i=1, 2, ., n) 的距;(4) 利用位置值公式建立关联函数模型, 其基本模式如下:其中 (x, x 0, Ai) 表示点 x 关于以 x0为最优点的区间 Ai (i=1, 2, ., n) 的侧距;(5) 根据关联函数模型采用可拓优度评价法确定待选的产业优化策略与“最优产业结构”之间的差距, 并根据差距值判断产业的发展阶段及其发展变化趋势, 然后确定最优产业优化调整策略, 并根据最

22、优调整策略提出地区经济结构调整的策略和建议, 达到地区产业结构优化调整的目的。3 结论本论述阐述了在产业大数据情境下开展产业结构可拓优化调整时管理者需要解决的关联函数建模思路并给出其基本模式。在关联函数模型建立之后, 可以开展产业结构偏差的可拓测算, 采用产业大数据的关联度计算区域产业结构与“标准模式”的偏差, 以此揭示区域产业结构的转化趋势和产业调整对策。然而, 本论述尚未探讨如何构建具体的产业大数据关联函数模型。作者将在以后的研究工作中, 针对产业大数据的复杂性和产业联系的复杂性, 利用产业大数据的实际情况提取具体形式的多区间套如有限区间形式的多区间套、无限区间形式的多区间套和混合区间形式

23、的多区间套等, 并根据区间套情况探讨关联函数的具体模型及其性质研究。参考文献1Manyika J, Chui M, Brown B, Bughin J, Dobbs R, Roxburgh C, Byers AH.Big data:the next frontier for innovation, competition, and productivityR.Report mckinsey global institute, 2011 (05) . 2何军.大数据对企业管理决策影响分析J.科技进步与对策, 2014, 31 (4) :65-68. 3Yong Shi, Philip S.Yu

24、and Yangyong Zhu et al.Explore New Field of Data Science under Big Data Era:Preface for ICDS2014J.Procedia Computer Science, 2014 (30) :1-3. 4刘智慧, 张泉灵.大数据技术研究综述J.浙江大学学报 (工学版) 2014, 48 (6) :957-972. 5杨静, 李文平, 张健沛.大数据典型相关分析的云模型方法J.通信学报, 2013, 34 (10) :121-134 6Zhenyu Chen, Jianping Li and Liwei Wei, e

25、t al.Multiplekernel SVM based multiple-task oriented data mining system for gene expression data analysisJ.Expert Systems with Applications, 2011 (38) :1215112159. 7Frankel D.A.Big data and risk managementJ.Risk Management, 2012 (10) :13. 8邵鹏, 胡平, 齐杰.大数据时代产业发展与社会管理问题研究前瞻J.科技进步与对策, 2014, 31 (12) :154

26、-160. 9杨春燕, 蔡文.可拓学M.北京:科学出版社, 2007. 10李望晨.可拓关联分析法在医疗质量综合评价建模设计中的应用J.中国卫生事业管理, 2014 (9) :652-653+658. 11赵燕伟, 何路, 陈尉刚, 等.基于多维关联函数的相似实例检索方法研究与实现J.数学的实践与认识, 2015, 45 (10) :86-93. 12李桥兴.一元多维位值公式及一元多维初等关联函数构造方法J.兰州大学学报 (自然科学版) , 2010, 46 (02) :86-90+102. 13杨春燕, 蔡文.可拓集中关联函数的研究进展J.广东工业大学学报, 2012, 29 (02) :7

27、-14. 14李志明, 杨春燕.三个区域套下二维初等关联函数的构造方法J.辽宁工程技术大学学报 (自然科学版) , 2015, 34 (02) :267-272. 15Qiao-Xing Li.The Extension Method to Calculate the Error of Industrial StructureJ.Journal of US-China Public Administration, 2010, 7 (4) :54-59. 16潘丽娜, 王治和, 党辉.基于关联函数的数据流聚类算法J.计算机应用, 2013, 33 (1) :202-206 17袁瑞萍, 师鸣若.基于可拓学理论的高维大数据相似性研究J.运筹与管理, 2015, 24 (05) :184-188. 18侯玉霞.基于可拓学的关联规则算法研究D.辽宁:辽宁工程技术大学, 2013.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报