1、,泰迪杯数据挖掘挑战赛 “泰迪杯”数据挖掘挑战赛组委会 “泰迪杯”组委会秘书长 张颖峰,主要内容,泰迪杯数据挖掘挑战赛历史、赛制、发展、资源、合作 数据挖掘与数学建模关系、示例从一道竞赛题目的解答情况看当前数据挖掘教学的问题 2017年竞赛题目及背景解读,2,泰迪杯数据挖掘挑战赛的历史,华南师范大学数学科学学院2010年在本科生中开设数据挖掘课程,举办竞赛的初衷是我们的课堂距离这个信息时代的热点太遥远了上了多年的数据挖掘课,老师和学生都没见过企业中的实际需求和数据是什么样子数据挖教材中要么没有数据,要么“太干净”了课堂讲授的主要是各种机器学习算法,这只是数据挖掘完整链条上的一小部分,缺乏对问题
2、定义和理解的训练有没有一个机会让学生体验真实的数据挖掘工作是如何开展的呢?让我们举办一个竞赛吧!,3,泰迪杯数据挖掘挑战赛的历史,挑战赛性质面向全国在校研究生和大学生的群众性科技活动挑战赛目的激励学生学习数据挖掘的积极性以问题为导向提高学生利用数据挖掘方法分析和解决实际问题的综合能力提高学生的自我学习能力推动数据挖掘技术在高校的推广和应用连接高校的智力资源和社会、企业实际需求,4,泰迪杯数据挖掘挑战赛的历史,第一届“泰迪华南杯”大学生数据挖掘竞赛(2013)第二届“泰迪华南杯”大学生数据挖掘竞赛(2014) -主办单位:广州泰迪智能科技有限公司 华南师范大学数学科学学院第三届“泰迪杯”全国大学
3、生数据挖掘竞赛(2015) -主办单位:广东省工业与应用数学学会 -承办单位:广州泰迪智能科技有限公司 -协办单位:华南师范大学数学科学学院,5,泰迪杯数据挖掘挑战赛的历史,第四届“泰迪杯”数据挖掘挑战赛(2016) -主办单位:全国大学生数学建模竞赛组织委员会 -承办单位:广州泰迪智能科技有限公司 -协办单位:广东省工业与应用数学学会 华南师范大学数学科学学院第五届“泰迪杯”数据挖掘挑战赛(2017) -主办单位:全国大学生数学建模竞赛组织委员会 -承办单位:广州泰迪智能科技有限公司 -协办单位:广东省工业与应用数学学会 华南师范大学,6,“泰迪杯”成为全国数模组委会三大品牌之一,数学建模竞
4、赛的四种形式泰迪杯数据挖掘桃战赛致力于解决企业、社会实际问题,打造大数据领域高校、企业共赢的交流合作平台,7,“泰迪杯”数据挖掘挑战赛组织委员会,成立全国大学生数学建模竞赛组织委员会的下级组织:“泰迪杯”数据挖掘竞赛组织委员会,全权处理竞赛活动的具体事务。 “泰迪杯”数据挖掘挑战赛组织委员会(第五届)主任:陈叔平 副主任:郝志峰 张良均 组委会成员:谢金星 蔡志杰 白峰杉 杨虎 张颖峰 冯国灿 冯伟贞 秘书长:张颖峰,“泰迪杯”数据挖掘挑战赛赛制,挑战赛内容源于企业、管理机构和科研院所等的经过适当简化加工的实际问题贴近现实热点需求:解题知识可转化为就业技能,优秀方案可转化为科技成果(专利、产品
5、、项目)数据只做必要的脱敏处理,保持原始状态(其中可能存在错误),数据预处理和数据分析工作量较大多样的数据类型:图片、视频、文本、非结构化表格论文形式包括问题分析、数据预处理、模型构建、模型评价与模型应用等方面的研究报告。,9,“泰迪杯”数据挖掘挑战赛赛制,挑战赛采用通讯赛的方式,在官方网站www.tipdm.org上完成注册报名、题目和数据下载、论文上传等工作。全国统一竞赛题目,以小组为单位参赛。 竞赛不设组别,使用相同的题目,在校的专科、本科、研究生都可组队,每队不超过3人,须属于同一所学校每队可设一名指导教师,从事赛前辅导和参赛的组织工作,并且在竞赛期间可以全程指导队员。出题企业和组委会
6、期待高水平的解决方案!,“泰迪杯”数据挖掘挑战赛赛制,由组委会聘请专家组成评阅委员会进行论文的评阅,采用匿名、地区回避和随机的评阅原则评奖原则数据预处理的完整性、对问题背景理解的深刻性挖掘模型构建的创造性、模型结果的正确性模型评价的客观性、模型应用的可靠性文字表述的清晰性主要评判依据满足出题企业实际应用需求的程度,特设企业冠名奖,11,“泰迪杯”数据挖掘挑战赛赛制,评阅过程第一轮网上评阅,初步选出一、二和三等奖第二轮抽取各题的前20名,由高校和企业专家通过网络进行视频答辩,评选出特等奖奖项设置:获奖总比例不超过25%特等奖共6名(每题2名)特等奖并获得出题企业冠名3名,奖金2万元非冠名特等奖3
7、名,奖金1万元一等奖54名,二等奖约5%,三等奖约10%其余成功提交完整的论文者可获得成功参赛证书,12,“泰迪杯”数据挖掘挑战赛赛制,自2017年第五届“泰迪杯”起增设省级奖项评奖方法:将成绩从“泰迪杯”全国评阅系统中导出,由省按专科、本科分组后,按比例产生各奖项。目前已在部分省份试点,“泰迪杯”数据挖掘挑战赛赛制,竞赛分为两阶段第一阶段1个月:公布题目和样例数据,组委会以网络公开课形式安排多次赛前指导第二阶段15天:正式竞赛,公布完整数据竞赛时间较长,可以深入研究问题、建立完善流程 赛后研究给学生提供更多深入接触企业的机会总额10万元的创新基金,为获得特等奖、一等奖及二等奖的队伍提供后续研
8、究的资助。特等、一、二、三等奖获得者可优先得到实习及推荐工作机会。,14,泰迪杯数据挖掘挑战赛的发展,15,第五届报名参赛队伍达到2541支,泰迪杯数据挖掘挑战赛的发展(2017年数据),分布范围广-地域,16,参赛学生所在的院校 不再仅仅集中于省内,参赛队伍地域分布图,众多来自北京、上海、 山东、湖北等全国25 个省、自治区、直辖 市的学生参加,参赛学生遍及全国各地区,泰迪杯数据挖掘挑战赛的发展(2017年数据),本专科的队伍数量最多,其中又以大三这一年级最为突出,正就读硕士及其以上学历的参赛学生的总比例约为12.3%,囊括 专、本、硕、博 的不同年级,参赛队伍年级分布图,参赛专业分布(20
9、17年数据),对口专业: 数学与应用数学、应用统计学、统计学等数学相关专业信息与计算科学、软件工程、计算机科学与技术、等计算机专业 参赛比例较高 相关专业: 金融(如金融学、金融数学等) 管理(财务管理、市场营销等) 医疗(药物制剂、临床医学等) 通信(物联网、通信工程等) 物理(电气工程及其自动化、光学工程等) 化学(化学工程与工艺、环境工程等) ,泰迪杯数据挖掘挑战赛的发展,数据时代的有力召唤:各级各类数据竞赛的爆发说明了社会对数据挖掘技术和人才的巨大需求,中国互联网络信息中心举办(仅2013),阿里巴巴集团举办(2014-),经管之家联合CDA Institute共同举办(2016-),
10、CCF大数据与计算智能大赛,中国计算机学会,泰迪杯数据挖掘挑战赛竞赛资源,泰迪杯数据挖掘挑战赛网站:www.tipdm.org竞赛论坛竞赛QQ群赛前辅导视频资源赛题解读数据挖掘工具使用,泰迪杯数据挖掘挑战赛竞赛资源,面向教练和学生的网络在线培训MATLAB培训课程R语言培训题目解读专题讲解 向教练员免费提供大数据系列丛书教材,泰迪杯数据挖掘挑战赛竞赛资源,2017年MathWorks中国成为泰迪杯合作伙伴设置立MATLAB特别奖,奖金2万元为参赛学生提供竞赛期间的MATLAB软件使用授权提供MATLAB培训课程,MATLAB培训课程,第1讲:MATLAB快速入门 第2讲:MATLAB数据挖掘基
11、础 MATLAB数据挖掘的过程数据的可视化、数据的预处理、数据的探索假设检验、数据回归第3讲:MATLAB数据挖掘算法 ( 上 ) 回归算法、关联算法、聚类算法第4讲:MATLAB数据挖掘算法(下) 分类算法、预测算法、异常诊断算法,23,MATLAB培训课程,第5讲:MATLAB高级数据挖掘技术 MATLAB分类学习机、算法的高级使用方法综合使用实例第6讲:MATLAB数据挖掘项目实例故障诊断生物信息学研究量化投资,24,R语言培训课程,利用R语言对数据进行高效处理对数据进行随机抽样、对数据进行等比例抽样对类失衡数据进行处理如何对因子变量进行虚拟化处理如何对缺失值进行插补、如何识别异常值R语
12、言进行数据可视化R语言绘图基础、常见绘图图表lattice包、ggplot2包介绍R语言进行数据交互,25,泰迪杯数据挖掘挑战赛竞赛资源,泰迪云课堂,诚邀挑战赛合作伙伴,厂商、企业、机构合作伙伴提供有价值的实际问题作为赛题为竞赛的开展提供物质、资金或人力赞助为参赛者提供大数据计算平台为参赛者提供挖掘工具的使用或教育支持为参赛学生提供实习、项目研究的机会高等院校合作伙伴提供候选赛题或通过自身渠道协助联系出题单位承办挑战赛颁奖典礼暨数据挖掘学术/教学会议/教练培训,征集挑战赛题目,侯选赛题的要求反映行业、社会热点需求 问题的背景易理解,贴近日常生活体验,淡化过于专业的背景知识提供的数据具有适当的规
13、模和复杂度;数据可公开,经过必要的脱敏处理,无版权或隐私等法律问题侯选赛题的形式问题的背景、意义,当前的处理方法与困难数据的格式、说明和示例数据分析、数据挖掘的目标/主题 评价指标和评价方案,28,主要内容,泰迪杯数据挖掘挑战赛历史、赛制、发展、资源、合作 数据挖掘与数学建模关系、示例从一道竞赛题目的解答情况看当前数据挖掘教学的问题 2017年竞赛题目及背景解读,29,数据挖掘与数学建模,数学建模就是建立数学模型解决实际问题的过程,其方法大体分为机理分析和测试分析两种。机理分析:根据对客观事物特性的认识,找出反映内部机理的数量规律,建立的模型常有明确的物理或现实意义测试分析:在不清楚事物内在的
14、机理时,通过对系统输入、输出数据的测量和统计分析,按照一定的准则找出与数据拟合最好的模型(经验模型)。,数据挖掘与数学建模,数据挖掘从大量的、不完全的、有噪声的、随机的实际应用数据中,自动或半自动化地提取隐含在其中的潜在有用的信息和知识的过程。数据挖掘的本质就是数学建模,其含义与测试分析接近举例:牛顿第二定律的发现测试分析:从斜面实验数据中寻求受力(倾角)与位移、时间、加速度之间的关系机理分析:根据牛顿第二定律建立动力学方程很多领域的研究仍处在测试分析阶段,数据挖掘与数学建模,泰迪杯数据挖掘挑战赛与数学建模竞赛泰迪杯是数学建模竞赛在数据挖掘方向的延伸依托于数学建模的竞赛组织和教练队伍数据挖掘对
15、应于大数据产业为学生指明了明确的发展方向和就业出口应用广泛,为高校的智力资源转化为生产力提供途径泰迪杯的竞赛题目大都对应于典型的行业问题,数据挖掘与数学建模,数据挖掘的兴起是数学类、信息类专业发展的春天数据挖掘的学科构成统计学、时间序列、最优化、矩阵分析机器学习、人工智能、模式识别图论(离散数学)、算法设计、数据库与数学类、信息类专业高度契合!信息与计算科学专业的生存危机数值计算 or 计算机应用?数学和计算机如何有机结合?,背景:网络招聘信息平台现已成为招聘者发布和应聘者获取信息 的主要渠道。 网络招聘信息反映用人单位对人才基本条件、能力和素质的要求反映各行业对人才的需求现状及未来一段时间的
16、人才需求趋向是高等院校调整人才培养方案和设置安排相关课程的重要参考为求职者提就业指导,2016年C题: 网络招聘信息的分析与挖掘,网络招聘信息通常包含结构化数据和非结构化数据两部分附件1:以表格形式给出招聘职位的常规信息,如公司的基本情 况、职位名称、行业领域、供职地点、发布时间、薪酬待遇、学历要求、工作性质等。附件2:以文本的形式给出招聘单位的基本情况附件3:以文本的形式给出岗位职责与任职要求,2016年C题: 网络招聘信息的分析与挖掘,2016年C题: 网络招聘信息的分析与挖掘,问题1 根据招聘职位的工作性质和内涵,试分析目前所需要的人才中可以分为哪些职业类型和专业领域? 每个招聘网站都有
17、自己的行业/职位体系根据工作性质和内涵进行细分是关键文本聚类深度学习:词向量语义学习 问题2 根据招聘单位的行业、职位、地域等特点,分析目前的人才需求情况,哪些是热门行业、职位、地域等?并展望其未来的人才需求走向。,2016年C题: 网络招聘信息的分析与挖掘,问题3 随着数据分析/数据挖掘行业的兴起,涌现出了一些新的职位,如数据分析师、大数据分 析师、数据产品经理、数据挖掘算法工程师等,分析与预测相关职位的需求情况 问题4 深入分析 IT 人才市场的供求现状及未来的发展趋势,包括地域和职位、人才的专业和学历层次等方面的情况。 问题5 根据你们的研究结果,结合你们所学的专业给所在学校人才培养方案
18、的修订写一份建议书,或给在校大学生的就业规划提出你们的建议(不超过两页)。,职业技能要求-大数据方向职业细分,数据分析,软件开发,大数据开发,数据仓库,java/sql/R/Clementinekettle/spss/excel/eviews统计学/机器学习/数据分析决策树/聚类/关联规则/推荐,hadoop/java/python/mysqlspark/NoSQL/etl/c+/hive大数据/数据挖掘/决策树数据库/机器学习,mysql/java/spring/etl/c+ j2ee/.Net/ Hibernate/JavaEE计算机/数据库/项目管理面向对象/开发能力,mysql/ket
19、tle/hbase/hiveolap/python/map/shell/spring数据仓库/数据迁移/大数据组织协调/跟踪/策划/监督,岗位与技能,一些技能虽然不是该职业的热门技能,却在每个职业中均占据不小的频数,如sql;作为开源的数学建模和挖掘工具,R、Python越来越受到中、小企业的青睐!也成为了求职者的重要技能。掌握Hadoop技能在提高就业能力和层次上显示越来越重要。,数据分析/挖掘职位薪酬情况,热门行业(基于牛顿冷却定律的热词排名),热度上升快的前五个行业:O2O医疗健康游戏数据服务金融,热门行业Vs热度上升趋势,2015年第三届竞赛 题目,基于电商平台家电设备的消费者需求及产
20、品数据挖掘分析(美的热水器)对于用户在电商平台上留下的评论数据,进行如下分析分析用户对于热水器/净水器产品的个性化需求;分析现有电商热水器/净水器的产品劣势(用户抱怨点)及产品优势(用户赞点);分析各品牌的产品间的差异,进行差异化卖点提炼对用户的购买行为进行分析挖掘(搜索关键字、购买时关注点、购买步骤、使用、评价)爬虫、中文分词、词频统计、情感分析、语义网络这些问题解决地好可以开发成产品,有巨大的市场需求。,主要内容,泰迪杯数据挖掘挑战赛历史、赛制、发展、资源、合作 数据挖掘与数学建模关系、示例从一道竞赛题目的解答情况看当前数据挖掘教学的问题 2017年竞赛题目及背景解读,43,2016年B题
21、:铁路旅客流量预测,给出某铁路公司15个月的旅客列车梯形密度表,针对 ZD190(站)至 ZD111(站)区段的客运专线完成以下任务 问题 1:根据附件 1,按车次、时段(小时)、车站、区间(两个车站之间)等条件分析客流规律。 问题 2:考虑相关因素的影响,构建客流量预测模型,并预测未来两周的客流量。 问题 3针对 D02D19,优化设计车辆配置及车站停靠方案。,2016年B题:铁路旅客流量预测,问题背景2016年初发改委发布了关于改革完善高铁动车组旅客票价政策的通知,高铁动车票价将由铁路总公司根据市场情况自行定价的政策出台。市场化定价的依据需要了解日常铁路客运流量、淡旺季变动指数、冷热门线路
22、的具体情况。,45,2016年B题:铁路旅客流量预测,铁路客运部门关注的问题 产品运营如何设计产品:线路、时间如何销售产品:车票的分配,考虑站点和放票时间产品设计和销售的目标:获得最大的收益(客座率) 安全和突发事件线路:增开临客保障出行车站:增加安保力量维持秩序 需要对旅客出行规律(时间、起止地点分布)进行深入分析和掌握,46,2016年B题:铁路旅客流量预测,问题 1 根据附件 1,按车次、时段(小时)、车站、区间(两个车站之间)等条件分析客流规律。 多维度的数据分析单趟车的规律:时间、日期、站点站点分析:时段、日期区间:客座率在时段、日期上的分布车辆类型:K、G、D、T、Z管内、管外客流
23、分析,长途、短途客流分析从梯形密度表中抽取所需数据,保存在结构化文档中,47,2016年B题:铁路旅客流量预测,旅客列车梯形密度表由购票数据汇总得到,反应了旅客上车及到站的分布情况困难:非结构化数据的处理,48,数据处理的问题,铁路旅客流量预测:非结构化数据的处理题目的难点:如何读取数据?微。风打扰一下,请问大家b题excel表中的数据是怎么整理的?或者是用什么软件整理的。感觉好难整理微。风导入matlab中就不能分清哪个站到哪个站下了杨征B题就是要求把不规则的数据,导入到数据库中,变成规则的数据。企业中这样的情况很常见的。内事不决问百度:从网络上找答案在百度中搜索“matlab excel数
24、据读取”,数据处理的问题,百度知道N = xlsread(filename.xls)N, T = xlsread(filename.xls)用这个,把excel文件放入工作目录下,默认工作目录是work 文件夹。filename就是excel的名字。用这个函数加载后,N里面就是数字,T里面就是字符。你试一下就明白了,很简单。然后你就可以进行相应处理了。数据已经进来了,你用for或其他的处理都行。至于这个函数的更多用法,去看matlab帮助文档。微。风我用matlab读入后形成两个矩阵,然后我就乱了,感觉好多对不上。问题:N, T = xlsread(filename.xls)适用于组织地比较“
25、整齐”的数据,如矩阵形式存储的数据,B题数据无法直接使用,数据处理的问题,微。风 可以说清楚一点吗?我是学数学的,对于数据处理这一块不是很清楚, 一切摸索中杨征 excel就是个大网格矩阵,从 (1,1)一直读到(MaxC,MaxR),想要的数据都可以获取到,在通过循环和判断进行处理。杨老师 不要急,这两天组委会会安排做一个如何读数据的视频教程杨征使用delphi做了一个小软件来演示数据读取的过程学生问杨老师用的那个软件在哪里有下载?急同问.,2016年B题:铁路旅客流量预测,旅客列车密度表的结构一张表保存一天内发车的多个车次的售票数据每个车次给出从给定上车站(列)到给定下车站(行)的下三角形
26、式的OD(ORIGIN,DESTINATION)矩阵不同车次所经过的站点是不同的,下三角矩阵的行、列数也可能不同在MATLAB中help一下xlsreadNUMERIC,TXT,RAW=XLSREAD(FILE,SHEET,RANGE) 单元格内容以元胞数组的方式保存在RAW中,2016年B题:铁路旅客流量预测,使用循环结构扫描表定位每个车次数据在表内的行、列范围例如:车次数据都以“上车人数合计”为最后一行的首列定位终止行:字符串匹配获取车次:字符串的拆分获取指定行、列的数据,B题数据处理的问题,解决以上问题的“技术性”要素MATLAB读入EXCEL文件的函数xlsread分析表格的结构特点、
27、如何进行逻辑判断使用循环结构扫描表字符串匹配、拆分矩阵数据的读取非“技术性”问题:要读哪些数据?明细数据:两两站点之间的上下旅客人数汇总数据:每个站点的上车人数和下车人数不同的数据能够支持的分析主题是不同的,B题数据处理的问题,数据处理的思路考虑清楚我们要做哪些分析目标和路线,哪些能做、哪些做不了为了实现这些分析需要哪些数据哪些有、哪些没有,没有的数据要如何计算应该如何组织数据才能更有效进行分析(设计数据库表)各种问题数据缺失:缺少某些站点的上车人数(缺少列,今天的数据有10列,明天变成9列)缺少一天的数据该如何处理?定员是什么(生活常识)?为什么不同时间的定员不同?客座率的计算:每个区段的车
28、内人数计算,B题数据处理的问题,泰迪杯竞赛的参赛者主要以大二、大三学生为主假设他们都已经学习过Office、程序设计、MATLAB、数据库每个“技术性”要素学生理论上都应该学习过,但组合在一起解决这个问题,老师没教过,学生也没有做过!学生比较被动一部分学生太过依赖于老师(课程),缺乏学习的主动性优秀的学生大都会主动地进行探索和学习如果没有在相关课程中学过,在明确要解决的问题的前提下,也很容易从网络中学习到!学生缺乏从最原始形式出发求解实际问题的训练和信心!,数据挖掘教学的现状,教学偏重算法、原理的学习教师缺乏解决实际问题的经历和经验缺少合适的案例教学资源教学案例大都是为讲解某个具体算法而设计的
29、缺少实际的应用背景问题往往不完整,缺少从问题识别/定义、数据采集/实验设计、数据分析、建模、评估、应用的全过程较为理想和干净的数据源,简化了现实中数据的复杂性,改进的思路:在巩固理论教学的同时,加强实践教学环节教育部教育部等部门关于进一步加强高校实践育人工作的若干意见(教思政20121号)强化实践教学环节:增加实践教学比重,确保人文社会科学类本科专业不少于总学分(学时)的15%、理工农医类本科专业不少于25%深化实践教学方法改革:重点推行基于问题、基于项目、基于案例的教学方法和学习方法;支持学生开展研究性学习、创新性实验、创业计划和创业模拟活动。积极发挥学生主动性:支持和引导班级、社团等学生组
30、织自主开展社会实践活动,发挥学生在实践育人中的自我教育、自我管理、自我服务作用。,实践教学的探索,华南师范大学的探索课程考核学生必须参加与数据挖掘相关的学科竞赛并成功提交论文才能获得成绩实践课程(必修)数据挖掘实践(1学分):学科竞赛/大学生课外科技活动/论文或专利第二课堂:引入企业资源少学时(周二或集中两周)、低年级、混合教学基于问题的学习、探究式学习企业负责学习评价,实践教学的探索,数据挖掘方向专业实习的困难相对软件开发,数据挖掘对人员的要求更高任务不是标准化的,非流水线型需要分析人员有业务经验数据敏感,保密要求高很多业务要去客户现场数据挖掘企业是智力密集型企业,办公场地小无法大规模接纳实
31、习生实习的新形式:非现场实习(校内实习)把企业一线工程师/讲师请进学校,降低实习成本真实案例下的情景教学,实践教学的探索,调动学生的主动性:在学生中建立数据挖掘俱乐部学生自发组织,开展数据挖掘学习学生教学组每周定期为俱乐部成员讲授R语言、Python及数据挖掘算法核心成员参加企业项目(2016年)基于华为大数据平台的零售行业渠道管理解决方案的开发项目基于微信端的商业智能服务解决方案的开发项目课程助教,实践教学的探索,主要内容,泰迪杯数据挖掘挑战赛历史、赛制、发展、资源、合作 数据挖掘与数学建模关系、示例从一道竞赛题目的解答情况看当前数据挖掘教学的问题 2017年竞赛题目及背景解读,62,A 题
32、,基于市场资金流向分析的商品期货量化交易策略出题单位深圳数字动能信息技术有限公司量化投资借助现代统计学、数学的方法,从海量历史数据中寻找能够带来超额收益的多种“大概率”策略,并纪律严明地按照这些交易策略所构建的数量化模型来指导投资(减少投资者情绪波动的影响),力求取得稳定的、可持续的、高于平均的超额回报。一个优秀的策略可以维持一个可观且稳定的收益,且承受相对较小的风险,收益曲线平滑向上,A 题 背 景,基于市场资金流向分析的商品期货量化交易策略量化投资在海外已有30多年的历史,投资业绩稳定,市场规模和份额不断扩大,得到了越来越多投资者的认可被誉为“最赚钱的基金经理”的西蒙斯,从1989年到20
33、06年间,其量化投资年化收益率高达38.5%。他依靠的是用数学模型和计算机管理旗下基金,通过模型和策略来捕捉市场机会,由策略来做出投资决策。,A 题 背 景,基于市场资金流向分析的商品期货量化交易策略2016年的国内资本市场,使用量化投资方式进行管理的基金创造了惊人的业绩。截至2017年1月12日,在上证综指和创业板指近1年涨幅只有3.40%和-8.37%的情况下,公募主动量化基金获得了16.05%的平均收益,远超同期股票基金和混合基金5.49%和3.58%的收益。截至2017年1月12日,公募主动量化基金近3年的平均回报率为105.07%,收益率接近同期权益类基金的两倍,A 题 背 景,量化
34、交易策略包含一系列交易条件的设置和交易信号的产生。比如对某只股票或者期货,以前5根K线的收盘价(一般记作close)的平均值作为一个指标,当价格超过这个指标值的时候买入,而当价格低于这个指标值的时候卖出平仓,就是一个简单的均线突破策略。在程序设计中可以使用if-then结构来实现。可以设制非常复杂的组合策略,A 题 背 景,策略回测回测是指用历史行情数据测试交易策略的过程。通过策略回测,我们可以知道给定的交易策略在遇到各种市场情况下的不同表现,以此来判断该策略是否符合我们的设计预期,是否能获得稳定的投资收益。数字动能为本次比赛提供策略研究软件Auto-Trader,以供参赛者进行策略回测。Au
35、to-Trader平台使用MATLAB语言进行编程,量化方法的流派,选股单因子(改良技术指标、通过数学方法构造因子)、多因子、事件驱动、舆情分析都是比较热门的。择时(不同尺度,不同品种)个股择时指数择时(大盘指数,行业指数等)商品期货、股指期货择时(择机策略)国债指货行业配置套利(ETF,配对交易),A 题 背 景,题目的出发点:基于资金流向的价格预测 “水涨船高”大量资金不断流入的股票其价格会上涨资金大量流出的股票其股价可能下跌股票市场中常说“量于价先行”,这个“量”包括资金的流向和资金的流量,统称为资金流向( money flow)。价格上涨,流动性低(交易量很小),A 题 背 景,资金流
36、向反映市场当前对某只股票超额的需求或者供给,能够帮助投资者透过指数(价格)涨跌的迷雾看到其他投资者的投资行为。股市资金流向计算:可以根据成交价格的涨跌来界定是资金流入还是流出,A 题 问 题,问题使用2011年1月1日至2013年12月31日的商品期货历史数据,分析资金流向的规律,设计一个商品期货量化交易策略。使用策略研究系统Auto-Trader回测引擎对2014年1月1日至2015年12月31日的数据进行策略回测。分析有监督的策略学习,从回测结果来改进量化交易策略题目数据的时间区间选择:总量相对平稳,A 题 问 题,样本数据说明 提供商品期货历史分钟 K 线的样本数据2011年1月1日至2
37、013年12月31日的数据:训练集2014年1月1日至2015年12年31日的数据:测试集包括开盘价、最高价、最低价、收盘价等信息。 close:收盘价 high:最高价 low:最低价 open:开盘价 openinterest:持仓量 time: 时间 turnover:成交金额 volume:成交,A 题 解 读,股票市场中,当期资金流向与未来资金流向之间、资金流向与股票收益率之间存在着正相关关系。羊群效应如果机构投资者具有高度的同质性,他们通常关注同样的市场信息,采用相似的经济模型、信息处理技术、组合及对冲策略,那么容易产生“羊群效应”。 “羊群效应”下,大量的投资者会采取跟随行动,持
38、续的买进或者卖出市场看好或者不看好的股票,导致了超额需求和超额供给的存在。,A 题 解 读,股票市场中,当期资金流向与未来资金流向之间、资金流向与股票收益率之间存在着正相关关系。资金流向不仅反映了当期股票的超额供给与需求,也反映了未来股票的超额供给与需求。交易中冲击成本的存在,使得机构投资者在实行其投资目标的时候,会采取分批建仓或者分批减仓的行为,把大量的订单进行分拆,以便降低市场的冲击成本。持续的建仓或者减仓,使得当期资金流向与未来资金流向之间、资金流向与股票收益率之间存在着正相关关系,A 题 技 术 路 线 (建 议),从如下角度入手进行分析,并以此为基础来构建策略模型运用分钟级K线数据,
39、构造资金流向模型。期货市场资金流向没有公认的唯一的计算方法,仍属开放课题资金流向的构造注重对价格的影响资金流向对未来商品期货的价格有什么影响?资金流向与价格在时间上的相关性(时间尺度的确定)资金流向是否具有持续性?只有具备持续性(惯性),才具有可操作性(可预测性),A 题 技 术 路 线 (建 议),从如下角度入手进行分析,并以此为基础来构建策略模型分析资金流向是否存在相似的特点,是否集中在某些行业板块,是否有轮动效应?轮动意思是各个板块轮流表现。比如现在是汽车股上涨,一会儿是机械股,再来是有色金属股。不断地有热钱进入股市,不断有人接盘。今天这个板块涨,过几天那个板块涨。,A 题 技 术 路
40、线 (建 议),板块轮动的本质我国的金融投资者分机构户和个人户,机构户的资金比个人户多得多,其中左右股价的是机构户中的基金公司大笔资金/股票的主动交易可以拉升或降低几个点普通散户追涨杀跌,再遇到某些买入的理由(重组、估值低、政策之类)很多人就跟风买进价格上涨价格合适,机构出货获得资金,散户在高位接盘机构离场,没有新钱注入,版块进入停涨,进入盘整阶段:水平的波浪线(没有趋势)。另外一个版块好像调整的充分了,就慢慢建仓,收购这些不涨的股票,接着炒作,股票又涨起来了。,A 题 技 术 路 线 (建 议),网上流传炒股四季歌,揭秘A股市场各板块轮动规律 冬炒煤来夏炒电,五一十一旅游见逢年过节有烟酒,两
41、会环保新能源航空造纸人民币,通胀保值就买地战争黄金和军工,加息银行最受益地震灾害炒水泥,工程机械亦可取市场商品热追捧,上下游厂寻踪迹年报季报细分析,其中自有颜如玉量化策略从较客观的数据出发研究轮动的捕捉和相应的策略,A 题 技 术 路 线 (建 议),从如下角度入手进行分析,并以此为基础来构建策略模型统计各个板块的资金流向,对比整个市场的资金流向、某一板块的资金流向与单个标的的资金流向之间的关系。在一个相对固定的时间段内,资金的总量是相对确定的价格的传导:房地产金融水泥钢材,B题,中央空调系统的数据分析与控制策略出题单位广州泰迪智能科技有限公司 美国伊利诺伊大学新加坡高等数字科学中心问题背景随
42、着气候变暖,人们对空调的依赖越来越大 中央空调系统成为城市的用电大户中央空调常规的控制方法是采用恒定或人工修改设定参数的方式,系统的能耗和效率依赖于操作人员的经验题目目标以实测数据为基础开展中央空调系统的智能控制研究,实现系统控制的优化与节能。,80,我们看到的中央空调系统,81,冷却塔,管道,出风口,机组,中央空调系统的工作原理图,82,外循环,内循环,家用空调的制冷原理,冷凝器将由压缩机输送过来的高压高温的冷媒汽体冷却成高压高温的液体(大气温度低于冷媒蒸汽温度)。蒸汽冷凝成液体会释放热量,其表面是热(烫)的。蒸发器则将经节流器节流减压后的冷媒液体蒸发成汽体冷媒液体汽化(蒸发)的过程是一个吸
43、热的过程,所以蒸发器表面是凉的(吸热)。冷媒在室内机蒸发成汽态(吸热)后循环至室外机经压缩机压缩冷凝成液态(放热)。运转的压缩机像水泵一样不断地从蒸发器(位于室内)吸热,然后再通过冷凝器(位于室外)散热。,本题研究的中央空调系统的结构示意图,84,制冷装置CHILLER,冷却塔CT,冷凝水泵CWP,冷水泵CHWP,数据内容说明,提供热带地区某城市的一套中央空调系统的实测数据年平均温度为25至32摄氏度之间,平均湿度为85%左右系统采用根据外部环境条件和经验由人工设定的策略控制数据共51个字段(见附件2数据说明):采集时间:年月日时分环境信息:室外相对湿度和温度系统可控变量:设备的开关和运行参数
44、系统采集信息:设备的耗电量、相关传感器读数(如冷凝水进/出冷却装置的水温和流速等);系统运行相关信息:耗电量、冷却负载、系统效率等。,85,数据内容说明,附件2给出了数据的字段名、含义、单位等内容说明,86,数据内容说明,系统的可控变量设备状态参数(开/关)(12个):冷水泵14的状态参数:chwp1statchwp4stat冷凝水泵13的状态参数:cwp1statcwp3stat冷却装置13的状态参数:ch1statch3stat冷却塔1,2的状态参数:ct1stat,ct2stat系统的可控变量设备控制参数(3个):冷水泵转速(设定值):chwp_pc冷凝水泵转速(设定值) :cwp_pc
45、冷却塔风扇转速(设定值) :ct_pc,87,数据内容说明,其他由传感器采集数据均为不可控参数,受可控参数、室外温度和湿度等因素影响,决定系统耗电量和系统效率。例:设备功率受可控制参数和环境因素影响,不是可控变量竞赛将提供来自同一个中央空调系统的三份数据样例数据:2017年3月10日公布样本数据建模数据:2017年4月7日公布建模使用的全部数据验证数据:2017年4月23日上午8:00公布验证数据,并于2017年4月23日上午11:59:59前提交验证结果。,88,问题及解读,请利用题目所给数据,结合实际解决下列问题:问题一:从所给数据中挖掘出系统变化的特征和规律,研究冷却负载、系统效率、耗电
46、量与可控变量和不可控变量之间的关系模型,并检验模型的可靠性。空调系统建模输入:冷却负载、外部温度湿度、可控变量.输出:系统效率、耗电量,89,问题及解读,请利用题目所给数据,结合实际解决下列问题:问题一:从所给数据中挖掘出系统变化的特征和规律,研究冷却负载、系统效率、耗电量与可控变量和不可控变量之间的关系模型,并检验模型的可靠性。冷却装置:冷却负载-冷却器出水温度-冷凝器出水温度-功率 单台运行,多台运行冷水泵:转速-功率单台运行,多台运行,90,问题及解读,问题二:按照数据中给出的时间、室外温度和湿度、冷却负载和设备状态信息,给出通过调节设备运行参数(冷水泵转速、冷凝水泵转速和冷却塔风扇转速)的最优控制策略,并给出相应的系统总耗电量和系统效率。约束条件:时间、室外温度和湿度、冷却负载和设备状态优化变量:冷水泵转速、冷凝水泵转速和冷却塔风扇转速建议:冷却负载通常随日期、时间变化,所以制定策略的第一步是进行冷却负载预测,91,问题及解读,问题三:根据数据中给出的时间、室外温度和湿度、冷却负载和可控变量(冷水泵转速、冷凝水泵转速和冷却塔风扇转速)取值,给出所有设备状态变量的最优控制策略,以及相应的系统总耗电量和系统效率。约束条件:时间、室外温度和湿度、冷却负载和冷水泵转速、冷凝水泵转速和冷却塔风扇转速优化变量:设备状态,