1、2016/11/15,关于数据挖掘的学习汇报,1.1课程名称和主讲教师(北京大数据研究院暑期学校),一、 暑期学习介绍,1.2专题:fundamental techniques in Big Data(李平),用数据的方法研究科学的最典型的例子:开普勒的关于行星运动的三大定律,二、数据科学,开普勒模式与牛顿模式,2.2 从数学的角度研究数据?,数 据,数据建模,整个数学模型,相关性、排序、分类、聚类,度量结构,网络结构,代数结构,拓扑结构,函数结构,表格、点集、时间序列、图像、视频、文本等,概率分布、随机过程、随机场、图模型等,算法及实现 (数据分析的困难),降低算法的复杂度,分布式计算,2.
2、3 数据挖掘的综合技能,另外,随机过程、函数逼近论、图论、拓扑学、几何、变分法、群论的基础知识。 数学系不需要一门一门的开设,而是可以开设一些新的“高等数学”课程来覆盖这些方面的内容,2.4 北大数据科学专业的探索,2.5 数据挖掘的10个重要算法,(1)K均值(K-means)方法 (2)支持向量机(SVM)方法 (3)期望最大化(EM)算法(4)网页排序算法(PageRank) (5)贝叶斯方法 (6)K近邻方法 (7)AdaBoost (8)决策树算法 (9)关联规则Apriori算法 (10)协同过滤方法(Collaborative Filtering),其他数据分析过程中常用的方法还
3、有:降维(主成分分析、线性判别分析)、随机森林、Bagging方法、序列标注模型(隐马模型、条件随机场)、EM和高斯混合模型,(2006年IEEE国际挖掘会议选出),2.6 数据挖掘的一般过程:,三、案例,案例1、 智慧餐饮,案例2 、中医辅助决策,案例3、 商圈分析,餐饮企业的信息化管理 (传统部分): (1)客户关系管理 (2)前厅管理系统 (3)后厨管理系统 (4)财务管理系统 (5)物资管理系统,餐饮企业的数据挖掘 (创新部分): 菜品智能推荐、 客户价值分析、 新店选点优化、 热销/滞销菜品分析 销量趋势预测,案例1、智慧餐饮,餐饮企业某一个月菜品的销售数据如下:,(1)销售数据的帕
4、累托柱状图:,分析可知:畅销菜:A1, A2,A3;滞销菜:A8,A9,A10; 并且,A1A7占菜品份额的70%,但是总盈利占月盈利额的85.0033%,可以增加投入。,结果第一行解释为: 客户同时点e与a的概率时30%,而点了e必点a的概率是100%.,餐饮企业某段时间的点餐清单:,(2)根据Apriori算法,可得如下规则:,消费行为特征数据如下:,(3)消费客户群的价值分析:,客户群体1的R、F、M的概率密度函数图:,客户群体1特点:R间隔相对较小,主要集中在030天;消费次数集中在1025次,消费金额在5002000元,客户群体2的R、F、M的概率密度函数图:,客户群体2特点:R间隔
5、相对较小,主要集中在030天;消费次数集中在012次,消费金额在01800元,客户群体3的R、F、M的概率密度函数图:,客户群体3特点:R间隔相对较大,主要集中在3080天;消费次数集中在015次,消费金额在02000元,客户价值分析如下:,智慧营销策略:,客户群体1:资源优先保持,差异化管理,提高这类客户的忠诚度与满意度,尽可能延长这类客户的高水平消费;,客户群体2:加强促销手段,加强满意度,提高他们转向竞争对手的转移成本,逐渐使其成为忠诚客户;,客户群体3:采取一定的营销手段,重点联系,争取延长客户的生命周期。,客户群体1:高消费、高价值人群; 客户群体2:一般客户人群; 客户群体3:价值
6、较低的客户群体。,采用TSNE数据降维将数据进行可视化,其中红色代表客户群体1,绿色代表客户群体2,蓝色代表客户群体3,案例2、中医辅助决策,证型系数=各证型得分/各证型总分,模型构建:,1. 中医证型关联规则模型,(1)设置参数:最小支持度、最小置信度,读入数据 (2)以关联规则算法对建模数据进行分析,调参,运行结果:,2. 模型分析,结果分析: (1)说明肝气郁结证型系数处于(0.258,0.35,肝肾阴虚证型系数处于(0.353,0.607范围内,TMT诊断为H4的可能性为87.96%,这种情况发生的可能性为7.85%,(2)C3、F4=H4支持度为7.53%,置信度为87.5%,分析类似 (3)B2、F4=H4支持度为6.24%,置信度为79.45%,分析类似,案例3、基于移动通信基站定位数据的商圈分析,基站小区为六边形,历史定位数据整理得到样本数据:,谱系聚类图:,可将数据分成3类,即三个商圈,商圈类别1分析:工作日人均停留的时间、凌晨人均停留时间很短,周末人均停留时间短,同时日均人流量大,说明此类别基站覆盖区域是商业区。,各个商圈的层次聚类图:,商圈类别2分析:可推断此类别基站覆盖区域是住宅区,商圈类别3分析:可推断此类别基站覆盖区域是上班族聚集的工作区,