1、联通大联通大 数数 据战略据战略中国联通集团 客户事业 部- 1 -联通大数据可整合的内容客户基本资料客户基本资料姓名 、出生日期 、证件 号码、住址 、客户 类型、电话号码 、地域 、性别、年龄、籍贯等 用户状态信息用户状态信息号码状态、欠费状态、业务开通状态、订购产品、流量包、合约计划、开通渠道等 用户位置信息用户位置信息手机号码、 IMSI、时间、 CellID、LAC、经纬度等储值消费信息储值消费信息缴费渠道、缴费时间、缴费金额、消费金额、月租费、通信费、流量费等 信用欠费信息信用欠费信息初始信用度、动态信用度、欠费账龄、欠费额度、欠费频次等 用户行为信息用户行为信息语音、短信、流量详
2、单,如通话类型、通话时间、通话地点、通话时长、对方号码等 互联网行为信息互联网行为信息如上网类型、上网时间、上网地点、网站 /APP等 用户终端信息用户终端信息手机号码、 IMEI、IMSI、终端型号、终端厂商等 l 通过 深度数据 挖掘与特征分析,形成客户标签、数据魔方等大数据服务产品。- 2 -*每日新增客户、产品数据客户、产品数据 网络数据网络数据 外部数据外部数据大数据技术平台大数据技术平台 (采集、存储、加工、服务 )Hadoop分布式存储和计算 集群 1300个 节点,全国新增日采集量超过 10TB1900品牌、品牌、 4.5万万 终端终端2.05亿亿 URL2490类类 185万
3、个关键词万个关键词5000 APPU-标签标签U-征信征信U-位置(位置( Smart Steps)U-营销营销4亿客户资料亿客户资料1400亿条亿条 *用户上网记录用户上网记录50亿计费详单亿计费详单 *22亿结算话单亿结算话单 *75亿原始话单亿原始话单 *数据中心应用数据中心应用 业务部业务部 门应用门应用 省分公司应用省分公司应用 合作伙伴应用合作伙伴应用数据资源基础平台数据资产创新应用客户数据产品知识库中国联通的数据资产- 3 -联通大数据平台优势数据一点集中数据一点集中l 31省 BSS与集中系统数据一点采集、一点处理、一点服务l IT开展集中化建设,有利于后续系统一体化部署和活动
4、集中开展l 均采集生产系统原始数据,数据更真实、更及时、更准确、更完整信息价值高信息价值高l 信息含量丰富 :集中 了用户从生活到工作、从通信到互联网,覆盖了24小时的位置、行为信息,信息价值含量高、信息涵盖范围广。l 信息可信度高 :用户数据样本量大,更能真实反映一个用户的多方面状态数据产品丰富数据产品丰富l 联通大数据平台已经形成了客户标签体系、互联网信息库、终端库、风控模型、 APP排行榜等数据产品,有助于快速形成服务能力、推进对外合作平台能力强平台能力强 l 联通大数据平台具备海量数据处理能力,同时能力开放平台的建设实现资源共享、数据共享,有助于快速构建模型、快速形成生产能力- 4 -
5、用户标签库 互联网内容 信用信息 维系营销 位置轨迹七 级客户 标签体系 已 建成包含 9个一级标签 分 类 , 33个二 级标签 分 类,共 计 1753个客户标签六级互联网标签 一级 7类 ,共2,542个 标签 以满足营销的需求为准则进行分类,以层次结构和内部特征进行细化信用评级 综合 信用评分、身份认证、社交关系认证、开户情况、通信消费情况和漫游情况; 征信 2.0模型将提供业务评估系数,使数据更安全维系模型 已 建立客户存量维系的 9类模型 ,现有营销维系 以大规模普惠制营销为主,缺乏精准营销能力,对维系活动缺乏全流程跟踪评估位置服务 智能 交通、城市规划、旅游智能化管理、户外媒体效
6、果监测、大数据抢险赈灾、平安中国、商业选址、智能商圈 联通的大数据产品- 5 -身份认证身份认证开户情况开户情况通信消费情况通信消费情况漫游漫游 情况情况社交关系认证社交关系认证功能描述:该产品用于 查询 用户姓名、证件、手机号的对应关系数据元素:手机 号码、姓名是否匹配、证件类型、证件是否匹配、手机号归属省、手机号归属市功能描述:该产品用于 反映 本用户所有联通账户的基本情况数据元素:手机 号、开户时间、当前状态、归属省市、信用额度(元)、当前欠费金额(元)、当前欠费月份(个)、当前是否是黑名单、黑名单开始 时间、使用终端功能描述:该产品 用于反映本用户所有联通账户最近 6个月的消费 情况数
7、据元素:手机号、月份、账单金额、计费时长(分钟)、发送短信数(条)、上网流量( M)功能描述:该产品用于 反映 本用户最近 6个月 的 位置 情况数据元素:手机 号、漫游地点 (省市 )、漫游地最后一次通话、漫游通话次数、漫游通话时 长功能描述:该产品用于 反映 本用户最近 3个月常用联系人的通信情况数据元素:对 端手机号、归属国家、归属省市、通话次数(排序优先 1)、通话时长(排序优先 2)、最后一次通话日期、最长通话时长综合信用评分综合信用评分 功能描述 :综合 用户的常规属性及用户的收入使用状态,对用户的信用进行综合评分数据元素: 手机号码、 综合信用评分客户注册客户注册业务申请业务申请
8、信用评估信用评估预授信预授信业务监控业务监控业务追踪业务追踪异常行为预警异常行为预警 功能描述 :通过违约模型、通信行为模型,圈子模型、位置模型推算用户是否存在可疑交易数据元素: 手机号码 、号码状态等联通数据产品 风控模型- 6 -行业应用 产品 数据魔方“ 数据魔方数据魔方 ” 是面向行业用户的大数据分析产品,基于创新产品服务平台是面向行业用户的大数据分析产品,基于创新产品服务平台 能力能力具备 用户画像,数据字典 等分析 技术为企业、行业、媒体提供品牌分析、产品分析、消费者分析、营销效果分析的行业报告。 生产生产广告广告营销营销 用户更喜欢和关注的 产品属性、参数 ,及关注 趋势 ,优化
9、生产策略。 了解企业自身用户群体,年龄,性别,喜好,网络访问 习惯及社交特性 。 分析特定区域内用户喜好、消费能力、关注等 行为 ,精准投放广告。 分析 线上渠道 ,通过网站关注度分析,指导广告投放 分析线 下渠道,关联 分析地理位置和潜在用户 ,指导企业销售店铺布局,线下营销 活动 客户 细分,针对性服务推荐,在不同位置给予不同的信息推送l 目前已向汽车行业、移动终端行业、服装行业及烟草 行业等多个领域提供 数据 服务。- 7 -应用场景 :身份认证与信用度评价用户数小额金融账户信息姓名: 李 *号码: 1860105*身份证号: 4127241976*申请贷款: 20W小额金融机构 -信息
10、提供 姓名: 张 *号码: 1565211*身份证号: 4127241996*申请贷款: 5W12联通征信系统 -信息比对 GP 集群容量 900TB,已使用 59%; Hadoop集群容量 11PB,已使用 53%。p 2014年,数据中心在大数据平台建设方面实现了零的突破;从年初的 28个节点的Hadoop分布式存储和计算集群到如今的 1300节点,形成了国内除三家互联网企业以外的最大的 Hadoop平台p 将 Hadoop平台与 Oracle数据仓库和 MPP分布式关系型数据库打通,通过 ETL工具形成一体化运营体系,提前将电信、移动设计的目标架构付诸实践联通大数据平台处理能力- 19
11、-从自然人的角度描述客户属性,以及相应的社会关系。基础特征基础特征用户订购联通产品信息,包括参与合约计划情况,以及客户对营销活动选择的倾向性信息。 产品需求产品需求从语音、流量、短信等方面分析用户的使用情况以及呼叫圈特征。 业务特征业务特征描述用户出账收入的构成、结算收支、缴费、信用相关的信息。消费特征消费特征描述客户服务接触中的渠道及渠道偏好信息。渠道特征渠道特征描述用户终端使用信息及终端偏好信息。终端偏好终端偏好从营销、维挽等角度,描述客户价值及客户对服务的满意度。客户客户服务评价服务评价记录用户行动和基站使用轨迹。位置轨迹位置轨迹对互联网内容进行分类,描述客户上网行为偏好。互联网互联网内
12、容内容 偏好偏好客户标签p 大数据平台通过深度数据挖掘,形成了九大类共计 2700个客户标签。联通大数据客户标签体系- 20 -p 基于已沉淀了 2.05亿 host规则,支撑了 URL库 5.6万多个产品,其中包含 5.2万余个网站和4,694个应用。目前整体识别率可达到 95%。识别网站 工具使用 2,180 (个) 基础上网 27,272 商务应用 9,156 生活服务 4,886 通信交流 2,734 娱乐休闲 5,308 识别 应用(个)导航 148 教育 139通信 213 生活 529摄影 59 办公 128社交 331 阅读 266网络 53 系统 135娱乐 836 儿童 4
13、7理财 324 资讯 165美化 193 影音 348安全 82 旅游 124购物 151 工具 388健康 29 其他 6联通大数据 互联网信息库- 21 -联通大数据 终端库基本参数 型号 iPhone 6手机类型 智能手机 ,3G手机 ,4G手机上市时间 2014年 10月 17日网络支持 2G/3G网络 GSM,WCDMA,CDMA2000/1x,CDMA EV-DO,TD-SCDMA4G网络 FDD-LTE,TD-LTE手机频段 GSM850/900/1800/1900MHz,TD-SCDMA 1880-1920/2010-2025MHz屏幕 主屏尺寸 4.7英寸屏幕分辨率 1334
14、750像素像素密度 326ppi屏幕技术 /材质 IPS主屏色彩 1600万色触摸屏 电容屏 ,多点触摸硬件参数 系统 iOS 8CPU 苹果 A8+M8运动协处理器 1.4GHz(64位双核 )GPU PVR GX6650运行内存 1GB RAM内置容量 16GBSIM卡类型 nano SIM卡汇总汇总类型类型 品牌数品牌数 机型数机型数 TAC数数合计 1,908 45,417 111,465 4G终端 114 1,421 2,8743G终端 729 14,289 35,6192G终端 1,724 29,707 72,972业务类型业务类型 出账用户出账用户 数数 识别率识别率2G 1.43亿 83%23G融合 0.27亿 79%3G手机 0.62亿 89%4G 0.1亿 85%终端库分布:用户终端识别率( 2014年 11月帐期):静态参数(共 169个):示例p 截止目前终端库数据量统计: 终端品牌: 1,908个 终端机型: 45,417个 终端 TAC号段: 111,465个( IMEI号码前八位,可标识手机型号) 用户三元组累计采集: 5.28亿户 (手机号码、 IMEI, IMSI) 用户五元组累计采集: 4.75亿户 (手机号码、 IMEI, IMSI, 手机型号、厂商 )