1、腾讯大讲堂 -海量服务之道-,1.4亿在线背后的故事,腾讯科技(深圳)有限公司 即通平台部高级技术总监 icezhuang,QQ IM后台架构的演化与启示,7亿活跃账户,1.4亿同时在线,过万台IM服务器,百亿级的关系链对数,每天千亿级的服务请求,99.99%的可用性,团队经历了QQ在线从10万到1.4亿的整个过程,吸取了很多教训,对海量服务的理解是长期积累的结果,目录,从十万级到百万级在线千万级在线亿级在线总结,IM后台1.0,适用情况,同时在线数较低(十万级) 业务功能非常简单,1.0接入服务器的核心数据结构,OnlineIndex,OnlineRecord,IM后台1.0的典型业务流程,
2、登录,实时通知 定期拉取,在线状态的获取,IM后台1.5,需要更好地支持业务 支持视频、语音、传文件等实时宽带业务 支持更多类型的用户资料增加长连接服务器 为无法直连的客户端进行实时宽带数据中转对存储服务器进行轻重分离 核心服务器保证稳定 扩展服务器快速支持业务,第一代架构难以支持百万级在线,达到一百万在线时,老架构会有各方面的瓶颈出现以接入服务器的内存为例,单个在线用户的存储量约为2KB 索引和在线状态 50字节 好友表 400个好友 * 5字节/好友 = 2000字节 大致来说,2G内存只能支持一百万在线用户进一步地,还有CPU/网卡包量和流量/交换机流量等瓶颈其他服务器也有类似情况单台服
3、务器支撑不下所有在线用户/注册用户,第一代架构无以为继,必须升级!,IM后台2.0,单台服务器扩展成集群增加状态同步服务器 在接入服务器之间同步在线状态,2.0接入服务器的核心数据结构,0,1,10001,10002,10003,10004,OnlineIndex,LocalOnlineRecord,RemoteOnlineRecord,UIN 在线状态,IP/Port 接入服务器ID,IM后台2.0的典型业务流程,2001年,QQ同时在线突破一百万,登录,定期拉取 实时通知,在线状态的获取,(三种方式),IM后台2.5,支持QQ群等新业务,启示:十万级到百万级在线的关键技术,高性能;7乘24
4、小时连续服务,Kenny“违抗”PonyMa的故事 ARPU对比:中国移动73,腾讯2.5 PCU/Box:某著名IM数万;QQ 数十万 CTO:IT成本的高低决定互联网企业的存亡 只用传统IT行业1/10到1/100的IT成本高性能OICQ的故事 用户忍耐度对比:信用卡系统维护VS用脚投票7乘24小时连续服务,QQ后台如何实现高性能,绝不使用企业级解决方案 逻辑层多进程 万有一失的无锁设计 用户态IPCMySQL分库分表 好友表自写文件存储,用户10003,好友表:10001,0x0;10020,0x0,用户10003,好友表:10001,0x0;10020,0x1,用户10003,好友表:
5、10001,0x0;10005,0x1;10020,0x0,QQ后台如何实现高性能,绝不使用企业级解决方案 逻辑层多进程 万有一失的无锁设计 用户态IPCMySQL分库分表 好友表自写文件存储,UIN 10001,UIN 10001,FList, L2,FList, L3,UIN 10001 LEVEL 1, POS 1,UIN 10004 LEVEL 1, POS 3,OnlineRecord,UIN 10004,UIN 1000?,QQ后台如何实现7乘24小时连续服务,大系统小做 平滑重构 在高速行驶的列车上更换发动机核心数据放入共享内存 接入层与逻辑层分离 命令分发动态配置化,目录,从十
6、万级到百万级在线千万级在线亿级在线总结,第二代架构难以支持千万级在线,同步流量太大,状态同步服务器遇到单机瓶颈 所有在线用户的在线状态信息量太大,单台接入服务器存不下 如果在线数进一步增加,则甚至单台状态同步服务器也存不下单台状态同步服务器支撑不下所有在线用户 单台接入服务器支撑不下所有在线用户的在线状态信息,第二代架构无以为继,必须再次升级!,IM后台3.0,状态同步服务器改造成同步集群 其他集群也做相应的改造,2005年,QQ同时在线突破一千万,根本来不及高兴:我们再也受不了了!,手机从不敢离身发布新代码提心吊胆时不时要扩容,又烦又怕时不时要紧急恢复服务时不时被用户骂、被老板K到底怎么了?
7、,深入分析,我们发现了什么,后台机器越来越多,单机死机/故障经常出现,IDC故障也不少,影响服务,也影响人员生活每周有新代码发布,BUG不断出现,严重影响服务监控机制原始、报警设置不全,出事了都不知道运维操作通过vim或者mysql进行,非常容易失误,问题分析和解决(1),后台机器越来越多,单机死机/故障经常出现,IDC故障也不少,影响服务,也影响人员生活 传统行业设备少单价高,故障很少出现 互联网行业设备多单价低,故障是常态,IM后台3.0的容错/容灾分析,每个集群只有一份 机器选择全人工配置 集中在一个IDC,IDC的实际可用性只有2个9,老架构没前途,必须进行容灾改造!,租来的IDC的级
8、别: B或C,容灾改造的思路,存储集群:半自动切换模式 主/从服务器 从服务器死机,业务不受影响 主服务器死机,多数命令不受影响,修改资料命令受影响业务集群、接入集群、同步集群:自动切换模式 迅速应对死机等情况,基本不影响业务分布在两套IDC 可以应对IDC整体故障,业务集群的容灾改造,业务命令流,设备状态流,接入集群,业务集群 IDC1,业务集群 IDC2,指挥中心 IDC1,指挥中心 IDC2,问题分析和解决(2),每周有新代码发布,BUG不断出现,严重影响服务 大部分子系统每周发布一个版本的新代码解决方法 代码review 灰度发布,第一周 周末,灰度发布演示,号段7-8,号段7-8,号
9、段5-6,号段5-6,号段3-4,号段3-4,号段1-2,号段1-2,第一周 周一,第一周 周二,第一周 周三,第一周 周四,第一周 原来,周一,周二,周三,周四,问题分析和解决(3),监控机制原始、报警设置不全,出事了都不知道 CPU 100%的故事解决方法 完善监控和报警,完善监控和报警,完善监控和报警,完善监控和报警,完善监控和报警,完善监控和报警,问题分析和解决(4),运维操作通过vim或者mysql进行,非常容易失误 Grandy的故事解决方法 运维操作Web化(半自动化)、自动化 IM后台3.5的运维页面已经废除,后面有IM后台4.0的运维页面截图,服务可用性终于提升到了行业先进水
10、平,IM后台3.5架构,启示:千万级在线的关键技术,对外提供高可用性的服务 对内提供高可运维性的系统灰度发布 运营监控 容灾 运维自动化/半自动化,高可用性;高可运维性,目录,从十万级到百万级在线千万级在线亿级在线总结,随着亿时代的接近,新烦恼又来了,灵活性: “昵称”长度增加一半,需要两个月 增加“故乡”字段,需要两个月 最大好友数从500变成1000,需要三个月亿时代的重要能力: 上万好友 隐私权限控制 PC QQ与手机QQ别互踢 微信与QQ互通 异地容灾IM后台从1.0到3.5都是在原来基础上做改造升级,但是:持续打补丁已经难以支撑亿级在线,IM后台4.0必须从头开始,重新设计实现!,太
11、差!,想都别想!,IM后台4.0存储系统 架构,IM后台4.0存储系统 运维页面,IM后台4.0存储系统 成果,历时3年完成千万级好友隐私权限控制灵活扩展字段高可运维性 运维操作组件化 负载自动转移高性能 自写存储层,IM后台4.0通信系统 逻辑架构,IM后台4.0通信系统 物理架构,IM后台4.0通信系统 运维页面,IM后台4.0通信系统 阶段成果,历时2+年完成多点登录支持5至10亿个实例同时在线方便接入微信等多种业务区域自治高可运维性 物理架构详细到机架 故障分析智能化,启示:亿级在线的关键技术,提供高灵活性的业务支持 传统IT行业可以半年到两年出一个新版本 互联网行业要求每个月出一个新
12、版本同时保持高性能、高可用性、高可运维性,高性能;高可用性;高可运维性;高灵活性,腾讯IM服务的未来之路,全球化分布高效率的研发监控告警的智能化,目录,从十万级到百万级在线千万级在线亿级在线总结,QQ IM后台技术演化的启示,1.0十万级、2.0百万级高性能;7乘24小时连续服务3.0千万级高可用性;高可运维性4.0亿级高性能;高可用性;高可运维性;高灵活性,QQ IM后台技术演化的启示,只实现功能,不难高性能/低成本高可用性高可运维性高灵活性很难!在线量每提升一个量级,技术难度也提升一个量级,7亿活跃账户,1.4亿同时在线,过万台IM服务器,百亿级的关系链对数,每天千亿级的服务请求,99.99%的可用性,团队经历了QQ在线从10万到1.4亿的整个过程,吸取了很多教训,对海量服务的理解是长期积累的结果,互联网与传统IT行业区别很大,互联网行业有自己的技术规律,需要做自己的技术积累,腾讯在海量服务方面的技术积累和总结: 海量服务之道系列课程,Set模型,全网调度,灰度升级,过载保护,立体监控,自动部署,柔性可用,大系统做小,先扛住再优化,边重构边生活,干干净净,有损服务,动态运营,