收藏 分享(赏)

京东云架构.pdf

上传人:weiwoduzun 文档编号:5631436 上传时间:2019-03-10 格式:PDF 页数:24 大小:888.10KB
下载 相关 举报
京东云架构.pdf_第1页
第1页 / 共24页
京东云架构.pdf_第2页
第2页 / 共24页
京东云架构.pdf_第3页
第3页 / 共24页
京东云架构.pdf_第4页
第4页 / 共24页
京东云架构.pdf_第5页
第5页 / 共24页
点击查看更多>>
资源描述

1、京东云自动化运 维体系 构建京东云资深架构师郑永宽个人简介华中科技大学硕士2011 2016: 百度自动化运维平台项目 经理分布式任务调度系统数据传输系统百度部署发布系统2016 今 : 京东云运维平台负责人京 东云自动化运维体系构建6年自动化运维平台研发运营 经验目录概要介绍基础组件介绍部署系统介绍监控系统介绍总结与展望0102030405京东云 能力输出到技术赋能京东云技术赋能金融运营 营销 仓储 配送 客服 售后大数据 人工智能 智慧物流智慧供应链京东能力输出物流电商金融 保险京东公有云平台京东能力 +云平台 =赋能客户作为京东集团能力的对外输出窗口, 2016年 4月正式发布京东云运维

2、平台 为京东云保驾护航 传统运维 基础场景 关键问题 可用性(稳定性) 效率:研发、运维、测试的全环节效率 成本运维场景部署变更故障管理环境维护网络管理资源管理监控管理备份管理安全 京东云运维新挑战 对内保障京东云自身系统稳定性 对外保障 SaaS用户业务稳定性 提升用户交付效率 精细化运维体验基础设施运维业务系统运维定制化用户运维京东云运维平台 为京东云保驾护航RoadMap基础组件构建客户端体系构建监控部署系统构建运维平台完善SaaS化京东云运维平台概览实例应用系统产品线二级部门公司 京东云基础云云主机 云硬盘技术保障部运维工具ArkLoadInstance1 Instance2CDN基础

3、组件 服务与资源管理APP实例名字服务主机服务树与名字服务示意图 服务树 业务组织架构信息 全流程机器管理 角色管理与基于角色的权限控制 其他 meta数据 JD Naming Service(名字服务) 维护实例 -App-主机之间的对应关系 服务关联关系管理 服务解耦合 ControlTower 对指定的一批机器,按照指定策略,执行指定命令 批量执行 基于服务树和 JNS 指定账号 策略 并发控制:并发度、串并行 容错控制:失败阈值、超时阈值 扩展性 业务端统一 API 插件化 可追溯 任务记录 单机日志基础组件 分布式 任务调度 实时数据计算 调度 spark计算的能力 基于 JNS的范

4、围圈定 丰富的算子支持基础组件 监控数据平台 时序数据存储 TSDB 热点数据 redis存储 多机房部署,数据热备,高可用 读写分离,高效稳定 自动抽样,查询自适应路由范围圈定数据接收分机房Spark计算 Kafka-topic-A Kafka-topic-BSpark-Job-A Spark-Job-BPuller-A Puller-B存储 报警下游JNS 调度策略Nginx-sparkAApp2-sparkBMysql-sparkBApp1-sparkA加减乘除TopN分位值querysaver数据接收数据抽样 Metric-metaInterfaceEs-client redis-cl

5、ient分机房部署 ESRedis-FreshRedis-MetaAPIInterfaceEs-client redis-client自适应路由 查询格式转换基础组件 客户端体系构建 统一 Agent管控 ifrit: 托管 Agent升级功能 类 puppet方式,定期获取更新列表 Agent存活守护 资源超限守护 具备分级发布能力 公有云 /私有云 /混合云的部署解决方案 客户端的挑战: 全部机器、各种功能 Agent多 机器环境复杂 (磁盘、链接库、安全认证、隔离环境 ) 定期守护(自我守护不行,外部守护) 资源限制( cpu/fd/mem/日志) 分级发布 一体化应用部署管理平台 云

6、翼( skywing) 编译 构建 镜像管理 镜像发布 服务管理 资源管理 流量接入 日志管理运维工具构建 应用部署系统核心 诉求跨平台混合云管理采用网络负载接口的抽象和多平台适配技术手段实现私有云、公有云和各种虚拟化平台。如 VMware、 OpenStack、物理机资源的统一接入管理。帮助用户实现统一的运维管理体验。灵活定制容器,降低企业成本以租户为单位实现,资源隔离,权限分配,资源配额管理。相比传统数据中心物理机或者虚拟机,云翼轻松实现资源容器化,从而提升资源利用率,降低企业成本简化运维,轻松实现 DevOps通过统一操作入口,同时通过对特定的运维场景定制化的支持,实现一键部署、一键添加

7、监控,一键上下游关联关系解耦,使得运维简单高效同时可统一收集应用实例的日志,能够快速查询和检索,帮助快速定位问题。一键伸缩,轻松应对业务爆发可以管理任意规模的应用。不管是10还是 1000个实例,都可以在轻松实现弹性扩展。一键扩展应用实例,从而轻松应对业务的爆发式增长需求。自动容错,服务不掉线可自动为宕机服务器上运行的容器重新迁移并生成容器资源,保障业务不掉线,高可靠运行。这也就意味着您不用再为一两台服务器的宕机,而经历一个不眠之夜。容器实例服务健康检查,服务意外故障,自动拉起,做到服务故障自愈。全生命周期,一站式服务实现开发 -测试 -部署 -运维 -运营的服务全生命周期管理,轻松实现持续集

8、成,提升研发部署效率同时支持服务编排,针对微服务场景提供特定优化功能实现 功能亮点 部署:支持构建包和镜像两种部署,轻松支持物理机、虚拟机和容器( Docker)资源; 服务和资源管理:基于 NS的自动化服务和资源管理,研发无需关心 APP下实例的变更 多环境管理:支持测试、预发、线上环境分离,同时支持分级发布 日志:支持日志订阅与分析 流量:支持 ContainerLB 支持秒级回滚,止损效率高运维工具构建 智能监控系统监控标准抽象为基础监控、存活性监控、性能监控、应用监控四级,指导用户什么是一个 全 的监控全链路监控解决采集从机器、网络、域名到常见的开源软件;支持聚合计算,告警处理,预案平

9、台等跨云部署解决通过代理方案,支持私有云、公有云、混合云等不同的基础设施部署进行联动跟部署方案进行结合,上线过程无告警;事件流图,告警时方便知道是否是上线导致多环境支持多环境支持,包括 linux、 Windows操作系统,支持 docker,物理机,虚拟机等 核心诉求 缩短异常生命周期 MTTR See-know-act智能监控功能实现 功能亮点 采集手段丰富,功能覆盖全面 多种异常检测策略 同环比 /突升突降 数值 /字符串报警 多维度分析能力,精准发现问题 报警功能丰富 支持报警合并 支持报警回调,故障自愈 丰富的数据展示功能,定制化DashBord支持 性能 10w+机器(容器)量级数

10、据采集实时处理数据展示数据抽象采集 Agent机器adaptorKafka&sparkpullersaverES & redisDashbord 报警展示 事件流图JNS 机器 网络 域名进程端口日志自定义死机语意外部探测 API推送实时聚合计算query 时序数据存储 judgealertsender报警通路proxyES 异常事件数据挖掘 关联分析根因推荐MetaDB 预案止损网络 环境方法 业务数据应用离线处理 京东云监控体系 全链路监控解决方案业务 实践 机器监控 自动采集,支持物理机、虚拟机、容器 采集项全: Cpu/mem/disk/net/load/swap/system 支持一

11、键搜图 检查机器连通性 默认的报警配置智能监控 -基础监控告警 计算 (阈值 )cpu空闲率 cpu.idle80%机器连通性 等于 1 进程存活 查看进程存活情况 资源消耗情况 端口存活 报警推荐 程序假死报警 关注平响,资源消耗等智能监控 - 存活监控告警 计算 (阈值 )进程不存在 proc.status != 1进程资源占用 proc.cpu 2端口不存活 Port.status != 1 四大黄金指标:流量、错误码、平响、容量 采集方式 日志监控(类似 logstash,命名正则) 自定义输出(脚本、 http,约定格式) 报警推荐 流量(同环比) 错误码 /容量(恒定阈值) 平响(

12、突升突降、恒定阈值)智能监控 性能监控1:支持 命名正则提取2:支持运营商 /省份转换3:支持 公式计算4:支持字典转换5:支持数值分桶 用户侧黑盒监控 外网域名监控(模拟全国各地用户访问) 整体和分运营商 /省份访问情况 自定义方式模拟用户操作(脚本接入) 用户相关操作成功 /失败及对应原因智能监控 业务监控总结与展望 京东云自动化运维平台 总结与展望 智能化运维 服务化 致力于京东云客户成功 服务全生命周期 devops 人员效率提升 交付效率提升 资源效率提升 服务稳定性提升 专有云、私有云、混合云运维解决方案 一键接入 无限扩展 7*24小时支持 成功客户 华南城 京东保险 京东物流 宿迁政务云Thank you!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报