收藏 分享(赏)

LTM配置与排错-晏顺.pptx

上传人:HR专家 文档编号:5996489 上传时间:2019-03-23 格式:PPTX 页数:99 大小:7.89MB
下载 相关 举报
LTM配置与排错-晏顺.pptx_第1页
第1页 / 共99页
LTM配置与排错-晏顺.pptx_第2页
第2页 / 共99页
LTM配置与排错-晏顺.pptx_第3页
第3页 / 共99页
LTM配置与排错-晏顺.pptx_第4页
第4页 / 共99页
LTM配置与排错-晏顺.pptx_第5页
第5页 / 共99页
点击查看更多>>
资源描述

1、LTM配置与排错,Monitor 配置与排错,Bigd 触发 从TMM接口转出数据 回包先经过TMM,转交给bigd,Monitor工作原理,Host与TMM间关系, F5 Networks, Inc,29,Monitor概述BIGIP Monitor主要用于对后台应用的健康检查。BIGIP预置的Monitor类型如右图所示,可分为以下三大类:1、Simple Monitor:发送一个特定协议包,等待回应。如:Gateway ICMP和TCP Half Open。2、ECV:Extended Content Verification,使用特定协议向检查对象发送一段查询内容,等待从检查对象返回的

2、内容,如果检查到正确的返回内容,则健康检查成功,否则失败。如:Http、Https、TCP。3、EAV:External Application Verification ,通过访问指定的应用确认检查对象的健康状况。如接收到正确的回应则健康检查成功。如:FTP、IMAP、LDAP、MSSWL、MySQL、NNTP、Oracle、POP3、RADIUS、Real Server等。除右图预设Monitor外,用户还可以自定义EAV Monitor。我们将在后面针对不同应用的章节中,详细讲解三类常用Monitor的配置及使用。,Interval: 表示系统发起探测的频率, 默认每五秒发起一次探测 T

3、imeout:在限定周期内如果收不到回应则将member置为down Timeout时间一般为3*Interval+1s,Monitor重要概念,场景一: 使用iptables过滤SYN+ACK包,通过抓包理解interval 和timeout之间的关系,场景二: 使用nc 监听80端口,不相应HTTP请求,通过抓包理解interval 和timeout之间的关系,网络层monitor VS 应用层monitor,数据库monitor,External monitor,https:/ monitor,Failures :指定在Monitor 标记member down之前,Member可以在“

4、故障间隔”中发送的失败响应的数量。Failure Interval: 指定如果系统在此时间段内收到指定数量的故障,则Monitor将标记member为down。Response Time :指定member必须响应数据请求的时间间隔。如果member在指定的时间后响应,则monitor报告故障。Retry Time:指定在标记member down后,Monitor再次发起探测请求的时间间隔,Pool和pool member调用Monitor,Monitor故障处理,Bigd 触发,从TMM接口转出数据,回报先经过TMM,转交给bigd Host与TMM间关系,tcpdump的h选项tcpdu

5、mp ni 0.0:nnnh s0 Bigd debugsys db bigd.dbgfile value “/var/log/bigdlog“ sys db bigd.debug value “disable“ Bigd 端口的复用:sys db bigd.reusesocket value “enable“ ,Monitor故障处理抓包命令拓展,通用型抓包命令tcpdump ni 0.0:nnn s0 -w /var/tmp/1.pcap 自动匹配客户端和服务器端的连接tcpdump ni 0.0:nnnp s0 host -w /var/tmp/1.pcap 管理口抓包tcpdump n

6、i eth0 s0 -w /var/tmp/1.pcap,Monitor故障处理,手工执行ping,telnet,curl等命令辅助判断,单独执行是否正确 外部monitor (ECV monitor)脚本检查, UP 输出 Tcpdump,bigdlog 和ltm log,SSL卸载,SSL offloading 示例,Decrypted,Encrypted,包的封装,Wire,Request,SSL握手过程,Client,Server,ClientHello,ServerHello,Certificate,ServerHelloDone,ClientKeyExchange,ChangeCi

7、pherSpec,Finished,ChangeCipherSpec,Finished,包含所选协议版本,随机数,CipherSuite,压缩方法和任何其他支持的扩展。,指定支持的最高TLS协议版本,随机数,建议的Ciphers列表,建议的压缩方法和扩展,表示握手协商完成,包含PreMasterSecret,公钥或无(取决于选取的算法)。如果包括PreMasterSecret,它使用服务器公钥加密,告诉服务器所有后续流量将被认证和加密,告诉客户端所有以下流量将被认证和加密,包含上一条消息的哈希和MAC。服务器将尝试解密和验证散列和MAC。如果解密或验证失败,则连接被终止,Application

8、Data,包含服务器公钥和可选的证书信任链,握手完成和解密的数据传递到连接两端的较高层,包含上一条消息的哈希和MAC。服务器将尝试解密和验证散列和MAC。如果解密或验证失败,则连接被终止,SSL握手过程(DH),TLS - ClientHello,TLS - ServerHello,SSL Cipher Suite,Cipher suite 3个核心组件:密钥交换算法(不对称加密)生成主密钥 批量加密算法(对称加密)主密钥,用作加密/解密数据的种子 消息验证码(加密散列函数)加密数据进行散列以提高完整性,TLS_DHE-RSA-AES128-GCM-SHA256,Ciphersuites,公钥

9、大小不是密码字符串的一部分!,TLS_DHE_RSA_WITH_AES_128_CBC_SHA TLS_RSA_WITH_RC4_128_SHA,TLS Certificate, ServerHelloDone,公钥基础设施 信任链,openssl verify -purpose sslclient -CAfile /path/to/trusted-ca-bundle.crt /path/to/client.crt 如果指定的证书链可以完成验证,则该命令将返回以下的输出: client.crt: OK,Public key Signature Valid From/To dates Issue

10、r Other options SNI Certification path,TLS 证书,TLS ClientKeyExchange, ChangeCipherSpec, Finished,TLS Server: ChangeCipherSpec, Finished,TLS Application Data,BCM Switch fabric,PVA,BCM Switch fabric,IPv4,TCP,LB iRules Cookie NAT SNAT etc.,HTTP,ClientSSL,IPv4,TCP,HTTP,ServerSSL,ClientSSL Profile 基本设定,Ce

11、rtificate:服务器公钥证书Key: 服务器私钥Chain:证书链 Ciphers:支持的算法,F5 DEFAULT 算法列表,BIG-IP 12.0.0 -12.1.0 !SSLv2:!EXPORT:DHE+AES-GCM:DHE+AES:DHE+3DES:RSA+AES-GCM:RSA+AES:RSA+3DES:ECDHE+AES-GCM:ECDHE+AES:ECDHE+3DES:-MD5:-SSLv3:-RC4BIG-IP 11.6.1 !SSLv2:!EXPORT:DHE+AES-GCM:DHE+AES:DHE+3DES:RSA+AES-GCM:RSA+AES:RSA+3DES:

12、ECDHE+AES-GCM:ECDHE+AES:ECDHE+3DES:-MD5:-SSLv3:-RC4BIG-IP 11.5.0 - 11.5.4 !SSLv2:!EXPORT:RSA+AES:RSA+3DES:RSA+RC4:ECDHE+AES:ECDHE+3DES:ECDHE+RC4:!MD5:!SSLv3BIG-IP 11.0.0 -11.4.1 !SSLv2:ALL:!DH:!ADH:!EDH:!MD5:!EXPORT:!DES:SPEED256字符限制,Cipher 性能,SSL 排错工具ssldump,用于显示SSL握手信息和解密的应用程序的内容 从tcpdump获取二进制文件作为

13、输入 # ssldump nAdr -k -n : dont resolve hostnames -A : Print all record fields -d : Display the application data traffic -r : read data from file -k : key file,SSLDump 注意事项,用tcpdump抓包,然后用ssldump解密 在进行抓包之前,从浏览器中清除SSL状态并打开新的浏览器 解密可以用PMS或者私钥ssldump -r /path/to/capture_file -k /path/to/private_key -M /pa

14、th/to/pre-master-key_log_file,SSL 排错工具openssl s_client,s_client是一个openssl应用程序,用于与基于SSL的应用程序服务器建立命令行安全连接https: HTTP over SSL openssl s_client -connect remote.host:443,排错场景,BIGIP升级后有部分客户端访问https页面失败 对于这类问题首先考虑是SSL版本或者Ciphers兼容性问题,通过抓包查看SSL握手全过程。,设备系统升级,设备系统升级,系统升级前要求执行以下操作:保存、备份配置文件,并下载到本地硬盘。 重新激活F5设备

15、,确保可以升级 上传系统文件及补丁程序 Notes:从下载ISO文件以及上传到BIGIP后都需要校验。 md5sum值 准备好Console线或者确保Console Server可以连接,设备系统升级,备机安装系统程序: 使用命令tmsh show sys software查看系统安装情况 使用命令tmsh install sys software images BIGIP-11.6.1.0.0.317.iso volume HD1.X create-volume,设备系统升级,安装过程注意事项: 使用命令watch tmsh show sys software查看升级进度 使用命令tail

16、f /var/log/liveinstall.log查看具体安装过程及配置导入过程,设备系统升级,安装补丁: 使用命令tmsh install sys software hotfix Hotfix-BIGIP-11.6.1.2.0.338-HF2.iso volume HD1.X 安装补丁使用命令watch tmsh show sys software查看升级进度,设备系统升级,安装完成后检查事项: 检查var/log/liveinstall.log确保导入ucs部分没有报错 如何从当前系统中获取新分区的配置文件(可选),mount /dev/mapper/vg-db-sda-set.x._c

17、onfig /var/tmp/config_setx cd /var/tmp/config_setx,设备系统升级,升级后所需操作: 重启机器到新安装的分区,switchboot b HD1.x reboot,将流量切换到新版本的BIGIP,确保业务正常后,升级对端BIGIP 所有BIGIP都完成升级后,检查HA状态和同步状态,LTM常见故障处理,BIGIP重要进程,BIGIP重要日志,BIGIP重要日志,Status 状态指示灯,OFF 系统关闭 常绿 系统运行正常,或系统运行在active模式 长黄 系统运行在standby模式,若非standby设备,考虑存在非严重问题指示 黄闪 系统存

18、在故障,HOST部分未启动起来,或其他软硬件故障导致无法获取HOST控制,Power 电源指示灯,常绿 电源供电正常 长黄 电源存在,但工作不正常,或工作在standby模式下 OFF 电源不存在,Alarm 告警灯,会因不同平台而有少许差别,但类似于老平台,系统/etc/alertd/alert.conf中会控制是否某些警告应该触发告警。 长黄,黄闪,长红,红闪,对应的告警级别依次提高,* The lcdwarn messages can be one of 5 levels: 0 - warning - makes the Alert LED glow yellow * 1 - error

19、 - makes the Alert LED blink yellow * 2 - alert - makes the Alert LED glow red * 3 - critical - makes the Alert LED glow red * 4 - emergency - makes the Alert LED blink red * 5 - info - leave the LED off,清除LCD和LED告警信息,通过控制面板LCD控制按钮,通过确认并删除警告信息可恢复LED灯状态 在需要进行远程清除告警的情况下,可以使用lcdwarn命令清除 Lcdwarn c 单机slo

20、tid可设置0, 在viprion平台上slotid按实际输入 Level 用 0 1 2 3 4 分别代表 warning error alert critical emergencyfor i in 0 1 2 3 4; do for j in 0 1 2 3 4; do lcdwarn -c “$i“ “$j“; done; done,USER_ALERT.CONF,利用/config/user_alert.conf 根据某种日志触发执行某种动作 /* comment */ alert “ exec command=“/path/to/command_or_customscript“ /

21、* This stanza restarts ntpd after the system completes a reboot */ alert ntpd_startup_delay “Initialization complete. The MCP is up and running“ exec command=“sleep 15“; exec command=“/usr/bin/bigstart restart ntpd“; 不能将exec命令与snmptrap和lcdwarn命令放在一起使用,硬盘方面故障排错,SMARTCTL 硬盘检测,fsck 若出现硬盘无法启动系统,可首先考虑重新干

22、净安装系统, diskinit style volumes 低格 RAID 方面 可能出现tmsh show sys raid 显示硬盘failed 使用tmsh modify sys raid array MD1 remove HD1 命令尝试移除硬盘,然后将硬盘重新加回: Tmsh modify sya raid array MD1 add HD1或手工将硬盘从盘位中拔出,并重新插入 随后可用tmsh show sys raid 观察系统复制状况 若总是某个bay位的硬盘无法被识别,尝试调换槽位,Raid方面排错,在更换硬盘时,应先将硬盘从raid中分离后,再物理更换,否则容易出现: Sy

23、s:Raid:ArrayMembers Bay ID Serial Number Name Array Member Array Status - - WD-WCAT1F023504 - yes missing 1 WD-WCAT1F339643 HD2 yes ok 2 WD-WCAT1F339596 HD1 yes ok 此时需要 array -erase array -erase WD-WCAT1F023504,Raid方面问题可采集的信息,tmsh show sys raid /var/tmp/CaseID_tmshraid.log array /var/tmp/CaseID_arra

24、y.log mdadm -detail /dev/md* /var/tmp/CaseID_mdadm.log cat /proc/mdstat /var/tmp/CaseID_mdstat.log halcmd -m disk /var/tmp/CaseID_hal.log The files: /var/log/kern* , /var/log/ltm*, /var/log/daemon*,EUD,避免误报,检测时设备不要接入网络 使用最新版本的EUD Viprion 独立板卡测试 eud_info 命令,“live eud”,11.4版本后增加Platform_check 可以不重启机器执

25、行简单部分eud,包含 PCI检查,SMART, 硬件压缩卡, 注意对于压缩卡的检测依旧需要执行bigstart stop首先,其他硬件问题,电源出现问题,一般来说可以看到面板控制灯关于电源的告警 系统日志中也会出现关于电源、风扇方面的log 使用tmsh show sys hardware 查看电源、风扇转速等状态,风扇、电源,/root or /var 空间满,root空间满容易导致GUI上传ISO文件失败,相反GUI上传文件出错容易导致root满 Var空间满,容易导致GUI界面,系统性能统计,zrd等出现问题,因为有些程序运行过程中依赖/var df h, du List direct

26、ories and their size: find /root -type d -exec du -sh ; | sort -nrList of files and their size: find /root -type f -exec du -sh ; | sort nr du -m -c -max-depth=1 /var du i, if inode cause disk usage reach full,MEMRORY IN TMM,Tmsh show sys memory Show system memory usage, show tmm memory usage, displ

27、ay memory allocaction for each tmm and subsystemDEMO,root(VIP4800-R77-S28)(cfg-sync Standalone)(/S2-green-P:Active)(/Common)(tmos)# show sys memorySys:System Memory Information - Memory Used(bytes) Current Average Max(since 06/18/14 12:23:08) - Total Phys Memory 94.5G 94.5G 94.5G OS Used Memory 91.1

28、G 91.0G 91.1G TMM Alloc Memory 84.1G 84.1G 84.1G TMM Used Memory 4.8G 4.8G 4.8G OS Used Swap 0 0 0- Sys:Host Memory (bytes) - Host: 1 Available 47.2GUsed 45.9G- Sys:Host Memory (bytes) - Host: 2 Available 47.2GUsed 45.1G,系统CPU高?,Top Tmsh show sys cpu Vmstat 什么进程占用高?进程是干什么的?是否和流量、连接数有关? 此时memory高不高?

29、此进程是否高度依赖磁盘读写?系统iowait高不高? Swap高不高? 磁盘读写情况? vmstat -d -n 1 sar 输出查看(支持版本),TMOS,Interfaces,arp, vlan,self ip Routing table Connections Virtual servers Profiles Pools Persistence table Snat TMOS System,Pools,LB 算法,行为是否符合预期? (CMP?one connect? ) 会话保持对LB的影响 Pool、pool member monitor状态 Limit行为 Slow ramp Al

30、low snat/NAT? Action on service down 行为 State: disabled, forced offline,Persistence,Persistence 表是在LB选择到正确member后产生的 Persistence表示在LB决策前要查询的 Irule对persistence的影响? Persistence 表的输出,老化 Persistence 与CMP,宿主、复制 跨vs的 across? Across virtual service or across virtual server? Cookie persistence不存在会话保持表,Syste

31、m HA,DSC 正确的网络配置 正确的时间配置 正确的admin账号 正确的trust domain Vlan、gateway failsafe 正确的Self ip lockdown 设置 网络failover ? 电缆?,DSC,McpdA-tmmA:6699, tmmA-tmmB:4353, tmmB-mcpdB:6699 反之亦然 Tmm之间的连接只能通过抓包发现,无法在系统上查看,mcpd,tmmA,tmmB,mcpd,DSC 排错 tips,软件版本一致性 管理口IP,可达彼此 Device trust 设置 Failover ip 设置 Configsync ip 设置 NTP

32、设置 首先确保trust domain处于in sync,其次排错同步组 首次建立,系统会提示初始化同步,从任意机器发起一次同步,注意若系统发现两者配置存在冲突,会提示使用overwrite选项,常用日志收集,Qkview通过图形界面收取通过命令行收取: nice n 19 qkview 打包日志 tar zcvf /var/tmp/$HOSTNAME-logs.tar.gz /var/log/*,日志管理配置 - HSL配置流程,配置remote high speed server pool 配置remote high speed log destination 配置格式化的remote h

33、igh speed log destination 配置publisher 配置log filter,日志管理配置 - HSL配置流程,配置remote high speed server pool 例如配置一台服务器为192.168.10.33:514,日志管理配置 - HSL配置流程,配置remote high speed log destination system-logs-configuration-log Destinations-create创建一个syslog-hsl,使用的是Remote high speed log类型,日志管理配置 - HSL配置流程,配置格式化的remo

34、te high speed log destination 创建有关格式化的remote high speed log目标,可以设置输出为Splunk/arcsight等格式化的日志,本次选择为BIGIP类型的格式。system-logs-configuration-log Destinations-create,日志管理配置 - HSL配置流程,配置publisher 可以将后面过滤的日志推到这里关联的destination进行输出。 system-logs-configuration-log Publishers-create,日志管理配置 - HSL配置流程,配置log filter 创

35、建并关联相关publisher,否则无法传递系统报警消息到syslog服务器! system-logs-configuration-log Publishers-create,创建完毕可以在远程syslog服务器验证创建的信息。,远程管理配置 APM Lite(10 Users),F5免费提供默认10 Users APM Lite模块,可使用SSL VPN对设备进行远程安全管理。APM Lite模块与收费的APM模块相比具有完全相同的功能,但有以下限制: 1、并发用户限制在10 Access Sessions; 2、硬件压缩被Disable; 3、软件压缩被限制到50M bps; 4、不提供A

36、AA OAM集成;,远程管理配置 APM Lite(10 Users),激活APM资源分配(默认10 Users 免费),远程管理配置 APM Lite(10 Users),根据设备安装向导进行APM配置,选择Network Access 模式:,根据设备安装向导进行APM配置,选择中文模式:,远程管理配置 APM Lite(10 Users),根据设备安装向导进行APM配置,添加DNS服务器:,远程管理配置 APM Lite(10 Users),根据设备安装向导进行APM配置,选择用户认证服务 (远程管理使用本地用户认证,选择No Authenticate,后面在VPE配置中进行选择):,远

37、程管理配置 APM Lite(10 Users),根据设备安装向导进行APM配置,添加用户本地IP分配地址池:,远程管理配置 APM Lite(10 Users),根据设备安装向导进行APM配置,配置隧道分离,设置从VPN隧道访问的内部IP地址段:,远程管理配置 APM Lite(10 Users),根据设备安装向导进行APM配置,添加内部DNS地址:,远程管理配置 APM Lite(10 Users),根据设备安装向导进行APM配置,配置对外发布地址:,远程管理配置 APM Lite(10 Users),根据设备安装向导进行APM配置,并确认向导配置:,远程管理配置 APM Lite(10

38、Users),创建本地用户前需先创建管理实例,Local User DB Manage Instances,可以设置用户尝试登陆的次数、登陆失败后用户被锁定的时间及动态用户超时移除时间:,远程管理配置 APM Lite(10 Users),在Access Profile中对相应的apm_test Profile点击Edit,使用VPE添加本地用户认证:,远程管理配置 APM Lite(10 Users),VPE添加本地用户认证(Local Database Authentication),添加后点击LocalDB Auth,在弹出属性窗口中的LocalDB Instance处选择之前建立的In

39、stance:,远程管理配置 APM Lite(10 Users),按下图配置完VPE后,点击左上角Apply Access Policy,提交变更的配置:,远程管理配置 APM Lite(10 Users),创建本地用户:,远程管理配置 APM Lite(10 Users),配置完毕后,可通过F5 Client或Web浏览器建立SSL VPN连接,进行设备远程管理。,5分题-1,TCP类型健康检查闪断,通过抓包发现每次使用30666端口作为源端口时会出现此问题,以下最可能的原因为: A. 需要将健康检查类型改为Gateway_icmp B. TCP健康检查不能使用30666作为源端口 C.

40、服务器端TCP连接处于time_wait状态 D. 中间网络设备或服务器上过滤了30666端口,5分题-2,https类型应用,使用了双向认证业务打开为白屏,需要抓取哪些数据(多选): A. Httpwatch输出 B. Tcpdump输出 C. BIGIP系统日志 D. 服务器端日志,5分题-3,升级系统前一定要做的工作有哪些: A. 备份设备ucs B. 下载需要升级的软件IOS C. 重新激活license D. 准备console线,5分题-4,客户从权威机构购买证书,更新之后,客户端在访问的时候收到告警,提示该证书不是收信任的颁发机构颁发的,问下一步该如何做 A.重新购买并更新证书 B.使用自签发证书 C.重新生成CSR D.修改配置,上传证书链,5分题-5,一个网络环境中,配置了SNAT。在日志中发现了port exhaustion告警,最稳妥的处理方法为 A.增加多个self ip B.增加多个floating ip C.增加一个snat pool,加入两个以上的地址 D.不再使用snat功能,10分题-1,观察BIGIP连接统计,发现客户端连接总数大于pool member端连接数总数和很多,哪个是最不可能导致问题的原因: A. Syn cookie机制开启 B. 客户端主动拆连接 C. BIGIP与服务器之间有防火墙 D. VS类型为Standard,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报