MGW Core MP 倒换流程_gd_shenwenguang_01.doc-道客多多

资源描述

1、PublicINSTRUCTION 1 (9)Prepared (Subject resp) No.CBC/PS/UApproved (Document resp) Checked Date Rev ReferenceCBC/PS/U 2012-07-23 PA1MGW Core MP Switch Procedure1 准备工作检查 MGW 的 alarm 以及 event，以确保 MGW 不存在严重告警。检查步骤如下：1.1 检查 MGW 的 active alarm打开 EMAS/NM，选择 Alarm List。如果告警列表里不是空的，你可以通过在该告警条目上按鼠标右键选择 Detai

2、l 来查看详细信息。确保没有 critical 级别或者是发生原因不明的告警。告警等级Critical 这类问题需要被立刻解决。Major 这类问题可以在正常的工作时间内修复。Minor 这类问题可以等到 MGW 定期维护的时候修复。Warming 这类告警等级表明，在任何重大影响发生之前，监测到有发生会影响服务的问题的可能性或者这种问题即将发生。1.2 检查 MGW 的 Alarm log 以及 Event log打开 EMAS/NM，选择 Alarm Log 或者 Event Log 或者 Alarm and Event Log。通过右击一个 alarm 或者 event，选择 Detai

3、ls，可以得到相关的具体信息。这些alarm 或者 event 历史记录反应了该网元近期的表现。1.3 对磁盘进行 disk health checkAmos 指令：1) lt ManagedElementPublicINSTRUCTION 2 (9)Prepared (Subject resp) No.CBC/PS/UApproved (Document resp) Checked Date Rev ReferenceCBC/PS/U 2012-07-23 PA12) get ManagedElement=1=Proxy Id 0MO SubNetwork=FET,MeContext=PC0

4、2MG,ManagedElement=1=.healthCheckResult Struct3 1.healthCheckResultCode = 99 (INITIAL_VALUE) 2.message = 3.startTime =healthCheckSchedule t1 = Struct1 has 2 members: 1.weekday = 1 2.time = 19:00 （该时间需要加 8 小时）.Total: 1 MOs查看周检的时间，避免在对磁盘周检时倒换 core GPB 板。3) acc 0 startHealthCheck ! 此处的 0 对应 2）中打印的 prox

5、y id ！注意：请避免在常规计划操作，例如：auto CV backup 的时候对磁盘进行 disk health check（即避免执行：acc 0 startHealthCheck ）等待打印结果：get ManagedElement=1.healthCheckResult Struct3 1.healthCheckResultCode = 0 (OK)若磁盘健康检查结果不是 OK，而是 NOT_OK 或 ABORTED, 请避免对 core GPB板进行倒换。4) altk再次检查确保没有 critical 级别或者是发生原因不明的告警或者 File System Diagnostic

6、 Error handling 或者 Configuration Version Corrupt 或者 Upgrade Package Corrupt 的告警。若有相应告警，请避免对 core GPB 板进行倒换，并按相应 OPI处理。PublicINSTRUCTION 3 (9)Prepared (Subject resp) No.CBC/PS/UApproved (Document resp) Checked Date Rev ReferenceCBC/PS/U 2012-07-23 PA12 实施步骤2.1 对于 GMPV3.0 的实施步骤(软件版本 R5 或 R6)：1) 创建一个新的

7、 CV cv mk 2) 把这个 CV 设成 Startable cv set 3) 利用 CLI 命令行来检查哪个 GPB 板是 active 的。lhsh 000200 mirror state lhsh 000300 mirror state 等待打印结果：在进行下一步之前，确保 Peer Disk state 是 Connected 和 Valid。打印结果:4) 通过 EMAS/NM 重启 active 的 GPB 板来进行倒换（选择冷启动：RESTART_COLD）。5) 检查 mirror stat 来确保倒换被执行了。lhsh 000200 mirror state lhsh

8、000300 mirror state 等待打印结果：PublicINSTRUCTION 4 (9)Prepared (Subject resp) No.CBC/PS/UApproved (Document resp) Checked Date Rev ReferenceCBC/PS/U 2012-07-23 PA1在进行下一步前确保 Peer Disk state 是 Connected 和 Valid。注：如果只是检验备用 GPB 能否作为主用 GPB，本步操作完毕后，跳至第8 步。6) 倒换后运行 24 小时再倒回原来状态。通过 EMAS/NM 冷重启（ RESTART_COLD ）ac

9、tive 的 GPB 板倒换回步骤 3）时 core MP 的 active，passive 状态。如果倒换后的最终状态不是步骤 3）时的状态，请继续执行第 6）与第 7）步。这里是指进行倒回操作，即对另外一块 GPB板进行冷启动。7) 检查 mirror stat 来确保倒换被执行了。lhsh 000200 mirror state lhsh 000300 mirror state 等待打印结果：在进行下一步前确保 Peer Disk state 是 Connected 和 Valid。8) 倒换后进行必要的健康检查。健康检查步骤如下：8.1) 检查 000200 和 000300 上的

10、RPU 状态，所有 RPU 的 opMode 都应该是ASCONF（As Configured）状态，即 RPU 按照缺省定义运行在相应的 core GPB板上，表示 load module 运行状态正常：PublicINSTRUCTION 5 (9)Prepared (Subject resp) No.CBC/PS/UApproved (Document resp) Checked Date Rev ReferenceCBC/PS/U 2012-07-23 PA1Amos 指令：inv！查看 GPB2 板的 RPU 状态！=Active Passive reliableProgramLabe

11、l LM Prod_Rev opMode switchOver norm replication Rpu MOid=1,2 1,3 act_aal0_dynamic_adm CXC1322211_R61CJ01 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 21,2 1,3 act_aal0_static_adm CXC1322210_R61FN02 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 31,2 1,3 act_aal1_static_adm CXC1323491_R61CA01 1:ASCONF 2:ATPIUREST 2:A

12、UTO 1:ALWAYS 61,2 1,3 act_aal5_dynamic_adm CXC1322209_R61HL01 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 141,2 1,3 act_aal5_static_adm CXC1322208_R61FN02 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 151,2 1,3 act_nsaal_adm CXC1321171_R61CG02 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 311,2 1,3 aet_aal2_mp CXC1320836_R6

13、1HL04 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 121,2 1,3 aet_atm_mp CXC1320839_R61HL08 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 201,2 1,3 aet_ds0mp CXC1323636_R61HL04 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 211,2 1,3 aet_equip_mp CXC1321520_R61FN05 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 221,2 1,3 aet_phy_m

14、p CXC1324169_R61HL02 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 351,2 1,3 ans_aal05ncc CXC1320978_R61DX01 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 1PublicINSTRUCTION 6 (9)Prepared (Subject resp) No.CBC/PS/UApproved (Document resp) Checked Date Rev ReferenceCBC/PS/U 2012-07-23 PA11,2 1,3 ans_aal1_cc CXC1323

15、506_R61CA01 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 41,2 1,3 ans_aal1_ncc CXC1323507_R61HL01 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 51,2 1,13 ans_aal2cpsrc_12 CXC1322418/12_R61HL01 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 171,2 1,13 ans_aal2distncc_12 CXC1322419/12_R61HL02 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:A

16、PPLCONT 91,2 1,3 ans_aal2nccadm_12 CXC1322420/12_R61HL03 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 131,2 1,3 ans_aalcrossconn CXC1320980_R61HL01 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 161,2 1,3 eah_fro CXC1324933/8_R30K01 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 10071,2 1,3 ipac_ipadm CXC1327943_R61HH03 1:A

17、SCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 251,2 1,3 ipcp_ipadm CXC1327846_R61HH09 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 261,2 1,3 licenseServer CXC1325792_R61HH06 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 291,2 1,3 msp_oam_eqh CXC1327784/8_R30T01 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 10521,2 1,3 msp_oam_im C

18、XC1327782/8_R30J01 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 10541,2 1,3 msp_oam_msf CXC1327783/8_R30T01 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 10531,2 1,3 nclishell CXC1720483_R61HH07 1:ASCONF 1:ATPIUFAULT 2:AUTO 2:NEVER NcliShell1,2 1,3 nss_mp CXC1321118/1_R61HH02 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APP

19、LCONT 321,2 1,3 oam_clib CXC1728278/8_R30G01 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT CLI_BrokerPublicINSTRUCTION 7 (9)Prepared (Subject resp) No.CBC/PS/UApproved (Document resp) Checked Date Rev ReferenceCBC/PS/U 2012-07-23 PA11,2 1,3 osa_inet CXC1321315_R61HH03 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCO

20、NT 241,2 1,3 osa_ospf CXC1321317_R61HH04 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 341,2 1,3 osa_secure_shell CXC1323911_R61HH08 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 391,2 1,3 osa_sw_installation CXC1321341_R61HH04 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 401,2 1,3 sa_mppxy_fro CXC1725745/8_R30S01 1

21、:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT sa_mppxy_fro_act_0102_pas_01031,2 1,3 scc_adm CXC1327798_R61HH14 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 361,2 1,3 scc_mtp2_adm CXC1323657_R61BE02 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 301,2 1,3 scc_mtp2_hsl_adm CXC1723007_R61HH01 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWA

22、YS Mtp2HslAdm1,2 1,3 sctp_adm CXC1325240/1_R61HH02 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 371,2 1,3 spas_resource CXC1321408_R61HH03 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 381,2 1,3 target_monitor CXC1326054_R61HH02 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS target_monitor！查看 GPB3 板的 RPU 状态！1,3 1,2 acsg_fr

23、o CXC1722797/8_R30U01 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT acsg_fro1,3 1,13 ans_aal2cpsrc_12 CXC1322418/12_R61HL01 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 181,3 1,13 ans_aal2distncc_12 CXC1322419/12_R61HL02 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 101,3 1,2 osa_http_server CXC1320783_R61HH02 1:ASC

24、ONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 23PublicINSTRUCTION 8 (9)Prepared (Subject resp) No.CBC/PS/UApproved (Document resp) Checked Date Rev ReferenceCBC/PS/U 2012-07-23 PA11,3 1,2 osa_ip_utilities CXC1322506_R61HH03 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 271,3 1,2 osa_jvm CXC1320784_R61HH08 1:ASCONF 1

25、:ATPIUFAULT 2:AUTO 4:APPLCONT 281,3 1,2 osa_object_support CXC1323464_R61HH10 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 331,3 1,2 pms_event_distr CXC1321344_R61HH02 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT Pms1,3 1,2 upcf_oam CXC1324928/8_R30S01 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 10058.2) 再次验证 act

26、ive core MP 的状态：AMOS 指令： get 0 coreget 0 core110602-22:10:27 OFFLINE_SZGM55 8.0t MGW_NODE_MODEL_B_15_106 stopfile=/tmp/9064=MO Attribute Value=ManagedElement=1 faultTolerantCoreStates s2 = ManagedElement=1,Equipment=1,Subrack=MAIN,Slot=2,PlugInUnit=1;Active ManagedElement=1,Equipment=1,Subrack=MAIN,

27、Slot=3,PlugInUnit=1;PassiveReady =上述打印中 Active 的 GPB 应该与 mirror stat 中 Active 的 GPB 一致。上述打印中 Passive 的 GPB 应该与 mirror stat 中 Passive 的 GPB 一致。8.3）检查 MGW 的 active alarm打开 EMAS/NM，选择 Alarm List。检查倒换前后有无新增告警或产生跟 GPB 板相关的告警。如果存在新增告警，参考 ALEX 相应的 OPI 进行处理。PublicINSTRUCTION 9 (9)Prepared (Subject resp) No

28、.CBC/PS/UApproved (Document resp) Checked Date Rev ReferenceCBC/PS/U 2012-07-23 PA1确保没有 critical 级别或者是发生原因不明的告警。告警等级Critical 这类问题需要被立刻解决。Major 这类问题可以在正常的工作时间内修复。Minor 这类问题可以等到 MGW 定期维护的时候修复。Warming 这类告警等级表明，在任何重大影响发生之前，监测到有发生会影响服务的问题的可能性或者这种问题即将发生。8.4）检查 MGW 的 Alarm log 以及 Event log打开 EMAS/NM，选择 Al

29、arm Log 或者 Event Log 或者 Alarm and Event Log，检查倒换前后有无新增告警或产生跟 GPB 板相关的告警、事件。通过右击一个alarm 或者 event，选择 Details，可以得到相关的具体信息。如果存在新增告警或事件，参考 ALEX 相应的 OPI 进行处理。2.2 对于 GMPV4.0 的实施步骤(软件版本 R5 或 R6)：请参考 2.1 GMPV3.0 的实施步骤，只需把 core MP 从 GPB2：MAIN:2 和GPB3：MAIN:3 改成 MAIN:4 和 MAIN:24 即可。getAttrObj me 可用该指令获取版本信息相应指令更改如下：GMPV3 GMPV4lhsh 000200 mirror stat lhsh 000400 mirror statlhsh 000300 mirror stat lhsh 002400 mirror stat

展开阅读全文