1、PublicINSTRUCTION 1 (9)Prepared (Subject resp) No.CBC/PS/UApproved (Document resp) Checked Date Rev ReferenceCBC/PS/U 2012-07-23 PA1MGW Core MP Switch Procedure1 准备工作检查 MGW 的 alarm 以及 event,以确保 MGW 不存在严重告警。检查步骤如下:1.1 检查 MGW 的 active alarm打开 EMAS/NM,选择 Alarm List。如果告警列表里不是空的,你可以通过在该告警条目上按鼠标右键选择 Detai
2、l 来查看详细信息。确保没有 critical 级别或者是发生原因不明的告警。告警等级Critical 这类问题需要被立刻解决。Major 这类问题可以在正常的工作时间内修复。Minor 这类问题可以等到 MGW 定期维护的时候修复。Warming 这类告警等级表明,在任何重大影响发生之前,监测到有发生会影响服务的问题的可能性或者这种问题即将发生。1.2 检查 MGW 的 Alarm log 以及 Event log打开 EMAS/NM,选择 Alarm Log 或者 Event Log 或者 Alarm and Event Log。通过右击一个 alarm 或者 event,选择 Detai
3、ls,可以得到相关的具体信息。这些alarm 或者 event 历史记录反应了该网元近期的表现。1.3 对磁盘进行 disk health checkAmos 指令:1) lt ManagedElementPublicINSTRUCTION 2 (9)Prepared (Subject resp) No.CBC/PS/UApproved (Document resp) Checked Date Rev ReferenceCBC/PS/U 2012-07-23 PA12) get ManagedElement=1=Proxy Id 0MO SubNetwork=FET,MeContext=PC0
4、2MG,ManagedElement=1=.healthCheckResult Struct3 1.healthCheckResultCode = 99 (INITIAL_VALUE) 2.message = 3.startTime =healthCheckSchedule t1 = Struct1 has 2 members: 1.weekday = 1 2.time = 19:00 (该时间需要加 8 小时).Total: 1 MOs查看周检的时间,避免在对磁盘周检时倒换 core GPB 板。3) acc 0 startHealthCheck ! 此处的 0 对应 2)中打印的 prox
5、y id !注意:请避免在常规计划操作,例如:auto CV backup 的时候对磁盘进行 disk health check(即避免执行:acc 0 startHealthCheck )等待打印结果:get ManagedElement=1.healthCheckResult Struct3 1.healthCheckResultCode = 0 (OK)若磁盘健康检查结果不是 OK,而是 NOT_OK 或 ABORTED, 请避免对 core GPB板进行倒换。4) altk再次检查确保没有 critical 级别或者是发生原因不明的告警或者 File System Diagnostic
6、 Error handling 或者 Configuration Version Corrupt 或者 Upgrade Package Corrupt 的告警。若有相应告警,请避免对 core GPB 板进行倒换,并按相应 OPI处理。PublicINSTRUCTION 3 (9)Prepared (Subject resp) No.CBC/PS/UApproved (Document resp) Checked Date Rev ReferenceCBC/PS/U 2012-07-23 PA12 实施步骤2.1 对于 GMPV3.0 的实施步骤(软件版本 R5 或 R6):1) 创建一个新的
7、 CV cv mk 2) 把这个 CV 设成 Startable cv set 3) 利用 CLI 命令行来检查哪个 GPB 板是 active 的。lhsh 000200 mirror state lhsh 000300 mirror state 等待打印结果:在进行下一步之前,确保 Peer Disk state 是 Connected 和 Valid。打印结果:4) 通过 EMAS/NM 重启 active 的 GPB 板来进行倒换(选择冷启动:RESTART_COLD)。5) 检查 mirror stat 来确保倒换被执行了。lhsh 000200 mirror state lhsh
8、000300 mirror state 等待打印结果:PublicINSTRUCTION 4 (9)Prepared (Subject resp) No.CBC/PS/UApproved (Document resp) Checked Date Rev ReferenceCBC/PS/U 2012-07-23 PA1在进行下一步前确保 Peer Disk state 是 Connected 和 Valid。注:如果只是检验备用 GPB 能否作为主用 GPB,本步操作完毕后,跳至第8 步。6) 倒换后运行 24 小时再倒回原来状态。通过 EMAS/NM 冷重启( RESTART_COLD )ac
9、tive 的 GPB 板倒换回步骤 3)时 core MP 的 active,passive 状态。如果倒换后的最终状态不是步骤 3)时的状态,请继续执行第 6)与第 7)步。这里是指进行倒回操作,即对另外一块 GPB板进行冷启动。7) 检查 mirror stat 来确保倒换被执行了。lhsh 000200 mirror state lhsh 000300 mirror state 等待打印结果:在进行下一步前确保 Peer Disk state 是 Connected 和 Valid。8) 倒换后进行必要的健康检查。 健康检查步骤如下:8.1) 检查 000200 和 000300 上的
10、RPU 状态,所有 RPU 的 opMode 都应该是ASCONF(As Configured)状态,即 RPU 按照缺省定义运行在相应的 core GPB板上,表示 load module 运行状态正常:PublicINSTRUCTION 5 (9)Prepared (Subject resp) No.CBC/PS/UApproved (Document resp) Checked Date Rev ReferenceCBC/PS/U 2012-07-23 PA1Amos 指令:inv!查看 GPB2 板的 RPU 状态!=Active Passive reliableProgramLabe
11、l LM Prod_Rev opMode switchOver norm replication Rpu MOid=1,2 1,3 act_aal0_dynamic_adm CXC1322211_R61CJ01 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 21,2 1,3 act_aal0_static_adm CXC1322210_R61FN02 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 31,2 1,3 act_aal1_static_adm CXC1323491_R61CA01 1:ASCONF 2:ATPIUREST 2:A
12、UTO 1:ALWAYS 61,2 1,3 act_aal5_dynamic_adm CXC1322209_R61HL01 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 141,2 1,3 act_aal5_static_adm CXC1322208_R61FN02 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 151,2 1,3 act_nsaal_adm CXC1321171_R61CG02 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 311,2 1,3 aet_aal2_mp CXC1320836_R6
13、1HL04 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 121,2 1,3 aet_atm_mp CXC1320839_R61HL08 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 201,2 1,3 aet_ds0mp CXC1323636_R61HL04 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 211,2 1,3 aet_equip_mp CXC1321520_R61FN05 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 221,2 1,3 aet_phy_m
14、p CXC1324169_R61HL02 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 351,2 1,3 ans_aal05ncc CXC1320978_R61DX01 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 1PublicINSTRUCTION 6 (9)Prepared (Subject resp) No.CBC/PS/UApproved (Document resp) Checked Date Rev ReferenceCBC/PS/U 2012-07-23 PA11,2 1,3 ans_aal1_cc CXC1323
15、506_R61CA01 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 41,2 1,3 ans_aal1_ncc CXC1323507_R61HL01 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 51,2 1,13 ans_aal2cpsrc_12 CXC1322418/12_R61HL01 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 171,2 1,13 ans_aal2distncc_12 CXC1322419/12_R61HL02 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:A
16、PPLCONT 91,2 1,3 ans_aal2nccadm_12 CXC1322420/12_R61HL03 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 131,2 1,3 ans_aalcrossconn CXC1320980_R61HL01 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 161,2 1,3 eah_fro CXC1324933/8_R30K01 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 10071,2 1,3 ipac_ipadm CXC1327943_R61HH03 1:A
17、SCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 251,2 1,3 ipcp_ipadm CXC1327846_R61HH09 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 261,2 1,3 licenseServer CXC1325792_R61HH06 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 291,2 1,3 msp_oam_eqh CXC1327784/8_R30T01 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 10521,2 1,3 msp_oam_im C
18、XC1327782/8_R30J01 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 10541,2 1,3 msp_oam_msf CXC1327783/8_R30T01 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 10531,2 1,3 nclishell CXC1720483_R61HH07 1:ASCONF 1:ATPIUFAULT 2:AUTO 2:NEVER NcliShell1,2 1,3 nss_mp CXC1321118/1_R61HH02 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APP
19、LCONT 321,2 1,3 oam_clib CXC1728278/8_R30G01 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT CLI_BrokerPublicINSTRUCTION 7 (9)Prepared (Subject resp) No.CBC/PS/UApproved (Document resp) Checked Date Rev ReferenceCBC/PS/U 2012-07-23 PA11,2 1,3 osa_inet CXC1321315_R61HH03 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCO
20、NT 241,2 1,3 osa_ospf CXC1321317_R61HH04 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 341,2 1,3 osa_secure_shell CXC1323911_R61HH08 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 391,2 1,3 osa_sw_installation CXC1321341_R61HH04 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 401,2 1,3 sa_mppxy_fro CXC1725745/8_R30S01 1
21、:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT sa_mppxy_fro_act_0102_pas_01031,2 1,3 scc_adm CXC1327798_R61HH14 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 361,2 1,3 scc_mtp2_adm CXC1323657_R61BE02 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 301,2 1,3 scc_mtp2_hsl_adm CXC1723007_R61HH01 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWA
22、YS Mtp2HslAdm1,2 1,3 sctp_adm CXC1325240/1_R61HH02 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS 371,2 1,3 spas_resource CXC1321408_R61HH03 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 381,2 1,3 target_monitor CXC1326054_R61HH02 1:ASCONF 2:ATPIUREST 2:AUTO 1:ALWAYS target_monitor!查看 GPB3 板的 RPU 状态!1,3 1,2 acsg_fr
23、o CXC1722797/8_R30U01 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT acsg_fro1,3 1,13 ans_aal2cpsrc_12 CXC1322418/12_R61HL01 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 181,3 1,13 ans_aal2distncc_12 CXC1322419/12_R61HL02 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 101,3 1,2 osa_http_server CXC1320783_R61HH02 1:ASC
24、ONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 23PublicINSTRUCTION 8 (9)Prepared (Subject resp) No.CBC/PS/UApproved (Document resp) Checked Date Rev ReferenceCBC/PS/U 2012-07-23 PA11,3 1,2 osa_ip_utilities CXC1322506_R61HH03 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 271,3 1,2 osa_jvm CXC1320784_R61HH08 1:ASCONF 1
25、:ATPIUFAULT 2:AUTO 4:APPLCONT 281,3 1,2 osa_object_support CXC1323464_R61HH10 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 331,3 1,2 pms_event_distr CXC1321344_R61HH02 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT Pms1,3 1,2 upcf_oam CXC1324928/8_R30S01 1:ASCONF 1:ATPIUFAULT 2:AUTO 4:APPLCONT 10058.2) 再次验证 act
26、ive core MP 的状态:AMOS 指令: get 0 coreget 0 core110602-22:10:27 OFFLINE_SZGM55 8.0t MGW_NODE_MODEL_B_15_106 stopfile=/tmp/9064=MO Attribute Value=ManagedElement=1 faultTolerantCoreStates s2 = ManagedElement=1,Equipment=1,Subrack=MAIN,Slot=2,PlugInUnit=1;Active ManagedElement=1,Equipment=1,Subrack=MAIN,
27、Slot=3,PlugInUnit=1;PassiveReady =上述打印中 Active 的 GPB 应该与 mirror stat 中 Active 的 GPB 一致。上述打印中 Passive 的 GPB 应该与 mirror stat 中 Passive 的 GPB 一致。8.3) 检查 MGW 的 active alarm打开 EMAS/NM,选择 Alarm List。检查倒换前后有无新增告警或产生跟 GPB 板相关的告警。如果存在新增告警,参考 ALEX 相应的 OPI 进行处理。PublicINSTRUCTION 9 (9)Prepared (Subject resp) No
28、.CBC/PS/UApproved (Document resp) Checked Date Rev ReferenceCBC/PS/U 2012-07-23 PA1确保没有 critical 级别或者是发生原因不明的告警。告警等级Critical 这类问题需要被立刻解决。Major 这类问题可以在正常的工作时间内修复。Minor 这类问题可以等到 MGW 定期维护的时候修复。Warming 这类告警等级表明,在任何重大影响发生之前,监测到有发生会影响服务的问题的可能性或者这种问题即将发生。8.4) 检查 MGW 的 Alarm log 以及 Event log打开 EMAS/NM,选择 Al
29、arm Log 或者 Event Log 或者 Alarm and Event Log,检查倒换前后有无新增告警或产生跟 GPB 板相关的告警、事件。通过右击一个alarm 或者 event,选择 Details,可以得到相关的具体信息。如果存在新增告警或事件,参考 ALEX 相应的 OPI 进行处理。2.2 对于 GMPV4.0 的实施步骤(软件版本 R5 或 R6):请参考 2.1 GMPV3.0 的实施步骤,只需把 core MP 从 GPB2:MAIN:2 和GPB3:MAIN:3 改成 MAIN:4 和 MAIN:24 即可。getAttrObj me 可用该指令获取版本 信息相应指令更改如下:GMPV3 GMPV4lhsh 000200 mirror stat lhsh 000400 mirror statlhsh 000300 mirror stat lhsh 002400 mirror stat