1、第 1 页 共 57 页IBM DS4000 快速维护手册V1.4IBM 全球服务(中国)有限公司第 2 页 共 57 页版本历史:1.1 增加了对 Degraded Drive Channels、Persistent reservations和 Monitor Performance问题的解释2006/11/281.2 增加了如何通过串口登陆微码在 06.16 以上的DS4200/4700/4800 的额外说明;增加了 DS4000 的扩展柜 EXP 的 ID 设置的重要说明增加了拔出未使用的光电转换模块 GBIC/SFP 的建议2007/04/151.3 增加了在微码 05.XX 上通过
2、SM 图形界面收集控制器串口日志的方法;增加了在微码 06.XX 上收集串口命令的命令列表;增加了实施 EXP 扩展柜或硬盘升级及迁移的警告信息;增加了定期保存 Profile 的建议;因为中文版文档往往更新不及时,因此不建议使用中文版服务文档,并删除了下载网站地址关于扩展柜 Drive Lost of Path Redundancy 故障的处理办法2007/05/161.4 详细说明了每一本 DS4000 官方服务文档的主要内容增加了如何在现场判断收集的 All support data 是否完整修改了控制器微码在 06.XX 版本下的微码升级顺序的建议增加了必须提前检查有没有由于不规范安装
3、而造成的隐患修改了“Logical Drive Not On Preferred Path”故障的处理办法增加了如何通过串口命令来解开逻辑磁盘锁修改了扩展柜和硬盘 Lost of Path Redundancy 故障的处理办法修改了多块硬盘 DDM 同时损坏的处理办法,不建议查看 MEL的故障顺序,必须以串口命令的输出为准。增加了如何通过串口升级 DS4000 的微码的方法增加了如何通过 SM 客户端软件只连接一个控制器去升级微码增加了对“Unreadable Sectors Detect”的解释增加了在微码 6 版本以下,硬盘故障后,热备盘替换失败以及Array 重建失败的处理办法。增加了如
4、何通过串口命令去 Online 另一个控制器增加了型号为 HUSxxxxxxFLF21 的 DDM 的微码隐患(JFQ3和 JFQ4 版本)的警告信息;增加了对于 型号为 MAX3036FD, MAX3073FD, MAX3147FD 的 DDM 的微码隐患的警告信息增加了“Diagnostic Data Capture” (DDC )故障的处理办法2007/08/28说明:本文档仅供参考,并不能取代 IBM 的以下官方文档。IBM DS4000 官方服务文档内容介绍:1 以下是两本 DS4000 的入门红皮书 Redbook,全面的介绍了 DS4000 系列的硬件结构,如何安装配置、管理和维
5、护DS4000 Series, Storage Manager, and Copy Services SG24-7010-04http:/ 1,2,3,4,5,6,12 章)DS4000 Best Practices and Performance Tuning Guide SG24-6363-02http:/ 3 页 共 57 页(重点在第 1,2,3,4,11 章)2 作为 IBM 工程师/BP 代理商/客户,任何 Service 都应首先参考 DS4000 的官方服务文档:1) 每一个型号的 DS4000,都有一本最新版的 Installation,Users and Maintenan
6、ce Guide。这本服务文档包含了以下重要内容:a 物理安装的步骤b 详细的连线指南(包括主机端的连线图和内部磁盘柜的标准连线图)c 如何查看和理解所有状态灯(LED)的含义d 硬件物理更换的具体步骤e 备件号列表(Parts List)2) IBM System Storage DS4000 Storage Manager Version 9.23 Concepts Guide 这本服务文档(GC26-7734-04)包含了以下重要内容:a 客户端管理程序 Storage Manager 的相关概念b 客户端管理程序 Storage Manager 界面的介绍以及图标解释c 如何使用客户端
7、管理程序 Storage Manager 监控 DS4000 系统的状态d Major Event Log 里面的相应 Event 编号的具体解释和解决办法3) IBM System Storage DS4000 Storage Manager Version 9 Installation and Support Guide for AIX, HP-UX, Solaris, and Linux on POWER这本服务文档(GC26-7848-03)包含了在 AIX 环境下使用 DS4000 的以下重要内容:a AIX 环境下的限制要求b 如何使用“fget_config -Av”命令来检查
8、dar 的配置是否正确c “dar”和“dac”设备的各项属性的解释d 在 AIX 环境下在线更换热插拔的主机光纤卡(HBA )的步骤e AIX 的 Error Log 里面报告的 “FCP_ARRAY_ERR”的具体解释f DS4000 Diagnostic Data Collection(DDC) Event 的详细解释和处理办法4) IBM System Storage DS4000 Storage Manager Version 9 Installation and Support Guide for Windows 2000/Server 2003, NetWare, ESX Ser
9、ver, and Linux这本服务文档(GC26-7847-03)包含了在 Windows/Linux 环境下使用 DS4000 的重要内容。5) IBM System Storage DS4000 Hard Drive and Storage Expansion Enclosure Installation and Migration Guide这本服务文档(GC26-7849-02)包含了 DS4000 系列的 EXP 扩展柜和硬盘的升级和迁移的重要注意事项。下载地址:IBM System Storage Support 门户网站(下载官方服务文档和微码)http:/ Publicati
10、ons Center IBM 出版物中心(IBM 内部网站,需要 Intranet Password,以“DS4000 ”为关键字搜索,或者以具体型号为关键字搜索,例如“DS4700”)http:/ IBM 内部使用,不能提供给客户或者代理商第 4 页 共 57 页目 录版本历史: 2IBM DS4000 官方服务文档内容介绍: .2目 录 4一、DS4000 系列的命名更新 .5二、如何观察 DS4000各个部件的指示灯? 5三、DS4000 的开关机步骤 .5四、如何在 Storage Manager客户端管理软件里面添加 DS4000子系统 6五、如何通过串口线连接 DS4000的控制器
11、 10六、如何使用 Storage Manager客户端管理软件查看 DS4000的状态 12七、微码在 05.xx.xx.xx 或以下的 DS4000的故障数据收集 .17八、微码在 06.xx.xx.xx 以上的 DS4000的故障数据收集 .22九、DS4000 故障数据的格式和上传方法 .26十、如何升级 DS4000系列的微码 27十一、常见故障处理和注意事项 391因为 DS4000 系列都是由代理商安装的,因此我们必须在所有维护之前,提前检查有没有由于不规范安装而造成的隐患。 392“Recovery Guru”按钮报“ Logical Drive Not On Preferre
12、d Path” 403Degraded Drive Channels 414如何处理 DS4000 的逻辑磁盘锁 Persistent reservations425如何进行性能监控 456注意 DS4000 的扩展柜 EXP 的 ID 设置(同一个冗余环路内部的 ID 个位数字必须唯一)467拔除 DS4000 系统中所有未使用(没有光纤连接)的光电转换模块 GBIC/SFP。 478特别注意:不规范的实施 DS4000 系统 EXP 扩展柜和物理硬盘的升级和迁移,可能会造成客户数据丢失! 479注意定期保存 DS4000 系统的 Profile 或 All Support Data .48
13、10关于扩展柜 Drive Lost of Path Redundancy 故障的处理办法 4911如何使用超级终端程序通过串口升级 DS4000 系列的 Firmware 和 NVSRAM.5012如何通过 SM 客户端软件只连接一个控制器去升级微码(只限于所有硬盘都认不到的DS4800 新装机环境) .5113多个硬盘“同时”损坏故障的处理办法 5214如何在一个控制器上面通过串口 Online 另外另一个控制器 .5315如何理解“Unreadable Sectors Detect” .5316注意对于 型号为 HUSxxxxxxFLF21 的 DDM 的微码隐患(JFQ3 和 JFQ4
14、 版本)! 5517 注意对于 型号为 MAX3036FD, MAX3073FD, MAX3147FD 的 DDM 的微码隐患第 5 页 共 57 页(S707 版本)! 5518如何处理“Diagnostic Data Capture ”(DDC )问题 56一、DS4000 系列的命名更新DS4000 系列原本叫 FAStT 系列,IBM 在 2004 年将其更名成 DS4000 系列。 新旧名称对应关系如下:旧的 FAStT200 和 FAStT500 因为在更名时已经停产,所以没有重命名;新的 DS4200、DS4700 、DS4800 因为是在更名之后才推出市场的,因此没有所对应的F
15、AStT 型号;二、如何观察 DS4000各个部件的指示灯?DS4000 系列中不同的产品型号,状态灯和故障灯的位置都不同。请参阅对应型号的Installation, Users and Maintenance Guide(安装、用户与维护指南)的“Operating the storage subsystem”章的“Checking the LEDs”节。第 6 页 共 57 页三、DS4000 的开关机步骤DS4000系列不需要运行命令进行开关机,只须控制 2个电源模块的电源开关就可以了。注意整个主机和存储环境的开关机顺序如下:开机:SAN 光纤交换机(如果有的话) DS4000 的 EX
16、P 磁盘扩展柜(如果有的话)DS4000 的控制器 主机关机:主机 DS4000 的控制器 DS4000 的 EXP 磁盘扩展柜(如果有的话) SAN 光纤交换机(如果有的话)不正确的开关机顺序可能会导致部分扩展柜以及硬盘在 SM 客户端软件中不可见。如果出现这种情况,一般的处理办法是先按照正确的开关机顺序重启一次 DS4000 的控制器和扩展柜。如果还不能解决,就需要联系 CAG 和 TSG(PMH)寻求帮助。四、如何在 Storage Manager客户端管理软件里面添加 DS4000子系统DS4000 的管理方式有 2 种,In-band (频带内)管理方式和 Out-of-band(频
17、带外)管理方式。这里主要介绍 Out-of-band(频带外)管理方式。Out-of-band(频带外)管理方式就是安装有 Storage Manager 客户端软件的工作站通过以太网,同时连接到 DS4000 的两个控制器进行管理的方式。示意图如下:注意:如果一台 DS4000 的控制器不能搜索到任何物理硬盘,例如没有安装任何物理硬盘,第 7 页 共 57 页或者控制器和磁盘扩展柜之间的光纤链路不通,那么对于这台 DS4000,无论是自动搜索还是手动添加方式,都会搜索到 2 个 DS4000 子系统。每个子系统只对应一个控制器(一个IP 地址) ,而不是对应两个控制器的一个子系统。连接方式如
18、下:1. 将装有 Storage Manager Client 客户端软件的工作站(客户提供的 PC 或是工程师的笔记本电脑)通过以太网 Hub 或 Switch,同时连接到 DS4000 的两个控制器。2. 打开 Storage Manager Client 客户端软件(简称 SM) ,添加需要管理的 DS4000 子系统。有 2 种方式:Auto Discover(自动搜索)和 Manual Add(手动添加)如果选择 Manual Add(手动添加) ,可以同时输入两个控制器的 IP 地址:第 8 页 共 57 页添加成功后出现以下画面:3. 在微码版本 05.xx.xx.xx 以上,D
19、S4000 控制器有一个出厂默认的 IP 地址:控制器 A:192.168.128.101控制器 B:192.168.128.102对于新的型号 DS4200、DS4700 和 DS4800,每个控制器提供了一个额外的以太网管理接口,默认的 IP 地址是:控制器 A:192.168.129.101控制器 B:192.168.129.1024. 在 SM 软件的企业主管理界面,可以看到所有已经添加的 DS4000 子系统。Status 为绿色向上箭头“Optimal”的,表明整台 DS4000 的状态正常; Status 为红色向下箭头“Needs Attention”的,表明 DS4000 有
20、故障报告,需要进一步检查。第 9 页 共 57 页5. 添加完毕之后,双击相应的 DS4000 图标,进入 DS4000 子系统管理界面注意:强烈建议装有 Storage Manager客户端管理软件的 PC(工程师笔记本或者客户工作站)通过以太网 Hub 或 Switch 同时连接 DS4000 的两个控制器进行管理和监控。原因如下:1) 对于微码在 06.xx.xx.xx以上的 DS4000,同时连接 DS4000的两个控制器,All Support Data日志里面才能获得两个控制器的串口命令输出。如果是单连一个控制器的话,All Support Data日志里面只能获得当前连接的控制器
21、的串口命令输出。2) 对于绝大部分管理操作,只连接一个控制器的时候都不能运行。因为两个控制器的配置信息必须同步,这个同步过程是通过以太网实现的。如果 SM 软件只连接一个控制器,只能进行以下信息查看和日志收集的操作:1) 查看系统故障检测按钮“Recover Guru”2) 查看和收集 Storage Subsystem Profile 和 Major Event Log 和 Read Link Status Diagnostics Report(RLS report)第 10 页 共 57 页五、如何通过串口线连接 DS4000的控制器DS4000 的每个控制器上面有一个 9 针串口,可以连
22、接进入命令行状态。有以下用途:a. 查看和修改控制器的 IP地址b. 运行一系列底层命令进行故障数据的收集注意:FAStT200 控制器的串口是特有的 RJ-11(类似电话线接口)类型,因此 FAStT200出厂标配了一条 9针串口转 RJ-11接口的接转线作为附件一起送给客户。如果这条接转线已经丢失,可以从备件库订一条临时使用,FRU 号是 19K1179。DS4700串口是特有的类似键盘鼠标接口的类型,因此出厂也标配了一条特有的串口接转线,如果这条接转线已经丢失,可以从备件库订一条临时使用,其 FRU号是 39M5942。如下图:1. DS4000 系列使用的 9 针对 9 针串口线和连接
23、 P-Series 小型机以及 ESS 的串口线相同,连线方式如下:(但是和连接 Brocade光纤交换机(IBM M/T: 2109/2005)的串口线不同)2. PC 串口的设置如下波特率:57600 或 38400(较低的波特率会大大延长串口命令收集的时间,因此一般推荐57600)数据位:8奇偶校验:无停止位:1第 11 页 共 57 页数据流控制:Xon / Xoff3. 使用超级终端进行连接,输入回车,然后 Ctrl+Break(有时需要多按几次),屏幕会出现设置波特率的提示:Send for shell access or baud rate changeSet baud rate
24、: press within 5 seconds按空格 Space设定波特率,屏幕会出现波特率已经设置成功的提示:Baud rate set to 57600这时,再次输入 Ctrl+Break,屏幕上会出现要求在 5秒内按“ESC”键的提示:Press within 5 seconds: for SHELL, for baud rate这时按“ESC”键,屏幕上会出现登陆画面,并要求输入密码(不需要输入用户名):Enter password to access shell:默认密码是“infiniti”输入了默认密码之后,就进入了命令行界面。-注意:有时输入 Ctrl+Break之后,超级终
25、端屏幕会出现乱码,这时可以重试几次,或者尝试重启超级终端;对于比较老的 FAStT200/FAStT500,失败后可以尝试较低的波特率;此外,质量比较差的 USB-串口转换线和 9针-9 针串口线也是不能登陆的主要原因之一。现在在 IBM备件库,已经储备了一个串口 PCMCIA卡,这个备件提供了一个本地的物理串口(非虚拟),其 FRU号是 39X8939。对于微码在 06.16以上的 DS4000,按 Ctrl+Break后屏幕会出现以下提示:Press within 5 seconds: for Service Interface, for baud rate这时不要按,还是和以前一样按“E
26、SC”键,屏幕是就会出现提示输入密码的登陆画面:Enter password to access shell: 输入同样的密码“infiniti”,就可以进入命令行界面了。4. 串口登陆进命令行界面之后,可以运行“netCfgShow”查看当前控制器的 IP 地址:- netCfgShow= NETWORK CONFIGURATION =Interface Name : gei0My MAC Address : 00:a0:b8:13:78:15My Host Name : targetMy IP Address : 192.168.128.102Server Host Name : host
27、Server IP Address : 0.0.0.0Gateway IP Address : 0.0.0.0Subnet Mask : 255.255.255.0Network Init Flags : 0x00Network Mgmt Timeout : 30Shell Password : *User Name : guestUser Password : *NFS Root Path : (null)NFS Group ID Number : 0第 12 页 共 57 页NFS User ID Number : 0value = 27 = 0x1b运行“netCfgSet”,可以修改当
28、前控制器的 IP地址,需要设置的参数:(其他参数按回车选择默认值或为空即可)My IP Address:当前控制器需要设置的 IP地址Gateway IP Address:如果客户需要在不同的网段的 PC上安装 SM客户端软件管理DS4000,才需要设置网关地址,否则留空即可。Subnet Mask:子网掩码Network Init Flags:IP 获得方式,默认是 0x00(DHCP),建议改为 0x01(固定 IP)注意:1) 如果要更改 IP地址,两个控制器上都要运行“netCfgSet”命令2) 在微码 05.xx.xx.xx以上,“netCfgSet”命令修改 IP地址后马上生效,
29、不需要重启控制器,微码 04.xx.xx.xx以下需要重启。3) 强烈建议将“Network Init Flags”IP 获得方式设置成“0x01”(使用固定 IP方式)六、如何使用 Storage Manager客户端管理软件查看 DS4000的状态Storage Manager 客户端管理软件有两个界面:企业主管理界面(Enterprise Management)和子系统管理界面(Subsystem Management) 。企业主管理界面显示所有已添加的 DS4000子系统以及他们的总体状态和控制器的 IP 地址;每个子系统管理界面对应一台 DS4000 子系统,可以完成对这台 DS40
30、00 的所有管理和设置的操作。注意:我们要求安装最新版本的 Storage Manager 客户端管理软件,因为 SM 软件和DS4000 控制器的微码有对应关系。低版本的 SM 软件不能管理高版本微码的 DS4000,或者在实施操作时出错。高版本的 SM 软件可以管理低版本微码的 DS4000(最新的 SM 软件版本是 09.19.G5.06,可以管理微码在 04.01.xx.xx 以上的所有 FAStT/DS4000) 。在用高版本的 SM 软件管理低版本微码的 DS4000 的时候,虽然企业主管理界面显示的版本是正确的当前最新版本号,但是子系统管理界面在打开后显示的版本会比较低。这是因为
31、子系统管理界面的版本是由控制器的微码所决定的。1 SM 客户端管理软件的子系统管理界面的版本和 DS4000 微码版本的对应关系如下:1) 对于微码版本在 04.01.xx.xx 的 FAStT200 或 500,子系统管理界面的版本是 07.10.xx.xx2) 对于微码版本在 05.xx.xx.xx 的 DS4000,子系统管理界面的版本是 08.xx.xx.xx3) 对于微码版本在 06.xx.xx.xx 的 DS4000,子系统管理界面的版本是 09.xx.xx.xx2 打开 SM 客户端管理软件的子系统管理界面,界面如下图:第 13 页 共 57 页如上图,发生故障的部件都会被标记出
32、来,一般是红色的交叉。图例如下:损坏的物理硬盘(该物理硬盘是ARRAY的成员盘):正常工作的物理硬盘(该物理硬盘是ARRAY的成员盘):正常工作的热备物理硬盘(Hot Spare):正常的空余物理硬盘(未添加到任何ARRAY里面):损坏的空余物理硬盘(未添加到任何ARRAY里面):黄黑相间的菱形,代表几种可能的状态,分别是:“By-passed(不能识别)”,“Impending Failure(预期故障但当前可用)”,“Lost Redundancy Path(丢失冗余路径)”,等等。:ARRAY阵列处于“Degraded”状态(多数是因为成员硬盘损坏):逻辑盘处于“Rebuild”的状态(
33、多数是因为硬盘已经更换完毕,新硬盘正在替换过程中;或者未更换硬盘,但是热备盘正在替换过程中)3 使用“Recovery Guru” 故障检测按钮检查 DS4000子系统的整体状态注意:DS4000 的任何部件发生故障都会使菜单下面的一个“Recovery Guru”(“听诊器 ”)的故障检测按钮闪烁。因此,我们要求在打开子系统管理界面之后,首先就应该去点击这个按钮,以查看 DS4000 的整体状态。第 14 页 共 57 页点击这个按钮可以进入 Recovery Guru界面。正常的状态显示如下:故障的显示如下:窗口的上面的部分是错误的概述和详情,下面是故障的可能原因和相应的解决方法提示,应该
34、仔细查看。4 查看控制器和扩展柜的硬件状态点击物理硬盘右侧的状态检查按钮 ,可以打开查看具体部件的硬件工作状态,如下图:第 15 页 共 57 页正常的状态必须是“Optimal”5 如何查看控制器的微码版本控制器的微码包括 Firmware 和 NVSRAM 两部分。微码在 05.xx.xx.xx 的: 选择“View”菜单下面的“Storage Subsystem Profile”可以看到 Firmware 和 NVSRAM 的版本第 16 页 共 57 页微码在 06.xx.xx.xx 的: 选择“Storage Subsystem Menu”“View”“Profile”点击“Cont
35、roller”页面,可以看到控制器的微码:第 17 页 共 57 页点击“Drives”页面,可以看到物理硬盘的型号和微码版本,点击 “Enclosures”页面,可以看到磁盘扩展柜的 ESM 的微码版本。注意:通过串口登陆到控制器的命令行界面,运行“moduleList”命令也会显示当前控制器的微码版本(只有 Firmware 版本,没有 NVSRAM)七、微码在 05.xx.xx.xx 或以下的 DS4000的故障数据收集适应机型:FAStT200/FAStT500/一部分旧的 FAStT100(DS4100)、FAStT600(DS4300)、FAStT700(DS4400)、FAStT
36、900(DS4500)在这个版本的微码之下,SM 子系统界面的版本是 08.xx.xx.xx。需要单独收集日志文件: Storage Subsystem Profile、 Major Event Log 和 Read Link Status Diagnostics Report(RLS report)和两个控制器的串口日志( Shell output) ,以及通过SM 图形界面收集的控制器串口日志1 收集 Storage Subsystem Profile选择“View”菜单下面的“Storage Subsystem Profile”,选择“Save As”, 将 Profile 保存下来,默
37、认格式是 txt 文本。如果是一台 FAStT200,序列号为 23A8888,建议文件名为 第 18 页 共 57 页FAStT200_Profile_23A1888_yymmdd.profile.txt。2 收集 Major Event Log选择选择“View” 菜单下面的“Event Log” ,或者直接点击子系统界面里的 按钮:注意:a.在收集 Major Event Log 的时候,一定要取消默认的“Critical Event Only“的选项勾,确保能收集到所有 event。b.一定要设定足够多的行数收集,建议将“Retrieve most recent events”设为最大
38、值的“8192”,并按 Update 刷新。因为默认是只显示 100 行 event 记录。c.最后点击“Select All” ,然后“Save As”保存第 19 页 共 57 页默认格式是文本(*.log),如果是一台 FAStT200,序列号为 23A8888,建议文件名为 FAStT200_Profile_23A1888_yymmdd.mel.txt。3 收集 Read Link Status Diagnostics Report(RLS report) 链路信号噪音检测报告FAStT/DS4000 系列的一个技术特点是采取了 FC_AL 的光纤仲裁环路结构。也就是说,控制器,磁盘扩
39、展柜都是串行连接在光纤链路上的。这种结构有一个缺点,就是环路上某个硬件的故障,会引起噪音信号,从而有可能影响链路上其他的硬件的正常工作。另一方面,这种噪音故障很难进行准确定位。因此 SM 软件提供了一个测试程序 Read Link Status Diagnostics 检测链路上的信号噪音,用来协助故障定位。关于 RLS 的具体用法和解释,参见 Redbook“DS4000 Series, Storage Manager, and Copy Services”的第 6.2.5 节:“Read Link Status diagnostics” 。在 Subsystem Management 中,
40、选择 Storage Subsystem Read Link Status Diagnostics:第 20 页 共 57 页对于 RLS report, 因为初始的 report 可能累计了不少链路噪音数值,所以建议先点击“Set Baseline.“重置采样开始时间,将所有噪音数值清零,然后点击“Run“开始重新监测。我们建议等待 15 分钟至 1 个小时,然后点击“Save As“保存报告。默认的报告文件类型是 Excel格式(CSV ) 。一般查看噪音信号“ITW”值。正常情况下,噪音值应该很小,在 0 到 20之间4 强制要求分别收集 DS4000两个控制器的串口日志经验表明, 对于
41、微码在05.xx.xx.xx或以下的DS4000,上述三个日志文件并不能完全对故障进行全面分析,因此我们还需要使用串口线分别连接两个控制器,获得底层的串口日志。(开PMH必须收集)收集方法:通过“超级终端”进行连接,然后使用“捕获文字”的功能将屏幕输出收集到日志文件里。具体的日志收集命令如下(两个控制器都必须进行收集):ld Capture State Information默认格式是文本(*.dmp 文件) ,必须将收集到的文本文件重命名成*.ss.txt。注意:1. 装有 Storage Manager客户端管理软件的 PC(工程师笔记本或者客户工作站)必须通过以太网 Hub 或 Swit
42、ch 同时连接 DS4000 的两个控制器2. 该方法收集的串口命令比较少,不能完全代替通过串口收集命令输出的方法。第 22 页 共 57 页八、微码在 06.xx.xx.xx 以上的 DS4000的故障数据收集适应机型:DS4100/DS4200/DS4300/DS4400/DS4500/DS4700/DS4800:在这个版本的微码之下,SM 子系统界面的版本是 09.xx.xx.xx。1 强制要求收集 All Support Data 菜单:AdvancedTroubleshootingCollect All Support Data . 第 23 页 共 57 页这个操作会生成一个zip
43、文件,可以随意命名。收集All Support Data大概需要10-15分钟左右。这个文件已经包含了Profile、Major Event Log、Read Link Status Diagnostics Report以及其他一些日志。 All Support Data的zip文件同时包括了重要的串口日志文本文件“stateCaptureData.dmp“stateCaptureData.dmp“文件实际上就是一系列串口命令的输出集合,但是它是通过以太网方式获得的。注意: 一定要让装有Storage Manager客户端管理软件的PC(工程师笔记本或者客户工作站)同时连接DS4000的两个控
44、制器,才能获得两个控制器的串口命令输出。如果是单连一个控制器的话,只能“stateCaptureData.dmp“文件只能获得当前连接控制器的串口命令输出。可以直接将随意命名的zip文件上传,例如 WH_MOR_allsupportdata.zip,PFE website 会自动解压并decode,非常方便。如何在现场判断收集的All support data 是否完整:将收集到的all support data的zip文件解开,查看其中的“stateCaptureData.dmp“文件(是文本文件),确认里面所有的串口命令,都能在两个控制器正常执行并得到结果。如果只是连接一个控制器,例如控制
45、器A,那么所有在控制器B上执行的串口命令都会有以下失败返回,以“moduleList”命令为例:moduleList on controller B:moduleList fails!devmgr.v0912api03.sam.jal.ManagementOperationFailedException: ManagementOperationFailedExceptionError 1011 - A management connection to the controller in slot B must be defined to complete this operation.第 24
46、 页 共 57 页If you are managing this controller directly through the Ethernet (out-of-band), you must define its management connection (IP address or host name) using the EditAdd Storage Subsystem option in the Enterprise Management Window.If you are managing this controller through a host agent (in-ba
47、nd), verify that all physical paths to the controller are connected and operational. Then, perform the following steps:(1) run the hot_add utility on the affected host, (2) select the host in the Enterprise Management Window, (3) select the ToolsRescan option如果失败,请确认装有Storage Manager客户端管理软件的PC(工程师笔记
48、本或者客户工作站)同时连接DS4000的两个控制器,并确认2个控制器可以在SM里面添加到一起,作为一个Subsystem进行管理。必要时将两个控制器的信息在SM里面删除,重新添加一次对于一般的故障问题分析,All Support Data就足够了。这是首选的故障信息收集方式。2 如果 SM 客户端当前不可用或者无法对某个控制器进行管理,那么可以通过串口收集以下命令输出(两个控制器都要收集)loadDebugmoduleList arrayPrintSummarynetCfgShowinetstatShow cfgUnitListvdAll vdShowghsListprintBatteryAgecfgPhyListspmShowMapsspmShowgetObjectGraph_MT 1getObjectGraph_MT 4getObjectGraph_MT 8ccmStateAnalyze 8fcDevs 1ifc 111hdd 5 fcAllsocShowshowEnclosuresshowEnclosuresPage81unld “Debug“