1、Exadata1.1 Exadata应急预案1.1.1 Exadata系统概述“新一代”系统部署 1 套 Exadata,为 ODS 系统提供数据支撑服务,通过Exadata 数据库云平台一体机实现了数据的存储、加工、查询/ 展现、向其他系统供数等功能。1.1.2 Exadata应急处理人员姓名 职责 联系方式 邮箱1.1.3 故障场景一1.1.3.1 场景描述Exadata 一体机数据服务器(DB server)某一硬盘出现故障。1.1.3.2 处理步骤由于 Exadata 一体机本身有 Raid 保护功能,所以,在不停机的状态下,可以对硬盘直接进行更换。不需要停机操作。1) 通过 raid
2、 命令检查磁盘状态信息/opt/MegaRAID/MegaCli/MegaCli64 -AdpAllInfo -aALL | grep “Device Present“ -A 82) 通过机器的 iLom 端口对数据服务器故障进行进一步的诊断,确定故障驱动器的位置。3) 将信息收集完毕后,登陆 提交 Exadata 一体机的服务申请,请求对 Exadata 一体机提供维修服务。4) Oracle 支持人员将根据相关信息,对故障硬盘进行更换。1.1.3.3 结果检查1) 更换完毕后,下面的命令检查更换后的硬盘状态是否正常。/opt/MegaRAID/MegaCli/MegaCli64 -Adp
3、AllInfo -aALL | grep “Device Present“ -A 82) 通过下面的命令,检查数据设备同步情况/opt/MegaRAID/MegaCli/MegaCli64 -pdrbld -showprog -physdrv disk_enclosure:slot_number -a01.1.4 故障场景二1.1.4.1 场景描述Exadata 一体机, PUD 或 InfiniBand 交换机某一个故障1.1.4.2 处理步骤由于设备采用双冗余结构,单个的 PDU 或者 InfiniBand 交换机出现故障时,不会影响到 Exadata 一体机运行。1) 对通过使用 EM
4、13C 软件对 Exadata 进行监控,如果,出现 PDU 或InfiniBand 交换机告警时,进行故障信息收集。2) 将信息收集完毕后,登陆 提交 Exadata 一体机的服务申请,请求对 Exadata 一体机提供维修服务。3) Oracle 支持人员会根据故障情况,对故障 PDU 或者 InfiniBand 交换机进行设备配置或者更换。1.1.4.3 结果检查1) 对通过使用 EM 13C 软件对 Exadata 进行检查,故障处理完毕后, PDU或 InfiniBand 交换机告警将自动消除。1.1.5 故障场景三1.1.5.1 场景描述Exadata 一体机存储服务器(Cell
5、 Server )某一硬盘出现故障。1.1.5.2 处理步骤1) 通过使用 EM 13C 软件对 Exadata 进行监控,发现 Exadata 存储服务器(Cell Server)故障告警后,通过下面的命令检查硬盘故障情况CellCLI LIST PHYSICALDISK WHERE diskType=HardDisk AND status=failed DETAILname: 28:5deviceId: 21diskType: HardDiskenclosureDeviceId: 28errMediaCount: 0errOtherCount: 0foreignState: falselu
6、ns: 0_5makeModel: “SEAGATE ST360057SSUN600G“physicalFirmware: 0705physicalInterface: sasphysicalSerial: A01BC2physicalSize: 558.9109999993816GslotNumber: 5status: failed2) 到故障服务器前,找到出现故障的硬盘的位置。从库房中取出硬盘备用件,准备对故障硬盘进行更换。3) 将故障硬盘拔出,等待几分钟后,将新硬盘插入对应的槽位中。4) 通过下面的命令进行检查,确认硬盘状态处于 Normal 状态。CellCLI LIST PHYSI
7、CALDISK WHERE name=enclosureDeviceId:slotNumber ATTRIBUTES status1.1.5.3 结果检查1) 服务器硬盘告警消除,EM13C 监控软件故障消除2) 通过相关命令检查,确认硬盘状态处于 Normal 状态。1.1.6 故障场景四1.1.6.1 场景描述Exadata 一体机存储服务器(Cell Server )某一闪存卡出现故障。1.1.6.2 处理步骤1) 通过使用 EM 13C 软件对 Exadata 进行监控,发现 Exadata 存储服务器(Cell Server)故障告警后,通过下面的命令检查硬盘故障情况CellCLI
8、LIST PHYSICALDISK WHERE diskType=flashdisk AND status=failed DETAIL2) 使所有 grid 磁盘在非活跃状态CELLCLI Alter GRIDDISK ALL INACTIVE3) 验证所有 grid 磁盘在非活跃状态CELLCLI LIST GRIDDISK WHERE STATUS !=inactive4) 停止 Cell 服务CellCLI ALTER CELL SHUTDOWN SERVICES ALL5) 关闭故障的存储服务器6) 从库房中取出闪存卡备用件,准备对故障闪存卡进行更换。7) 更换完毕后,重新启动 Exa
9、data 存储服务器(Cell Server )8) 使所有 grid 磁盘在活跃状态CELLCLI ALTER GRIDDISK ALL ACTIVE9) 验证所有 grid 磁盘在活跃状态CELLCLI LIST GRIDDISK ATTRIBUTES name , asmmodestatus10) 重新启动后,新的 Flash 卡会被系统自动识别并使用。1.1.6.3 结果检查1) 服务器硬盘告警消除,EM13C 监控软件故障消除1.1.7 故障场景四1.1.7.1 场景描述Exadata 一体机数据库查询/更新异常,出现查询/更新速度慢,卡顿等情况。1.1.7.2 处理步骤1) 通过 EM13C 软件监控 Exadata Exadata 运行情况,发现数据运行瓶颈2) 收集 AWR 报告,交给 Oracle ACS 组进行分析,并快速排除故障。1.1.7.3 结果检查1) Exadata 一体机查询/更新恢复正常。