系统故障分析和排除.ppt-道客多多

资源描述

1、Sun系统及硬件维护,培训内容,OpenBoot 的使用系统故障分析和排除,OpenBoot的使用,内容,OpenBoot概述启动并测试系统设置环境变量 Emergency Procedure 建立TIP连接,什么是OpenBoot?,IEEE的Boot Firmware标准 1275-1994 独立于处理器设计开机后立即执行可升级,OpenBoot的基本任务,测试和初始化系统硬件确定硬件配置从网络或磁盘设备引导操作系统提供交互式的软硬件调试工具,设备树,设备通过总线连接在计算机主机上 OpenBoot 把总线和通过总线互连的设备表示成设备树上的节点,设备路径、地址和参数,每个

2、设备有唯一的名字，代表设备种类和设备在系统地址结构中的位置全路径设备名（物理设备名）是用“/”分割的一系列节点名设备树的根及机器本身，表现为“/” 每个节点名的形式：driver-nameunit-address: device-argumentseg: sd6,0:a,设备树、地址和参数,driver-name包含1-31位字母或数字，区分大小写。符号放在地址信息之前le lance ethernetsd scsi disk，cdromst scsi tape,设备路径、地址和参数,unit-address一个字符串，代表其在父节点设备的地址空间中的物理位置。字符串的格式与总线有关。 d

3、evice-arguments一个字符串，其格式与具体的设备有关。它可以用来给设备的软件传递更进一步的信息。,设备路径、地址和参数,Example: /sbus1f,0/esp0,4000/sd3,0:a Sbus&SUNW,fas&sd为driver-name 1f,0代表主系统总线上的一个地址，因为在这个例子中sbus直接与主系统总线相连 0,4000 Sbus插槽号(0)和一个偏移量(4000),因为esp设备在Sbus 0 号插槽的卡上的地址偏移量为4000 3,0是SCSI设备号和逻辑单元号，因为磁盘连在SCSI总线上的设备号为3，逻辑单元号为0,浏览设备树的命令,show-devs

4、 .properties （查看设备特性） cd / cd device-name pwd words （查看本节点的访问方法） see wordname,设备别名,A shorthand representation of a device path Example: /sbus1f,0/esp0,4000/sd3,0:a devalias commanddevaliasdevalias aliasdevalias alias device-pathnvalias alias device-pathnvunalias alias,Getting Help,Help commandhelp l

5、ist main help categorieshelp categories show help for all commands in the category. Use only the first word of the category description. Help is available only for commands that are used frequency.,使用一些OpenBoot命令时要注意,操作系统开始运行后，OpenBoot运行有可能不正确解决办法1、用printenv 查看auto-boot?的值。如果为true，用setenv 把它设置成fals

6、e2、用reset复位系统3、当系统停在ok状态下时，执行用户命令4、用setenv把auto-boot?重新设置成true5、Reset the system,引导和测试系统,经常用OpenBoot命令做的工作引导系统运行系统自检显示系统信息复位系统,引导系统,引导参数auto-boot? boot-commanddiag-switch? boot-deviceboot-file diag-devicediag -file Boot processauto-boot? = true/false Boot Commandok boot device-specifierarguments

7、,Boot命令的可选参数,device-specifiercdromdisknet arguments如果没给出arguments并且diag-switch?为false,boot过程使用 boot-file作为arguments ;如果没给出arguments并且diag-switch?为true,boot过程使用 diag-file作为arguments ;取值：- v a r s.,诊断测试命令,Probe-scsiIdentify devices attached to a SCSI bus Test device-specifierExecute the specified devi

8、ces selftest methordEx: test net test the network connection Watch-clockTest a clock function Watch-netMonitor a network connection Not all of these tests are available in all OpenBoot implementation.,显示和修改参数设置,prinetenvDisplay current variables and current default values prinetenv variableshows the

9、 current value of the named valiable setenv variable valuseset variable to the given decimal or text value ( changes are permanent, but often take effect only after a reset ),显示和修改参数设置,Set-default variablereset the value of variable of the factory default Set-defaultsreset variable values to the fac

10、tory default Passwdset security-password 操作系统命令# eeprom variable = value# eeprom “variable = value”,Setting security valiables,security-modefull all commands except for go require the passwdcommand all commands except for boot and go require the passwdnone no password require ( default ) security-pa

11、ssword security-#badlogins保存错误输入口令的次数,Using nvramrc,Its contents are called the script Store user-defined commands executed during start-updevice driver to save start-up variables;define installation-specific device configuration and device aliases Commands are stored in ASCII, just as the user woul

12、d type them at the console相关参数和命令：use-nvramrc?nvedit nvstore nvquit nvrun 等,Using nvramrc,Exampleok nvedit 0: : hello ( - ) 1: .“ Hello, world. ” cr 2: ; 3: C ok nvstore ok setenv use-nvramrc? True ok reset-allok hello Hello, world. ok,Emergency Procedures,Stop跳过POST（只适用于设成诊断模式时）。This command does n

13、ot depend on the security-mode. Stop-A退回到监控状态的缺省提示符ok Stop-D进入诊断模式（set diag-switch? to true) Stop-F在监控probe设备之前进入OpenBoot monitor. (useful if hardware is broken) Stop-N把NVRAM的内容设为缺省值,建立TIP连接,Connect the Sun workstation TTYB serial port to your SPARC system TTYA serial port using a serial connection

14、cable. At the Sun workstation, edit the following lines to the /etc/remote filehardwire:dv=/dev/term/b:br#9600:el=CSQUD:ie=%$:oe=D: In the Shell Tool window on the Sun workstation, type:hostname% tip hardwireconnected # in the TIP window is enquivalent to pressing Stop-A,系统故障分析和排除,监视系统资源,CPU vmstat,

15、 mpstat Memory vmstat Disk iostat Network netstat Other command sar, nfsstat, swap, prtconf, prtdiag, pkginfo, showrev(patchadd),用mpstat监视CPU,mpstat以表格形式报告每一个CPU的统计数据example # mpstat 30CPU minf mjf xcal intr ithr csw icsw migr smtx srw syscl usr sys wt idl0 5 0 0 414 314 91 7 0 0 0 202 0 2 0 970 5 0

16、 0 441 341 147 8 0 0 0 299 0 2 0 970 1 0 0 433 333 124 8 0 0 0 264 0 3 0 97,用mpstat监视CPU,主要输出参数说明：cpu: cpu编号 smtx: 锁没有在第一次请求时获得 usr: 用户进程占用CPU的比例 sys：系统进程占用CPU的比例 wt: 等待I/O操作完成的空闲时间 id: CPU空闲的比例,用vmstat查看CPU和内存状态,vmstat 报告虚拟内存、磁盘、陷阱和CPU活动的统计数example: # vmstat 30procs memory page disk faults cpur b w

17、 swap free re mf pi po fr de sr s0 s6 s7 - in sy cs us sy id0 0 0 1344368 296648 1 5 1 0 0 0 0 0 0 1 0 314 202 91 0 2 970 0 0 1319752 268632 24 90 0 0 0 0 0 1 0 2 0 349 456 155 3 3 940 0 0 1324032 269336 1 7 0 0 0 0 0 1 0 3 0 353 303 144 0 3 97,用vmstat查看cpu和内存状态,主要输出参数说明：R: 运行队列中进程的个数（已经准备好数据等待运行的进程

18、）。数值大表示CPU忙。 Swap: 当前可用的交换区空间，单位Kbytes Sr: 页扫描的次数。数值大表示物理内存不够 Us: 用户进程占用CPU的比例 Sy: 系统进程占用CPU的比例 Id: CPU空闲的比例,用iostat查看I/O资源,iostat反复报告终端、磁盘、磁带机的I/O活动和CPU的利用率。使用iostat查看各控制器和磁盘的负载。如果磁盘负载不均衡，考虑移走一部分消耗I/O多的行为（例如：虚拟内存）到另外的磁盘或控制器上，或增加一些磁盘、控制器等。,用iostat查看I/O资源,example: # iostat 30extended devices statisti

19、cs tty cpudevice r/s w/s kr/s kw/s wait actv svc_t %w %b tin tout us sy wt idsd0 0.4 0.3 10.4 8.0 0.0 0.0 36.9 0 1 0 10 0 0 1 99sd1 0.0 0.0 0.3 0.4 0.0 0.0 35.0 0 0sd6 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0 0nfs1 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0 0nfs2 0.0 0.0 0.0 0.1 0.0 0.0 35.6 0 0,用iostat查看I/O资源,主要参数说明：sd为硬盘

20、，st为磁带机，后面的编号是SCSI ID serv: 平均服务时间，单位ms。数值大表示数据存储分散，需要整理磁盘。 %b: 硬盘忙的时间比例 Wait: 硬盘等待的时间（等待SCSI等接口总线空闲）,网络资源,netstat 根据选项不同，以各种形式显示与网络有关的各种数据结构。用netstat I 显示网络接口的统计信息。如果输入输出错误比较多，可能是由于网络拥塞或网口问题引起的。,网络资源,example: # netstat 30input hme2 output input (Total) output packets errs packets errs colls packets

21、 errs packets errs colls 895129 0 1069518 1 5026 3890808 2 2506103 1 5026 46 0 33 0 0 482 0 413 0 0 80 0 77 0 0 529 0 476 0 0 主要输出参数说明：packets: 通过的包的数量 errs: 错误的包的数量colls: 网络碰撞的数量,进程资源,系统中最多允许30000个进程运行 Zombie 进程不会造成性能问题 ps1、显示活动进程的信息2、% /usr/bin/ps eo pid, pcpu, args | sort +1n按消耗CPU由多到少排列各进程3、% /u

22、sr/ucb/ps aux | more由大到小排列，显示各进程消耗CPU和内存的情况,进程资源(cont.),% /usr/ucb/ps aux | head -5 USER PID %CPU %MEM SZ RSS TT S START TIME COMMAND adrc 333 1.0 8.2 8372 51290 console S 09:28:38 0:29 /usr/bin/vmstat root 483 0.4 1.4 1016 872 pts/1 O 09:56:36 0:00 /usr/ucb/ps -aux adrc 433 0.3 15.8 13295 9832 ? S

23、09:31:47 0:26 /usr/bin/find root 240 0.3 5.3 3688 3260 ? S 09:27:32 0:07 /usr/sbin/nscd adrc 367 0.2 4.2 3472 2620 ? S 09:28:56 0:00 /usr/lib/lpsched主要输出参数说明：%CPU：进程近来的CPU利用率的平均值%MEM：进程占用内存的比例SZ：进程地址空间的大小，指示了该进程需要的swap空间的大小,其他命令或工具,sar提供一些通用的系统统计数据。Sar通常运行在批处理模式而不是被solaris维护命令使用的交互式模式。它提供很多关于系统资源利用方

24、面的相同的信息。 nfsstat显示NFS和RPC与核心接口的统计信息 prtconf显示系统配置信息。包括物理内存的大小。,其他命令或工具,prtdiag显示系统配置和诊断信息用于检测硬件错误或故障 swap l显示所有swap区的状态。如果怀疑虚拟内存缺乏时使用此命令 pkginfo l pkg_name或pkginfo d path l pkg_name以长格式显示软件包的信息，包括安装时间，占用空间大小，共享路径，版本号等。,其他命令工具,Showrev p 或 patchadd p显示系统中安装的所有patch及版本/usr/proc/bin目录下的所有命令都可从/proc目录下提

25、取关于进程的信息eg: ptree 按父子关系显示系统中的进程pfiles PID 显示进程调用的文件信息,从solaris日志和文件中查问题,/etc/system系统核心配置文件。修改如果怀疑性能问题是由于修改了该文件而导致，查看一下其中的参数。 /var/adm/messagessyslog进程在该文件中做日志。在其中查看含有WARNING, error, reboots, panics等字样的行。因为这类报错可能表示出一些潜在的影响系统性能的软硬件问题。 /etc/release包含操作系统版本信息,与故障检测有关的命令,dmesg 分析最近的日志信息 devfsadm 配置/dev

26、ice目录和设备树的信息，以及创建/dev/dsk和/dev/rdsk的符号链接 df k 显示磁盘使用情况，包括剩余空间的检测 eeprom 分析和改变PROM设置 file 查看文件类型 find 在系统中查特定的文件 fstyp -v file-system 显示详细的文件系统参数：文件系统状态、参数，每个柱面组的参数，已用I 节点号，空闲节点号。,与故障检测有关的命令(cont.),grep 分析文件内容，查找特定字符串 last 根据/var/adm/utmpx和/var/adm/wtmpx文件的记录，显示系统login 和reboot 事件的历史 ndd 显示和设置驱动器的参数 e

27、g: # ndd get /dev/hme ? 查看和网卡有关的参数# ndd get /dev/hme adv_100fdx_cap 查看100M全双工的设置# ndd set /dev/hme adv_100fdx_cap 0 关掉100M全双工的设置# ndd get /dev/ip ? 查看和IP包处理有关的参数# ndd set /dev/ip ip_forwarding 1 关掉IP转发功能pridiag (在sun4u和sun4m系统上）显示系统配置和诊断信息 (/usr/platform/uname m/sbin),与故障检测有关的命令(cont.),protconf v 详

28、细显示系统设备信息，参数 protconf vp 详细显示PROM提供的系统设备信息（软硬件的物理节点地址、名称及设备参数） netstat a 显示网络端口的占用情况 strings 在二进制和目标文件中查找并显示ASCII字符 sysdef (sysdef i) 分析设备和软件配置信息：hostid、核心结构、设备树、加载的核心模块、swap使用情况、可调核心参数和值 rpcinfo p 显示系统中基于RPC的进程的启动情况 swap 增加、删除和监视swap区,与故障检测有关的命令(cont.),traceroute 在子网的环境中，显示路由过程 truss 追踪系统的调用和信号，显示系

29、统错误（系统错误号在/usr/include/sys/errno.h文件中定义 sys-unconfig 改变在系统安装过程的sysidtool阶段输入的信息 rpcinfo p 显示系统中基于RPC的进程的启动情况,与故障检测有关的文件,/etc/default/login控制root 能否从控制台以外的设备登录 /etc/inetd.conf列出所有由inetd 进程管理的服务 /etc/minor_perm规定设备文件所分配的权限 /etc/nsswitch.conf名字服务开关 /etc/system设置核心可调参数，核心模块加载路径、根分区位置、核心模块强制加载和不加载,与故障检测有

30、关的文件,/etc/vfstab 列出本地和远程资源的挂接情况 /var/adm/messages列出最近在控制台上出现和启动过程中出现的信息。当文件达到一定长度时，有root的cron进程自动更名为messages.n。清除文件内容，可以用cat /dev/null /var/adm/messages /var/sadm/install/contents列出系统中安装的所有软件包的信息 eg： # grep /usr/bin/admintool /var/sadm/install/contents# grep /usr/share/man /var/sadm/install/contents

31、,常见故障,黑屏没有输出系统从错误的引导设备引导系统无法从以太网引导系统无法从磁盘引导 SCSI问题网络问题某些网络服务器有问题 CDE不能启动死机,黑屏没有输出,硬件坏键盘没有连显示器没接或没有打开输出设成了TTYA or TTYB 系统有多个帧缓存,系统从错误的引导设备引导,问题：希望系统从磁盘引导，但是它总是从网络引导 1、diag-switch? 设成了trueok setenv diag-switch? Falseok boot 2、boot-device 设成了网络而不是磁盘ok setenv boot-device disk ok boot,系统从错误的引导设备

32、引导,问题：系统从磁盘引导，而不是从网络引导boot-device 设成了磁盘而不是网络 ok setenv boot-device net ok boot,系统从错误的引导设备引导,问题：系统从错误的磁盘引导。（比如在系统中有多块盘，你想让系统从disk2引导，但系统总是从disk2引导）boot-device 设的不对 ok setenv boot-device disk2 ok boot,系统从错误的引导设备引导,问题：系统从网络引导失败1、以太网线没插 2、服务器没有响应，相关参数设置不当，或进程没启动 3、tpe-link-test?设为disabled,系统无法从磁盘引导,问题：从

33、磁盘引导时失败，并显示：The file just loaded does not appear to be executableboot block 丢失或损坏 Install a new boot block,系统无法从磁盘引导,问题：从磁盘引导时失败，并显示：Cant open boot device这表示系统没有检测到该硬盘。可能电源或SCSI缆有问题（特别是对于外置硬盘）所以：确认电源正常打开，SCSI缆连接无误，用probe-scsi -all 能否查看到该硬盘。,SCSI问题,问题：系统中安装了多块盘，并且得到跟SCSI有关的报错1、SCSI 号冲突每次只保留一个SCSI设备，

34、在ok状态下检测每个设备的target 号：probe-scsi 2、SCSI缆太长从SCSI缆上撤掉部分设备,网络问题,问题：网络不通 1、在ok 状态下ok test netok watch-netprintenv 查看tpe-link-test?的值是否为true查看hub的link-test功能是否为enabled 2、在系统中ifconfig a 查看网口状态，注意IP、netmask和广播地址,CDE不能启动,问题：CDE不能启动1、查看openwin能否启动，如果不行，有可能是图形系统相关软件损坏。 2、如果openwin能启动，添加一个新用户，看该用户是否能启动CDE。如果用户

35、可以启动两种图形系统，则有可能是前一用户的环境文件受损，可以把该用户主目录下的隐含目录删除，该用户重新登录以生成新的环境文件。 3、判断CDE 的问题还可以通过查看$HOME/.dt目录下的errorlog和startlog文件。,死机/挂起故障,可以rlogin或telnet 到该系统吗？可以ping 通该系统吗？鼠标可以移动吗？最近对系统做了哪些改动？死机有多频繁？什么情况下死机？可以通过执行命令重复死机过程吗？在必要的时候怎样退出死机状态（stop A?）,查看死机资源,死机的通常原因是由于系统资源的过度消耗。 Create a file and rundate file1vmstat 30 10 file1date file2iostat xtc 30 10 file2date file3/usr/ucb/ps-aux file3date file4echo kmstat | crash file4date file5echo “map kernelmap” | crash file5,

展开阅读全文