Aix_topas命令解析_个人综合参考整理版new.docx-道客多多

资源描述

1、 Aix topas 命令解析1 Topas 简介操作系统的最全面动态，而又查看方便的性能视图就是 topas 命令了，下面以 topas 输出为例，对 AIX 系统的性能监控做简要描述，供运维工程师和系统管理员们参考。另：1.操作系统报错信息 errpt 查看。2.磁盘空间使用率采用 df 查看。这里主要分析性能问题，执行 topas 命令后如图所示：#topas2 输出各部分解释 2.1 CPU 使用情况:这个分部显示一个条形图表来表示累积的 CPU 使用情况。如果有多个 CPU，按 c 键两次就可显示 CPU 列表。仅按 c 键一次会关闭这个分部。User%这显示以用户方式执行的程序所使

2、用的 CPU 的百分数（缺省按用户% 排序）。这个为 CPU 使用率的关键数值。该使用率反映了用户在操作系统基础上运行的各种软件占用的 CPU 时间比率的总和。Kern%这显示以内核方式执行的程序所使用的 CPU 的百分数。(Kernel) 操作系统的内核占用的 CPU 时间比率。操作系统作为基础软件，为应用程序支持和服务的同时，本身的运行也需要一定的 CPU 和内存资源（顺便提到内存资源，后面不再阐述这个内容了），特别是内存资源，系统负载越重，相应的内核占用的CPU 和内存资源也会越多。一般来说，内核占用的 CPU 时间不会太多的。一般小于应用的 CPU 使用率。Wait% 这显示用于等

3、待 IO 的时间的百分数。CPU 处于等待状态占 CPU 时间的比率。CPU 的等待一般都为等待 IO 的响应，众所周知，目前计算机的主要瓶颈都在IO。应用程序执行的时候，需要读写磁盘等外部存储的数据，进程就会发起 IO请求后等待 IO 完成。这个等待的过程占用 CPU 时间就是 wait。当这个值很高的时候，就说明 IO 来不及响应很多的 IO 请求，这个时候，就只能从 IO 层面想办法优化了。 Idle% 这表示 CPU 空闲时间的百分数。 Physg 本分区许可的物理处理器数目（如是微分区）%Entg 本分区许可的 Entitled Capacity 百分比（如是微分区）注意事项一般来

4、说，如果 User+Kernel 连续大于 70%，即可以认为系统可能存在 CPU上的严重性能问题。而我们的实际维护工作中，如果发现某一个 CCCC 主机（bjdb0261 ，bjdb0271 除外，这两个主机的负载一直比较高）的User+Kernel 大于 30%，就要看看下面的第四区域，看看是不是有进程持续占用了大量的 CPU 资源，例如，某一个交易处理程序的 CPU 使用率持续在 20%左右（曾经发生过）。 CPU 占用率出问题的主要可能原因：数据库服务器执行某一个 SQL 或者存储过程（存储过程就是封装起来的 sql 程序包而已）需要大量的运算（一般为软件设计不合理）。或者应用程序

5、中存在异常的地方，比如死循环，或者其他写程序时的逻辑错误导致。一般程序出错会导致一个 CPU 被全部占用，比如上述的20%占用的原因就是一个交易程序长期占用一个 CPU 全部时间片（系统共计5 个 CPU）。2.2 网络接口情况此分部显示了热门网络接口的列表。所显示接口的最大数目是正被监视的热门接口数目，正如 -n 标志指定的那样。如果其它分部也被显示，则将显示接口的一个较小数目。按 n 键可关闭此分部。再按一次 n 键就会显示一行所有网络接口活动的报告摘要。当此分部首先显示热门网络接口列表时，按 KBPS 字段对列表排序。但是，可以按其它字段对列表排序，只要把光标移到想要的那一栏顶部就可以

6、了。排序仅对最多 16 个网络适配器有效。KBPS 在监视时间间隔内每秒钟以 KB 为单位的总吞吐量。这个字段是每秒接收到的千字节和发送的千字节的总和（=KB-In+KB-Out）。I-Pack 在监视时间间隔内每秒钟接收到的数据包的数目。 O-Pack 在监视时间间隔内每秒钟发送的数据包的数目。 KB-In 在监视时间间隔内每秒钟接收到的千字节的数目。 KB-Out 在监视时间间隔内每秒钟发送的千字节的数目。注意事项当我们发现网络拥堵时（出现网卡传输失效的报错，即网卡发送数据包失败。或者网络响应明显变慢的时候，如果 CPU 没有问题，那么请检查网络流量）发现某一个网卡的 KBPS 持续大于

7、四位数，甚至五位数时（这个值要是网卡千兆还是百兆而定）。就要看看这个网卡是什么网卡，在处理什么业务了。在命令行执行 netstat in 查看对应 en*接口的 ip 地址，通过 ip 地址看看是带官网卡还是生产服务网卡流量高。然后通过 netstat v en* 看看网卡的详细工作状态，出现了多少错包，冲突包，crc 校验错或者网络重置过等信息。上述信息请详细看 netstat v en*的输出. 如果出现大量 crc，错包的话，可能网线有问题或者接触不良。如果上述均正常，而网络反应慢，则有可能是交换机拥堵。网络出现问题的可能原因：通过百兆的带管网加载大量数据（以前出现过），大量队列的长

8、时间的ftp 传输，或者网线，交换机问题等。2.3 物理磁盘情况此分部显示了热门物理磁盘的列表。所显示物理磁盘的最大数目是正被监视的热门物理磁盘数目，正如 -d 标志指定的那样。如果其它分部也被显示，则将显示物理磁盘的一个较小数目。按 d 键可关闭这个分部。再按一次 d 键就会显示一行所有物理磁盘活动的报告摘要。当此分部首先显示热门物理磁盘列表时，按 KBPS 字段对列表排序。但是，可以按其它字段对列表排序，只要把光标移到想要的那一栏顶部就可以了。排序仅对最多 128 个物理磁盘有效。Disk 物理磁盘的名称。 Busy% 表示物理磁盘活动时间的百分比（驱动器带宽使用）。即当前 IO 数量和

9、磁盘能满足的最大 IOPS（每秒 IO 操作数）比率。 KBPS 在监视时间间隔内每秒钟读和写的千字节的数目。此字段是 KB-Read 和 KB-Writ 的总和。 TPS 每秒钟发送到物理磁盘的传输的数目。传输是对物理磁盘的 I/O 请求。多个逻辑请求可组合成对磁盘的单个 I/O 请求。传输大小不确定。 KB-Read每秒钟从物理磁盘读取的千字节的数目。 KB-Writ每秒钟写到物理磁盘的千字节的数目。注意事项一般主要看磁盘的 Busy%，当磁盘的 Busy%持续大于 85%时，即认为磁盘相当繁忙，已经可能要出问题了。当然，自己知道已经确定要产生大量 IO 操作的内容则不必在意，等其完成即

10、可。出现问题的原因：CCCC 的应用服务器上面写日志进程或者查询日志的进程大量读写日志，导致磁盘繁忙率高，或者其他程序频繁读写磁盘导致。系统中 hdisk0，hdisk1 一般为系统盘，内置 SCSI磁盘的相对 IOPS 是较低的。很容易满负荷运行。2.4 WLM(Workload Manager)类此分部显示了热门工作量管理（WLM）类的列表。所显示 WLM 类的最大数目是正被监视的热门 WLM 类数目，正如 -w 标志指定的那样。如果其它分部也被显示，则将显示 WLM 类的一个较小数目。按 w 键可关闭此分部。对于每一个类会显示下列字段： % CPU 使用情况 :在监视时间间隔内 WLM

11、类的平均 CPU 使用情况。 % Mem 使用情况 :在监视时间间隔内 WLM 类的平均内存使用情况。 % Blk I/O :在监视时间间隔内 WLM 类的块 I/O 的平均百分比。当这个分部首先显示热门 WLM 类列表时，就按 CPU% 字段来对列表排序。但是，可以按其它字段来对列表排序，只要把光标移到想要的那一栏顶部就可以了。 2.5 进程类此分部显示了热门进程的列表。所显示进程的最大数目是正被监视的热门过程数目，正如 -p 标志指定的那样。如果其它分部也被显示，则将显示进程的一个较小数目。按 p 键可关闭此分部。按监视时间间隔内进程的 CPU 使用情况来对进程排序。 NAME 在进程中

12、执行的可执行程序的名称。名称已被除去任何路径名和参数信息并被截断到 9 个字符的长度。 PID 进程的进程标识。进程的 ID 在系统中唯一，是我们了解跟踪进程信息重要数值。跟踪进程的 CPU 使用，磁盘 IO 读写，进程的内存和 pagingspace 占用等等均需要使用% CPU 在监视时间间隔内进程的平均 CPU 使用情况。第一次显示进程时，这个值表示整个进程阶段平均 CPU 使用情况。 PgSp 分配给此进程的调页空间的大小。这可被认为是进程覆盖区的一种表达式，但并不包括用来保持可执行程序和它依赖的任何共享库的内存。 owner Owner 进程的属主，即由哪个操作用户用户启动了这个进程

13、。。注意事项在 topas 中，默认是列出占用 cpu 最高的前几个的进程信息供参考，如果前面第一区域的的 CPU 使用率持续高，就要看看这里是那个进程占用了大量的CPU 资源，看看是哪个用户的进程，如果自己执行的，则杀掉或者找项目组解决即可。db2sysc 是 DB2 实例的核心进程，一个实例( 或是分区数据库中的一个节点)启动后系统中应该有一个相应的 db2sysc 进程，用 DB2_PS 看就可以。2.6 事件队列显示所选系统全局事件的每秒频率、线程运行和等待队列的平均大小： Cswitch 在监视时间间隔内每秒上下文切换的数量。 Syscalls 在监视时间间隔内每秒执行的系统调

14、用的数量。 Reads 在监视时间间隔内每秒执行的 read 系统调用的数量。 Writes 在监视时间间隔内每秒执行的 write 系统调用的数量。 Forks 在监视时间间隔内每秒执行的 fork 系统调用的数量。 Execs 在监视时间间隔内每秒执行的 exec 系统调用的数量。 Runqueue 准备运行但需要等待处理器可用的平均线程数目。 Waitqueue正在等待页面调度完成的平均线程数目。 2.7 文件/TTY 显示所选文件与 tty 统计信息的每秒频率。 Readch 在监视时间间隔内 read 系统调用每秒读的字节数。 Writech 在监视时间间隔内 write 系统调用每

15、秒写的字节数。 Rawin 在监视时间间隔内从 TTY 中每秒读取的原始字节数。 Ttyout 在监视时间间隔内每秒写入 TTY 中的字节数。 Igets 在监视时间间隔内每秒调用信息节点查找例程的数量。 Namei 在监视时间间隔内每秒调用路径名查找例程的数量。 Dirblk 在监视时间间隔内被目录搜索例程每秒扫描的目录块数目。 2.8 页面调度: 显示页面调度统计信息的每秒频率。Faults 在监视时间间隔内每秒页面出错的数量。这包括不能激活页面调度的页面故障。Steals 在监视时间间隔内每秒钟有物理内存 4K 帧被虚拟内存管理器占用。 PgspIn 在监视时间间隔内每秒钟从调页空间读取

16、 4K 页面的数量。 PgspOut 在监视时间间隔内每秒钟把 4K 页面写入调页空间的数量。 PageIn 在监视时间间隔内每秒钟读取 4K 页面的数量。这包括与从文件系统读取有关的页面调度活动。从这个值中减去 PgspIn 就可得到在监视时间间隔内每秒钟从文件系统读取的 4K 页面的数量。 PageOut 在监视时间间隔内每秒钟写 4K 页面的数量。这包括与写入文件系统有关的页面调度活动。从这个值中减去 PgspOut 就可得到在监视时间间隔内每秒钟写入文件系统的 4K 页面的数量。 Sios 在监视时间间隔内虚拟内存管理器每秒钟发出的 I/O 请求的数目。注意事项换页空间即磁盘上的空间

17、，在 AIX 操作系统中用来做内存空间使用。具体的理论就不再阐述了，详细信息请参阅操作系统内容。磁盘空间的速度当然相比内存，慢了不止 10 倍。所以，只是内存页面的一个暂时存放地，存放的还是那些长期不怎么用到的内存页面而已。如果 paging 大量出现，这时候就有麻烦了，说明内存不够用了！该区域主要关注 PageIn，PageOut 如果这两个数值均大于三位数，并且长期大于这个数值，在技术上叫做内存颠簸，即不停的把内存页面换到磁盘空间上，又从磁盘空间把内存页面读进来，系统的内存使用效率变的极差，系统响应性能也变慢了。这个信息也可以用 vmstat 来看，pi 和 po 列即与这里相对应。当然，

18、如果只是有页面出，或者只有页面入，或者短时间的一些页面换入换出，则没有什么问题，关注一下即可。区域 7 就在这里一起说了。2.9 内存显示实际内存大小与内存使用的分布情况。 Real，MB 以 MB 为单位的实际内存大小。 % Comp 当前分配给计算页面帧的实际内存的百分数。计算页面帧通常是那些被调页空间支持的帧。 % Noncomp 当前分配给非计算页面帧的实际内存的百分数。非计算页面帧通常是那些被文件空间（可以是数据文件、可执行文件或共享库文件）支持的帧。 % Client 当前被分配用来高速缓存远程安装的文件的实际内存的百分数。注意事项%Comp，计算型内存占用比率，%Noncom

19、p 非计算型内存占用的比率。%Client 也为非计算型内存，Noncomp 包涵 Client 型内存，jfs 文件系统使用的内存为 noncomp，为了区分， jfs2 和 nfs 使用的内存为 Client。计算型内存就是进程实际使用的内存，例如我们写程序的时候 malloc 内存，或者在排序中使用了堆栈，进程中变量数值都需要在内存中保存，这部分内存为计算型内存（阐述不全面，仅供参考）。而操作系统在进行文件读写，需要的 io 缓冲区，或者我们在写程序的时候，打开文件，读写文件，均在文件缓冲区进行。（裸设备例外，CCCC 的数据库采用 RAC，数据的存储全部使用裸设备，在数据库服务器上，

20、数据文件的缓冲在 oracle 的 sga 区的 data buffer 中（这个区域系统认为是计算型内存），是不会占用非计算内存的。）我们日常监控在看这一部分的内存使用的，一般要看计算型内存是不是在增长，或者计算型内存大于了某一个临界值，一般来说，按照 CCCC 目前的 VMO 配置，如果计算型内存大于 80%是很危险的，有可能就导致大量 pg 的使用而性能急剧恶化。导致内存出问题的可能原因很多。主要有：进程使用了更多的内存，例如，CCCC 数据库服务器大量的 oracle 连接使用了很多内存，或者数据库中执行的某一个 sql 脚本或者存储过程的执行需要大量的内存来完成其操作（特例库中出

21、现过这个情形，一个存储过程的执行导致操作系统内存被耗尽，pg 也随之耗尽，操作系统自动执行 PGSP_KILL,把该进程给干掉了，我也是第一次知道 aix系统还有这个功能，呵呵）。第二个主要的问题就是内存泄漏，内存泄漏最简单的来说，就是申请了内存空间，使用后不再使用了，但是也没有释放。我们写程序的时候 malloc，却没有free。这就导致了严重的问题，随着程序的执行，可用物理内存越来越少，最后就挂了，只好定期重启应用来解决。操作系统的内存换页机制导致了程序中不用的内存页面最后都跑到 pg 上面去了，换页空间会持续增长的。因应用导致系统问题就是这么产生的。CCCC 项目中不涉及 NFS 操作

22、，不再阐述。请大家平时没事的时候帮忙看看系统性能问题，如有异常，诸位好心里有数，不慌。我们也好及时响应处理。2.10 调页空间显示调页空间的大小及利用情况。 Size，MB 系统上所有调页空间的总和，以 MB 为单位。 Used 当前在使用的调页空间占所有的百分数。 Free 当前未使用的调页空间占所有的百分数。注意事项如果换页空间的使用率长期增长，就说明系统内存不足，已经开始使用磁盘空间来缓冲内存了，如果 PG 使用率持续增长，或者大于 50%，需要警惕（到 50%在监控平台已经是主要告警啦！），并马上提交系统管理员分析内存增长原因。如果该数值持续增长，系统一定会挂掉的！2.11 NFS 显示每秒调用的 NFS 状态 3 TOP 命令其它用法：topas -P :显示最忙进程topas -D :显示磁盘使用情况 topas -i :指定时间间隔，默认是 2s 刷新一次

展开阅读全文