系统日常维护指导手册.doc-道客多多

资源描述

1、1河南师范大学存储备份系统维护手册郑州龙达计算机技术有限公司二零一零年十月2目录1、存储概述 .41.1 存储概述 41.2 数据库概述 42、系统服务程序的详细说明 .42.1 系统服务程序的构成 .42.2 系统服务程序的启动、关闭及维护管理 52.2.1 dhcp 主服务 .52.2.1.1 dhcp 主服务说明 52.2.1.2 dhcp 启动、关闭及进程查看方法 52.2.1.3 配置说明 62.2.2 dhcp 从服务 .82.2.2.1 dhcp 从服务说明 82.2.2.2 dhcp 启动、关闭及进程查看方法 82.2.2.3 配置说明 92.2.3 web 管理模块 11

2、2.2.3.1 web 管理模块中主要目录说明 .112.2.5.2 web 管理模块中各程序说明 .112.2.5.3 web 站点启动、关闭及进程查看方法 .122.2.5.4 web 日志说明 .122.2.5.5 日常维护 123、 1、linux 系统的日常维护 123.1 定期检查磁盘空间 123.2 使用 top 工具监视 cpu 及内存的使用率 .133.3 定期查看 root 邮件 .1434 定期查看系统日志 .144、 1、备份策略 .154.1 备份方式 154.2 备份计划 154.3 常见故障恢复 154.3.1 实例故障 .154.3.2 介质故障 .155、数

3、据库的日常维护 .185.1 检查数据库的基本状况 185.1.1 检查 oracle 的进程 .185.1.2 检查 oracle 监听进程 .195.1.3 检查 oracle 实例状态 .2035.2 检查数据库日志文件 205.3 检查 oracle 对象的状态 215.3.1 检查 oracle 控制文件状态 .215.3.2 检查 oracle 在线日志状态 .215.3.3 检查 oracle 表空间的状态 .215.3.4 检查 oracle 所有数据文件状态 .225.3.5 检查 Oracle 所有回滚段的状态 .225.3.6 检查 Oracle 所有表、索引、存储过程、

4、触发器等对象的状态 .235.4 监控数据库表空间的使用情况（字典管理表空间） .235.4.1 判断是否需要碎片整理 .235.4.2 判断是否需要扩展表空间 .245.5 查看数据库的连接情况 245.6 术语解释 .256、命令解释 .267、 Sql server 数据库备份/恢复手册 27完全备份与恢复 .27差异备份与恢复 .3741、存储概述1.1 存储概述存储数量：6台，基本信息如下：存储机器型号安装的模块主机名 Ip 地址美国网件ReadyNAS320 服务器数据备份恢复软件oracle01 eth0:192.168.20.60美国网件 RNDX4000-2 服务器

5、 p2v及 v2p 备份恢复软件oracle02 eth0: 192.168.20.611.2 数据库概述数据库软件分别安装在主服务器上。 /dev/mapper/VolGroup00-LogVol00 逻辑卷上ORACLE_BASE=/opt/oracleORACLE_HOME=/opt/oracle/product/ 10.2.0ORACLE_SID=oracmts2、系统服务程序的详细说明2.1 系统服务程序的构成DHCP 主程序：所在服务器主服务器（ip: 192.168.20.60）程序名称 Dhcpd所在目录 /opt/dpcpDHCP 从程序：所在服务器从服务器（ip: 1

6、92.168.20.61）程序名称 Dhcpd所在目录 /opt/dpcp52.2 系统服务程序的启动、关闭及维护管理2.2.1 dhcp 主服务2.2.1.1 dhcp 主服务说明所在目录程序名称程序简要说明/opt/dpcp Dhcpd Dhcp 主程序/etc/dhcpd.conf 主程序的配置文件/var/state/dhcp/dhcpd.leases 租约数据库2.2.1.2 dhcp 启动、关闭及进程查看方法1、启动方法：输入：cd /opt/dpcp./dhcpd 即可注意：请首先确认数据库服务正常，数据库监听正常。输出：rootlocalhost dhcp$ ./dhcpd

7、Internet Systems Consortium DHCP Server V3.0.4Copyright 2004-2006 Internet Systems Consortium.All rights reserved.For info, please visit http:/www.isc.org/sw/dhcp/Wrote 1 leases to leases file.Listening on LPF/eth0/00:0c:29:fb:d4:32/192.168.50/24Sending on LPF/eth0/00:0c:29:fb:d4:32/192.168.50/24Sen

8、ding on Socket/fallback/fallback-net说明：dhcp 启动时，会启动 1 个进程，正常情况下，dhcp 启动的进程数为 1 个。2、关闭方法输入：kill pid说明：pid 为进程号，可使用进程查看获得。如 |-dhcpd(4665)，则进程 id 为 4665，则 kill 4665 就可关闭 dhcp。3、进程查看输入：rootlocalhost dhcp# pstree -p | grep dhcp 输出：|-dhcpd(4665)62.2.1.3 配置说明启动配置文件：etc/dhcpd.conf 可使用 more 或者 tail 命令查看配置服务配

9、置，更改后需要重新启动才能生效，该配置文件的设置需要与从服务器的配置文件吻合。配置文件全文如下：# DHCP Server Configuration file.# see /usr/share/doc/dhcp*/dhcpd.conf.sample #ddns-update-style none;failover peer “buptdhcp“primary;address 192.168.20.60;port 519;peer address 192.168.20.61;peer port 520;max-response-delay 60;max-unacked-updates 10;m

10、clt 600;split 128;load balance max seconds 3;subnet 192.168.20.0 netmask 255.255.255.0 #-cisico1_cm-subnet 10.10.128.0 netmask 255.255.240.0option routers 10.10.128.1;filename “Disable.cm“;next-server 192.168.20.60;default-lease-time 3600;poolfailover peer “buptdhcp“;deny dynamic bootp clients;range

11、 10.10.128.2 10.10.143.254;7#-cisico1_iad-shared-network cisico1_iadsubnet 10.8.80.0 netmask 255.255.255.0option routers 10.8.80.1;option domain-name-servers 219.150.32.132, 219.150.150.150, 219.146.0.130;default-lease-time 3600;poolfailover peer “buptdhcp“;deny dynamic bootp clients;range 10.8.80.2

12、 10.8.80.254;#-cisico1_cpe-shared-network cisico1_cpesubnet 219.234.16.0 netmask 255.255.248.0option routers 219.234.16.1;option domain-name-servers 219.150.32.132, 219.150.150.150, 219.146.0.130;default-lease-time 3600;poolfailover peer “buptdhcp“;deny dynamic bootp clients;range 219.234.16.2 219.2

13、34.23.254;租约数据库/var/state/dhcp/dhcpd.leases可使用 more 或者 tail 命令查看记录当前服务器与对方服务器的服务状态与分配的 ip 租约。示例如下：lease 192.168.5.254 starts 2 2007/11/27 13:15:22;ends 3 2007/11/28 13:15:22;tstp 3 2007/11/28 13:15:22;8binding state active;next binding state free;hardware ethernet 00:11:1a:07:2e:8e;uid “001000021032

14、007.216“;option agent.remote-id 0:11:1a:7:2e:8e;Dhcp 状态如下：failover peer “ name “ state my state normal at 2007/11/27 13:15:22 ;peer state normal at 2007/11/27 13:15:22 ;2.2.2 dhcp 从服务2.2.2.1 dhcp 从服务说明所在目录程序名称程序简要说明/opt/dpcp Dhcpd Dhcp 主程序/etc/dhcpd.conf 主程序的配置文件/var/state/dhcp/dhcpd.leases 租约数据库所

15、在目录程序名称程序简要说明/opt/dpcp Dhcpd Dhcp 主程序/etc/dhcpd.conf 主程序的配置文件/var/state/dhcp/dhcpd.leases 租约数据库2.2.2.2 dhcp 启动、关闭及进程查看方法1、启动方法：输入：cd /opt/dpcp./dhcpd 即可注意：请首先确认数据库服务正常，数据库监听正常。输出：rootlocalhost dhcp$ ./dhcpdInternet Systems Consortium DHCP Server V3.0.4Copyright 2004-2006 Internet Systems Consortiu

16、m.All rights reserved.For info, please visit http:/www.isc.org/sw/dhcp/9Wrote 1 leases to leases file.Listening on LPF/eth0/00:0c:29:fb:d4:32/192.168.50/24Sending on LPF/eth0/00:0c:29:fb:d4:32/192.168.50/24Sending on Socket/fallback/fallback-net说明：dhcp 启动时，会启动 1 个进程，正常情况下，dhcp 启动的进程数为 1 个。2、关闭方法输入：k

17、ill pid说明：pid 为进程号，可使用进程查看获得。如 |-dhcpd(4665)，则进程 id 为 4665，则 kill 4665 就可关闭 dhcp。3、进程查看输入：rootlocalhost dhcp# pstree -p | grep dhcp 输出：|-dhcpd(4665)2.2.2.3 配置说明启动配置文件：etc/dhcpd.conf 可使用 more 或者 tail 命令查看.配置服务配置，更改后需要重新启动才能生效，该配置文件的设置需要与主服务器的配置文件吻合。配置文件全文如下：# DHCP Server Configuration file.# see /usr

18、/share/doc/dhcp*/dhcpd.conf.sample #ddns-update-style none;failover peer “buptdhcp“secondary;address 192.168.20.61;port 520;peer address 192.168.20.60;peer port 519;max-response-delay 60;max-unacked-updates 10;mclt 600;#split 128;load balance max seconds 3;subnet 192.168.20.0 netmask 255.255.255.0 1

19、0#-cisico1_cm-subnet 10.10.128.0 netmask 255.255.240.0option routers 10.10.128.1;filename “Disable.cm“;next-server 192.168.20.60;default-lease-time 3600;poolfailover peer “buptdhcp“;deny dynamic bootp clients;range 10.10.128.2 10.10.143.254;#-cisico1_iad-shared-network cisico1_iadsubnet 10.8.80.0 ne

20、tmask 255.255.255.0option routers 10.8.80.1;option domain-name-servers 219.150.32.132, 219.150.150.150, 219.146.0.130;default-lease-time 3600;poolfailover peer “buptdhcp“;deny dynamic bootp clients;range 10.8.80.2 10.8.80.254;#-cisico1_cpe-shared-network cisico1_cpesubnet 219.234.16.0 netmask 255.25

21、5.248.0option routers 219.234.16.1;option domain-name-servers 219.150.32.132, 219.150.150.150, 219.146.0.130;default-lease-time 3600;poolfailover peer “buptdhcp“;11deny dynamic bootp clients;range 219.234.16.2 219.234.23.254;租约数据库/var/state/dhcp/dhcpd.leases记录当前服务器与对方服务器的服务状态与分配的 ip 租约。示例如下：lease 19

22、2.168.5.254 starts 2 2007/11/27 13:15:22;ends 3 2007/11/28 13:15:22;tstp 3 2007/11/28 13:15:22;binding state active;next binding state free;hardware ethernet 00:11:1a:07:2e:8e;uid “001000021032007.216“;option agent.remote-id 0:11:1a:7:2e:8e;Dhcp 状态如下：failover peer “ name “ state my state normal at 2

23、007/11/27 13:15:22 ;peer state normal at 2007/11/27 13:15:22 ;2.2.3 web 管理模块2.2.3.1 web 管理模块中主要目录说明/opt/apache-2.0.52 为 apache 模块所在目录/opt/taiyuan 为 web 程序存储目录2.2.5.2 web 管理模块中各程序说明命令所在目录：/opt/apache/bin命令命令说明apachectl Apache HTTP 服务器控制接口httpd Apache 超文本传输协议服务器ab Apache HTTP 服务器性能测试工具apxs APache 功能扩

24、展工具12dbmmanage 建立和更新 DBM 形式的基本认证文件htdigest 建立和更新摘要认证文件htpasswd 建立和更新基本认证文件logresolve 将 Apache 日志文件中的 IP 地址解析为主机名rotatelogs 滚动 Apache 日志而无须终止服务器2.2.5.3 web 站点启动、关闭及进程查看方法命令所在目录命令命令说明/opt/apache/bin ./apachectl start 启动 httpd/opt/apache/bin ./apachectl startssl 启动 httpd 并加载 SSL 服务/opt/apache/bin ./a

25、pachectl stop 关闭 apache/opt/apache/bin ./apachectl status 查看 apache 的状态2.2.5.4 web 日志说明Log 存放目录为：/opt/apache/logs/opt/apache/logs/access_log 为所有访问网站的日志/opt/apache/logs/error_log 为错误信息日志/opt/apache/logs/httpd.pid 为主进程的 pid 号/opt/apache/logs/ssl_engine_log 为 ssl 引擎日志，即 ssl 的运行日志，可以通过查看此日志了解运行状态及错误。/op

26、t/apache/logs/ssl_request_log 为 ssl 请求日志即是哪个 ip 使用 https ssi 协议登录 web 站点，请求的时间，内容，访问的页面等。2.2.5.5 日常维护维护分为：业务维护及系统维护业务维护就是，利用系统管理员的身份，查看操作日志系统维护是：定期查看系统日志，apache 日志等，看是否有运行错误，并定期备份日志。3、 1、linux 系统的日常维护3.1 定期检查磁盘空间使用df显示磁盘空间输入：oraclelocalhost server$ df输出：Filesystem 1K-blocks Used Available Use% Mount

27、ed on13/dev/cciss/c0d0p2 107938336 7612144 94843208 8% /dev/cciss/c0d0p1 101086 12308 83559 13% /bootnone 2073908 4 2073904 1% /dev/shm/dev/cciss/c0d0p5 30976636 185056 29218016 1% /home说明：这里显示了/、 /boot、/home分区挂载的系统分区使用的大小，磁盘空间以k为单位。可以加参数 -horaclelocalhost server$ df -hFilesystem Size Used Avail Us

28、e% Mounted on/dev/cciss/c0d0p2 103G 7.3G 91G 8% /dev/cciss/c0d0p1 99M 13M 82M 13% /bootnone 2.0G 4.0K 2.0G 1% /dev/shm/dev/cciss/c0d0p5 30G 181M 28G 1% /home注意：当某空间使用率超过85时，通过du查看是哪些文件占用的空间比较大例如/home 使用了 85cd /home以root用户查看su输入root用户密码rootlocalhost /# du -m -max-depth=1-m是以M大小显示-max-depth=1表示只是一级子目录

29、的大小，如果想查看二级的就写为 2找出占用很大的文件，经判断后决定删除或转移。3.2 使用 top 工具监视 cpu 及内存的使用率每隔5秒，top工具确定哪些进程消耗最多的 cpu时间，并按递减顺序在屏幕显示。输入：oraclelocalhost /$ top输出：top - 10:52:46 up 6 days, 39 min, 2 users, load average: 0.12, 0.09, 0.02Tasks: 123 total, 1 running, 122 sleeping, 0 stopped, 0 zombieCpu(s): 0.2% us, 0.2% sy, 0.0%

30、ni, 99.3% id, 0.4% wa, 0.0% hi, 0.0% siMem: 8247956k total, 1828612k used, 6419344k free, 119476k buffersSwap: 8385920k total, 0k used, 8385920k free, 1526064k cached PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 1 root 16 0 3004 552 472 S 0.0 0.0 0:01.02 init 2 root RT 0 0 0 0 S 0.0 0.0 0:0

31、1.28 migration/0 143 root 34 19 0 0 0 S 0.0 0.0 0:00.04 ksoftirqd/0 4 root RT 0 0 0 0 S 0.0 0.0 0:01.28 migration/1 5 root 34 19 0 0 0 S 0.0 0.0 0:00.04 ksoftirqd/1 6 root RT 0 0 0 0 S 0.0 0.0 0:00.65 migration/2 说明：当发现个别进程占用率很高，可以通过用“ps axj | grep 进程名”查看这个进程在进行什么操作，如果发现这个进程持续的时间很长，而且非系统必要进程；可以通过“ki

32、ll 9” 进程的PID号，将进程杀死。（不确定情况下，请不要使用）；退出top用ctrl+c。3.3 定期查看 root 邮件输入：oraclelocalhost log$ su -lPassword: rootlocalhost root# mail输出：1 rootlocalhost.local Fri Sep 8 16:23 18/704 “HP Insight Management Agents Trap Alarm“N 2 rootlocalhost.local Fri Sep 8 16:23 18/684 “HP Agent Trap Alert“N 3 rootlocalhos

33、t.local Fri Sep 8 16:23 19/748 “HP Insight Management Agents Trap Alarm“说明：前面为N的表示新邮件可以在通过视图返回名字和相应的文件ID:select name, file# from v$datafile;通过这些信息，决定对哪些文件进行恢复，及其采用的恢复方式。4.3.1 实例故障当oracle实例由于突然断电或者操作系统故障而崩溃时，可以通过输入dbstart即可开启数据库，无须发布恢复命令，oracle会自动执行崩溃恢复，最好启动前后检查日志文件4.3.2 介质故障介质故障发生在数据库结构组织出现毁坏时，在这些组织

34、中数据库文件不能进行读写。在数据库打开的情况下，如果是system 表空间的数据文件出现介质失败，那么oracle需要在mount状态下恢复其数据文件，如果是其他表空间，可以只对介质失败涉及到的数据文件进行恢复，即在数据库打开的状态下进行恢复。16步骤如下：1确定需要恢复的数据文件2使数据文件脱机3拷贝数据文件备份到原目标地址4恢复表空间或数据文件5使表空间或数据文件联机例：当出现以下信息时，说明是数据库的system 表空间出现了问题。ERROR:ORA-00604: error occurred at recursive SQL level 1ORA-01116: error in ope

35、ning database file 1ORA-01110: data file 1: /opt/oracle/oradata/oracmts/system01.dbfORA-27041: unable to open fileLinux Error: 2: No such file or directoryAdditional information: 3System 出现介质失败，表示被误删或被损坏，可以执行如下：1）首先登录 SQL*PLUS 并启用 SYSDBA 权限输入：:sqlplus user/passwdoracmts; connect / as sysdba; （启动 SYS

36、DBA 权限）shutdown abort （关闭数据库）startup mount （加载数据库）也可以通过查看视图，确定哪个文件需要恢复SQL select file#,error from v$recover_file;FILE# ERROR- -1 FILE NOT FOUND查看 v$datafile 视图查看对应关系SQL select file#,name from v$datafile;FILE#-NAME-1/opt/oracle/oradata/oracmts/system01.dbf217/opt/oracle/oradata/oracmts/undotbs01.dbf3

37、/opt/oracle/oradata/oracmts/sysaux01.dbfFILE#-NAME-4/opt/oracle/oradata/oracmts/users01.dbf知道要恢复的是 1（system01.dbf）：2）在 SQL提示符下输入alter database datafile /opt/oracle/oradata/oracmts/system01.dbf offline;3）再打开一个终端：将备份数据文件拷贝到原目标地址，即：cp /opt/backup/system01.dbf /opt/oracle/oradata/oracmts/4）然后进行恢复SQL rec

38、over datafile 1;或 recover datafile /opt/oracle/oradata/oracmts/system01.dbf;如果不需要归档日志文件进行恢复，即输出Media recovery complete.如果需要归档日志文件参与恢复，即输出：ORA-00279: change 2246878 generated at 07/22/2005 16:28:13 needed for thread 1ORA-00289: suggestion : /opt/oracle/oradata/archive /1_167_562355694.dbfORA-00280: c

39、hange 2246878 for thread 1 is in sequence #167Specify log: =suggested | filename | AUTO | CANCEL输入：auto 即可自动完成恢复。输出：ORA-00279: change 2366990 generated at 07/25/2005 00:00:09 needed for thread 1ORA-00289: suggestion : /opt/oracle/oradata/archive/1_185_562355694.dbfORA-00280: change 2366990 for threa

40、d 1 is in sequence #185ORA-00278: log file /opt/oracle/oradata/archive /1_184_562355694.dbf no longer needed for thisrecoveryORA-00279: change 2375106 generated at 07/25/2005 04:00:54 needed for thread 1ORA-00289: suggestion : /opt/oracle/oradata/archive /1_186_562355694.dbfORA-00280: change 2375106

41、 for thread 1 is in sequence #18618ORA-00278: log file /opt/oracle/oradata/archive /1_185_562355694.dbf no longer needed for thisrecoveryLog applied.Media recovery complete.（表示恢复结束）5）在 SQL提示符下输入alter database datafile /opt/oracle/oradata/oracmts/system01.dbf online;6）打开数据库即可，在 SQL提示符下输入alter databas

42、e open其他数据文件恢复方法类似，只需要把数据文件的名字更改即可。注：如果维护工程师没有数据库恢复经验，或判断不出数据库的故障原因，请联系我们的工程师，我们一起协商解决。5、数据库的日常维护5.1 检查数据库的基本状况主要介绍如何对数据库的基本情况进行检查，内容共分三部分，分别为：检查oracle的进程；检查oracle 监听进程；检查 oracle实例状态。5.1.1 检查 oracle 的进程输入：ps -ef |grep “ora_“ |grep -v grep输出：1 8510 8510 8510 ? -1 Ss 500 0:00 ora_pmon_oracmts1 8512 8

43、512 8512 ? -1 Ss 500 0:05 ora_psp0_oracmts1 8514 8514 8514 ? -1 Ss 500 0:00 ora_mman_oracmts1 8516 8516 8516 ? -1 Ss 500 0:04 ora_dbw0_oracmts1 8518 8518 8518 ? -1 Ss 500 0:04 ora_lgwr_oracmts1 8520 8520 8520 ? -1 Ss 500 0:11 ora_ckpt_oracmts1 8522 8522 8522 ? -1 Ss 500 0:09 ora_smon_oracmts1 8524 8

44、524 8524 ? -1 Ss 500 0:00 ora_reco_oracmts1 8526 8526 8526 ? -1 Ss 500 0:05 ora_cjq0_oracmts1 8528 8528 8528 ? -1 Ss 500 0:14 ora_mmon_oracmts1 8530 8530 8530 ? -1 Ss 500 0:05 ora_mmnl_oracmts1 8532 8532 8532 ? -1 Ss 500 0:00 ora_d000_oracmts1 8534 8534 8534 ? -1 Ss 500 0:00 ora_s000_oracmts1 8539 8

45、539 8539 ? -1 Ss 500 0:00 ora_arc0_oracmts1 8541 8541 8541 ? -1 Ss 500 0:00 ora_arc1_oracmts1 8545 8545 8545 ? -1 Ss 500 0:00 ora_qmnc_oracmts191 8580 8580 8580 ? -1 Ss 500 0:00 ora_q000_oracmts1 8583 8583 8583 ? -1 Ss 500 0:00 ora_q001_oracmts说明：在检查oracle的进程命令输出后，输出显示至少应包括以下一些进程： oracle 写数据文件的进程，输出

46、显示为：“ora_dbw0_oracmts” oracle 写日志文件的进程，输出显示为：“ora_lgwr_oracmts” oracle 监听实例状态的进程，输出显示为：“ora_smon_oracmts” oracle 监听客户端连接进程状态的进程，输出显示为：“ora_pmon_oracmts ” oracle 进行归档的进程，输出显示为：“ora_arc0_oracmts” oracle 进行检查点的进程，输出显示为：“ora_ckpt_oracmts” oracle 进行恢复的进程，输出显示为：“ora_reco_oracmts” 注：上面进程中的 oracmts 是数据库的实例名，必须为 oracmts,否则为错误。5.1.2 检查 oracle 监听进程输入：lsnrctl status输出：LSNRCTL for Linux: Version 10.2.0.1.0 - Production on 24-OCT-200

展开阅读全文