一个普通的Oracle 维护人员写的《Oracle DBA数据库日常维护完全手册》

时间:2022-02-22 21:47:41
  
Oracle DBA 数据库日常维护完全手册
 
 
Oracle 数据库运行期间, DBA 应该对数据库的运行日志及表空间的使用情况进行监控,及早发现数据库中存在的问题。
一、 Oracle 警告日志文件监控
Oracle 在运行过程中,会在警告日志文件 (alert_SID.log) 中记录数据库的一些运行情况 :
数据库的启动、关闭,启动时的非缺省参数;
数据库的重做日志切换情况,记录每次切换的时间,及如果因为检查点 (checkpoint) 操作没有执行完成造成不能切换,会记录不能切换的原因;
对数据库进行的某些操作,如创建或删除表空间、增加数据文件;
数据库发生的错误,如表空间不够、出现坏块、数据库内部错误 (ORA-600)
DBA 应该定期检查日志文件,根据日志中发现的问题及时进行处理。
问题处理 :
启动参数不对检查初始化参数文件;
因为检查点操作或归档操作没有完成造成重做日志不能切换如果经常发生这样的情况,可以考虑增加重做日志文件组 ; 想办法提高检查点或归档操作的效率;
有人未经授权删除了表空间检查数据库的安全问题,是否密码太简单 ; 如有必要,撤消某些用户的系统权限;
出现坏块检查是否是硬件问题 ( 如磁盘本生有坏块 ) ,如果不是,检查是那个数据库对象出现了坏块,对这个对象进行重建;
表空间不够增加数据文件到相应的表空间;
出现 ORA-600 根据日志文件的内容查看相应的 TRC 文件,如果是 Oracle bug ,要及时打上相应的补丁。
二、数据库表空间使用情况监控 ( 字典管理表空间 )
数据库运行了一段时间后,由于不断的在表空间上创建和删除对象,会在表空间上产生大量的碎片, DBA 应该及时了解表空间的碎片和可用空间情况,以决定是否要对碎片进行整理或为表空间增加数据文件。 以下为引用的内容:
select tablespace_name,
count(*) chunks ,
max(bytes/1024/1024) max_chunk
from dba_free_space
group by tablespace_name;
上面的 SQL 列出了数据库中每个表空间的空闲块情况 , 如下所示 : 以下为引用的内容:
TABLESPACE_NAME CHUNKS MAX_CHUNK
-------------------- ---------- ----------
INDX 1 57.9921875
RBS 3 490.992188
RMAN_TS 1 16.515625
SYSTEM 1 207.296875
TEMP 20 70.8046875
TOOLS 1 11.8359375
USERS 67 71.3671875
其中, CHUNKS 列表示表空间中有多少可用的空闲块 ( 每个空闲块是由一些连续的 Oracle 数据块组成 ) ,如果这样的空闲块过多,比如平均到每个数据文件上超过了 100 个,那么该表空间的碎片状况就比较严重了,可以尝试用以下的 SQL 命令进行表空间相邻碎片的接合 :
alter tablespace 表空间名 coalesce;
然后再执行查看表空间碎片的 SQL 语句,看表空间的碎片有没有减少。如果没有效果,并且表空间的碎片已经严重影响到了数据库的运行,则考虑对该表空间进行重建。
MAX_CHUNK 列的结果是表空间上最大的可用块大小,如果该表空间上的对象所需分配的空间 (NEXT ) 大于可用块的大小的话,就会提示 ORA-1652 ORA-1653 ORA-1654 的错误信息, DBA 应该及时对表空间的空间进行扩充,以避免这些错误发生。
对表空间的扩充对表空间的数据文件大小进行扩展,或向表空间增加数据文件,具体操作见 存储管理 部份。
三、查看数据库的连接情况
DBA 要定时对数据库的连接情况进行检查,看与数据库建立的会话数目是不是正常,如果建立了过多的连接,会消耗数据库的资源。同时,对一些 挂死 的连接,可能会需要 DBA 手工进行清理。
以下的 SQL 语句列出当前数据库建立的会话情况 : 以下为引用的内容:
select sid,serial#,username,program,machine,status
from v$session;
输出结果为 : 以下为引用的内容:

SID SERIAL# USERNAME PROGRAM MACHINE STATUS
---- ------- ---------- ----------- --------------- --------
1 1 ORACLE.EXE WORK3 ACTIVE
2 1 ORACLE.EXE WORK3 ACTIVE
3 1 ORACLE.EXE WORK3 ACTIVE
4 1 ORACLE.EXE WORK3 ACTIVE
5 3 ORACLE.EXE WORK3 ACTIVE
6 1 ORACLE.EXE WORK3 ACTIVE
7 1 ORACLE.EXE WORK3 ACTIVE
8 27 SYS SQLPLUS.EXE WORKGROUP/WORK3 ACTIVE
11 5 DBSNMP dbsnmp.exe WORKGROUP/WORK3 INACTIVE
注释:
SID 会话 (session) ID 号;
SERIAL# 会话的序列号,和 SID 一起用来唯一标识一个会话;
USERNAME 建立该会话的用户名;
PROGRAM 这个会话是用什么工具连接到数据库的;
STATUS 当前这个会话的状态, ACTIVE 表示会话正在执行某些任务, INACTIVE 表示当前会话没有执行任何操作。
如果 DBA 要手工断开某个会话,则执行 :
alter system kill session 'SID,SERIAL#';
注意,上例中 SID 1 7(USERNAME 列为空 ) 的会话,是 Oracle 的后台进程,不要对这些会话进行任何操作。
四、控制文件的备份
在数据库结构发生变化时,如增加了表空间,增加了数据文件或重做日志文件这些操作,都会造成 Oracle 数据库控制文件的变化, DBA 应及进行控制文件的备份,备份方法是 :
执行 SQL 语句 : 以下为引用的内容:
alter database backup controlfile to '/home/backup/control.bak';
: 以下为引用的内容:
alter database backup controlfile to trace;
这样,会在 USER_DUMP_DEST( 初始化参数
文件中指定 ) 目录下生成创建控制文件的 SQL 命令。
五、检查数据库文件的状态
DBA 要及时查看数据库中数据文件的状态 ( 如被误删除 ) ,根据实际情况决定如何进行处理,检查数据文件的状态的 SQL 如下 : 以下为引用的内容:
select file_name,status from dba_data_files;
如果数据文件的 STATUS 列不
AVAILABLE ,那么就要采取相应的措施,如对该数据文件进行恢复操作,或重建该数据文件所在的表空间。
六、检查数据库定时作业的完成情况
如果数据库使用了 Oracle JOB 来完成一些定时作业,要对这些 JOB 的运行情况进行检查 :
以下为引用的内容:
select job,log_user,last_date,failures from dba_jobs;
如果 FAILURES 列是一个大于 0 的数
的话,说明 JOB 运行失败,要进一步的检查。
七、数据库坏块的处理
Oracle 数据库出现坏块时, Oracle 会在警告日志文件 (alert_SID.log) 中记录坏块的信息 :
ORA-01578: ORACLE data block corrupted (file # 7, block # )
ORA-01110: data file : '/oracle1/oradata/V920/oradata/V816/users01.dbf'
其中, 代表坏块所在数据文件的绝对文件号, 代表坏块是数据文件上的第几个数据块出现这种情况时,应该首先检查是否是硬件及操作系统上的故障导致 Oracle 数据库出现坏块。在排除了数据库以外的原因后,再对发生坏块的数据库对象进行处理。
1. 确定发生坏块的数据库对象 以下为引用的内容:
SELECT tablespace_name, segment_type, owner, segment_name FROM dba_extents WHERE file_id = AND between block_id AND block_id+blocks-1;
2. 决定修复
方法 :
如果发生坏块的对象是一个索引,那么可以直接把索引 DROP 掉后,再根据表里的记录进行重建;
如果发生坏块的表的记录可以根据其它表的记录生成的话,那么可以直接把这个表 DROP 掉后重建;
如果有数据库的备份,则恢复数据库的方法来进行修复;
如果表里的记录没有其它办法恢复,那么坏块上的记录就丢失了,只能把表中其它数据块上的记录取出来,然后对这个表进行重建。
3. Oracle 提供的 DBMS_REPAIR 包标记出坏块 :
exec DBMS_REPAIR.SKIP_CORRUPT_BLOCKS(' ','');
4. 使用 Create table as select 命令将表中其它块上的记录保存到另一张表上 以下为引用的内容:
create table corrupt_table_bak as select * from corrupt_table;
5. DROP TABLE 命令删除有坏块的表 以下为引用的内容:
drop table corrup_tatble;
6. alter table rename 命令恢复原来的表 以下为引用的内容:
alter table corrupt_table_bak rename to corrupt_table;
7. 如果表上存在索引,则要重建表上的索引。
八、操作系统相关维护
DBA 要注意对操作系统的监控 :
文件系统的空间使用情况 (df -k) ,必要时对 Oracle 的警告日志及 TRC 文件进行清理
如果 Oracle 提供网络服务,检查网络连接是否正常
检查操作系统的资源使用情况是否正常
检查数据库服务器有没有硬件故障,如磁盘、内存报错
 
 注:本文转自 itpub.net