今天下午,有台服务器出现异常,响应特别慢,io等待奇高,awr top 5事件如下:
经回查ash,找到了造成这些事件的sql语句,如下:
select * from v$active_session_history where event='enq: TM - contention'
select * from v$active_session_history where event='enq: KO - fast object checkpoint'
enq-TM的事件主要由insert /*+ append */语句引起,如下:
enq-TM是一个表级别锁,在本例中主要是由于append引起。
TM 锁在下列场景中被申请:
- 在OPS(早期的RAC)中LGWR会以ID1=0 & ID2=0去申请该队列锁来检查 DML_LOCKS 在所有实例中是全0还是全非0
- 当一个单表或分区 需要做不同的表/分区操作时,ORACLE需要协调这些操作,所以需要申请该队列锁。包括:
- 启用参考约束 referential constraints
- 修改约束从DIASABLE NOVALIDATE 到DISABLE VALIDATE
- 重建IOT
- 创建视图或者修改ALTER视图时可能需要申请该队列锁
- 分析表统计信息或validate structure时
- 一些PDML并行DML操作
- 所有可能调用kkdllk()函数的操作
- 。。。。
enq:KO主要由下列select引起:
enq: KO - fast object checkpoint 发生的原因是:当进行TABLE FULL SCAN (全表扫描) 或并行查询整个segment时, 11g下,因_adaptive_direct_read 默认为true, 达到阀值_small_table_threshold大小的表会被认为是大表,读取数据时不会读入SGA , 而是直接路径读取(direct path read),而direct path read 是需要将数据从磁盘读取到各session 的PGA中,因为不是读入SGA, 所以读取这些表之前需要在所有数据库节点(如果是RAC)触发object level checkpoint,将这些表被修改过的dirty buffer写入磁盘,以保证读取数据的一致性 。
在本服务器中,_small_table_threshold的值如下:
大约为250M。
由于我们的系统是清算系统,故一方面考虑加大_small_table_threshold到1G-2G左右左右,以避免大量的不必要物理读写。如果发生这种等待事件,一个简单的查询可能也会变得非常慢。
至于free buffer waits,不是主因,主要是受前两者牵连所致。造成free buffer waits还有一个原因,就是大DML造成的延迟块清除或者delete造成的undo块写入文件(磁盘子系统慢,io很高,将undo移动到另外一块快的存储之后,性能极大提升):