一、前言
SQL阻塞Block是事务联机系统OLTP的产物。由于锁导致的资源等待,事务执行时间过长,直接影响业务;了解阻塞,发现阻塞,已作为DBA日常维护的重中之重。
通过dmv可以发现当前正在阻塞的语句,编写存储过程,使用agent作业定时执行,也能达到收集阻塞的效果;然而此方法存在一定的误差。使用扩展事件记录所有等待一定时间的阻塞,能完整的记录所有发生阻塞的SQL。
1.1、blocked process threshold (s)
通过以下脚本查看;默认blocked process收集不开启。
exec sp_configure 'show advanced options',1;RECONFIGURE
exec sp_configure 'blocked process threshold (s)';
执行以下脚本,记录所有阻塞超过10s的进程
USE master;
EXEC sp_configure 'blocked process threshold (s)',10
RECONFIGURE WITH OVERRIDE;
1.2、blocked_process_report
我们可以通过选择blocked_process_report扩展事件,当任务被阻塞的时间超过 sp_configure 阻塞的进程阈值设置所指定的时间时,记录阻塞信息。如下情况图所示。
二、新建扩展事件
2.1、新建扩展事件ev_block_session
将数据写入N'd:\xe_sessions\servername_ev_block_session.xel',最大文件2M,可以循环40个文件,超过40个文件将自动删除。
CREATE EVENT SESSION [ev_block_session] ON SERVER
ADD EVENT sqlserver.blocked_process_report(
ACTION(sqlserver.query_hash,sqlserver.query_plan_hash))
ADD TARGET package0.event_file(SET filename=N'd:\xe_sessions\servername_ev_block_session.xel',max_file_size=(2),max_rollover_files=(40))
WITH (MAX_MEMORY=4096 KB,EVENT_RETENTION_MODE=ALLOW_SINGLE_EVENT_LOSS,MAX_DISPATCH_LATENCY=30 SECONDS,MAX_EVENT_SIZE=0 KB,MEMORY_PARTITION_MODE=NONE,TRACK_CAUSALITY=OFF,STARTUP_STATE=OFF)
GO
2.2、默认不启动该事件
手动启动脚本。
ALTER EVENT SESSION [ev_block_session] ON SERVER STATE = START
三、分析阻塞文件
3.1、sys.Fn_xe_file_target_read_file
使用该系统函数,分析扩展事件文件;查出结果XML格式。
SELECT CONVERT(XML,event_data) AS data
sys.Fn_xe_file_target_read_file(N'd:\xe_sessions\servername_ev_block_session.xel',NULL,NULL,NULL)
3.2、分析
新建xe_block表,将分析结果保存在在该表中。具体信息如下脚本所示;每阻塞10s时间,就会再次被记录;可以通过查询同一个transaction_id下最大monitorloop,来确定当前阻塞时间。
;WITH d AS (
SELECT
dateadd(hh,8,data.value('(/event/@timestamp)[1]','datetime')) timestamp,--时间戳
data.value('(/event/data[@name="duration"]/value)[1]','bigint')/1000/1000 duration_us,--阻塞时长
data.value('(/event/data[@name="database_name"]/value)[1]','nvarchar(128)') database_name,--阻塞数据库
data.value('(/event/data[@name="transaction_id"]/value)[1]','bigint') transaction_id,--阻塞事务id
data.value('(//blocked-process-report/@monitorLoop)[1]','bigint') monitorLoop,--监控自增id
data.query('//blocked-process-report') block,--阻塞内容
data
FROM #event_data a
)
INSERT INTO xe_block(
timestamp--时间戳
,duration_us--阻塞时长
,database_name--阻塞数据库
,transaction_id--阻塞事务数
,monitorLoop--监控增长id
,blocked_spid--被阻塞spid
,blocked_trancount--被阻塞事务
,blocked_waitresource--被阻塞等待资源
,blocked_lockmode--被阻塞等待锁
,blocked_hostname--被阻塞主机
,blocked_loginname--被阻塞用户
,blocked_clientapp--被阻塞客户端
,blocked_sql--被阻塞脚本
,blocking_spid--阻塞spid
,blocking_trancount--阻塞事务数
,blocking_status--阻塞状态
,blocking_waitresource--阻塞等待资源
,blocking_lockmode--阻塞锁
,blocking_hostname--阻塞主机
,blocking_loginname--阻塞用户
,blocking_clientapp--阻塞客户端
,blocking_sql--阻塞脚本
,data
)
SELECT
d.timestamp,
d.duration_us,
d.database_name,
d.transaction_id,
d.monitorLoop,
ed.c.value('@spid','int') blocked_spid,
ed.c.value('@trancount','int') blocked_trancount,
ed.c.value('@waitresource','varchar(64)') blocked_waitresource,
ed.c.value('@lockMode','varchar(32)') blocked_lockmode,
ed.c.value('@hostname','varchar(64)') blocked_hostname,
ed.c.value('@loginname','varchar(64)') blocked_loginname,
ed.c.value('@clientapp','varchar(256)') blocked_clientapp,
ed.c.query('.').value('(/process/inputbuf)[1]','varchar(max)') blocked_sql,
ing.c.value('@spid','int') blocking_spid,
ing.c.value('@trancount','int') blocking_trancount,
ing.c.value('@status','varchar(32)') blocking_status,
ing.c.value('@waitresource','varchar(64)') blocking_waitresource,
ing.c.value('@lockMode','varchar(32)') blocking_lockmode,
ing.c.value('@hostname','varchar(64)') blocking_hostname,
ing.c.value('@loginname','varchar(64)') blocking_loginname,
ing.c.value('@clientapp','varchar(256)') blocking_clientapp,
ing.c.query('.').value('(/process/inputbuf)[1]','varchar(max)') blocking_sql,
data
FROM d
CROSS APPLY d.block.nodes('//blocked-process/process') ed(c)
CROSS APPLY d.block.nodes('//blocking-process/process') ing(c)
四、监控报警
报警方式:统计每分钟阻塞事务数,阻塞时长,通过一定规则并通过report service发送订阅,报警如下