一次oracle故障处理过程

2009年05月25日 作者: 大头刚 

中午接到报警,tomcat连接oracle并发数超过阀值,首先怀疑是否刚更新了程序,但询问一番后答案都是否。然后怀疑是有人进行大的操作。
登录到数据库机器,用top查看,是否有消耗资源的进程。发现所有的进程资源消耗比较平均,应该没有人在进程大查询或者大的操作。

使用ASH,查看数据库近15分钟发生了什么。

SYS@sg>@?/rdbms/admin/ashrpt
 
Defaults TO -15 mins
Enter VALUE FOR begin_time: -15
Report BEGIN TIME specified: -15

打开报告,发现可疑的sql。

       SQL ID    Planhash % Activity Event                             % Event
------------- ----------- ---------- ------------------------------ ----------
2ghd19kmj1m1t  2931439336      97.04 enq: TX - ROW LOCK contention       96.89
 
UPDATE tb_name WHERE ......
 
          -------------------------------------------------------------

这条语句,产生的enq: TX - row lock contention事件,占了整个的96.89%,确认问题就好解决了。

SELECT a.sid, b.SERIAL#,a.state, a.wait_time
FROM v$session_wait a,v$session b
WHERE a.wait_class='Application' AND a.event='enq: TX - row lock contention' 
AND a.sid=b.sid ORDER BY a.wait_class, a.event, a.sid;
 
       SID    SERIAL# STATE		   WAIT_TIME
---------- ---------- ------------------- ----------
      1817	42155 WAITING			   0
      1819	38267 WAITING			   0
      1824	43045 WAITING			   0
      1827	29392 WAITING			   0
      1831	56038 WAITING			   0
      1833	16463 WAITING			   0
      1836	13558 WAITING			   0
 
7 rows selected.
 
SYS@sg>alter system kill session '1817,42155';
System altered.

杀掉相关进程,OK问题解决。在找开发人员,修改相关的应用。

这里只是提供一个思路,发生问题的时候,一定需要冷静思考问题可能出现的地方,先找出问题的所在,再根据问题去解决。

  • Comments (2)
  • Trackbacks (0)
Leave a comment Trackback

No trackback yet.