ITPUB??ì3
ITPUB论坛 » Oracle数据库管理 » 解决数据库慢的方法论

离线 feng_xin
guoguo mama


精华贴数 7
个人空间 660
技术积分 1994 (764)
社区积分 3017 (409)
注册日期 2001-9-24
论坛徽章:13
现任管理团队成员ITPUB元老玉石琵琶铁扇公主授权会员生肖徽章2007版:羊
生肖徽章2007版:蛇生肖徽章2007版:鼠生肖徽章2007版:鼠生肖徽章2007版:鸡ITPUB新首页上线纪念徽章 

发表于 2008-3-18 18:06 
解决数据库慢的方法论

数据库的performance是一个长期的监控过程,不能头疼医头,脚疼医脚。

数据库慢一般有三种情况
1。逐渐变慢
2。突然变慢
3。不定时变慢


第一种情况 “逐渐变慢”,要建立一个长期的监控机制。比如,写个shell脚本每天的忙时(通常9~10 etc.)定时收集os,network,db的信息, 每个星期出report对收集到的信息进行分析。 这些数据的积累,可以决定后期的优化决策,并且可以是DBA说服manager采用自己决策的重要数据。DBA的价值,就在每个星期的report中体现。

第二种情况 “突然变慢”,也是最容易解决的。先从业务的角度看是DB的使用跟以前有何不同,然后做进一步判断。硬件/网络故障通常也会引起DB性能的突然下降。

第一步:  察看DB/OS/NETWORK的系统log, 排除硬件/网络问题

第二步:察看数据库的等待事件,根据等待事件来判断可能出问题的环节。如果, 没有等待事件, 可以排除数据库的问题. 如果有等待时间, 根据不同的等待事件, 来找引起这些事件的根源.
比如latch free等跟SQL parse有关系的等待事件,OS的表现是CPU 的占用率高
db file scattered read等跟SQL disk read有关系的等待时间, OS的表现是iostat可以看到磁盘读写量增加

第三步: 察看os的信息, CPU/IO/MEMORY等.
a.  Cpu 的占用率
CPU占用率与数据库性能不成反比. CPU占用率高, 不能说明数据库性能慢.  通常情况, 一个优化很好, 而且业务量确实很大的数据库, CPU的占用率都会高, 而且会平均分布在每个进程上. 反过来, CPU的占用率都会高也不代表数据库性能就好, 要结合数据库的等待事件来判断CPU占用率高是否合理.
如果某个进程的cpu占用高, 肯定是这个进程有问题. 如果,不是oracle的进程, 可以让application察看是否程序有死循环等漏洞. 如果,是oracle的进程, 可以根据pid查找oracle数据字典看看这个进程的发起程序, 正在执行的sql语句, 以及等待事件. 然后, 不同情况使用不同的方法来解决.

b. IO
排除硬件的IO问题, 数据库突然变慢, 一般来说, 都是一个或几个SQL语句引起的.
如果IO很频繁, 可以通过优化disk reads高的TOP SQL来解决. 当然这也是解决IO问题的最笨也是最有效的办法.
OS以及存储的配置也是影响IO的一个重要的原因.
比如, 最常见的HP-unix下异步IO的问题, 如果DBA GROUP没有MLOCK的权限, ORACLE是不使用AIO的. 偏偏OS与DB的两方的admin如果配合不够好地话, 这个配置就很容易给漏掉了.

c. Memory
第二种情况与memory的关系比较小, 只要SGA区配置合理没有变化, 一般来说, 只要不是Application Memory leak, 不会引起突然变慢的现象.

第三种情况 “不定时变慢”, 是最难解决的. 现场出现的问题原因也是五花八门千奇百怪, 最重要的是, 出现慢的现象时, 以最快的速度抓取到最多的信息以供分析. 先写好抓取数据的shell 脚本, 并在现象发生时及时按下回车键





一个例子

数据库突然变慢

背景: 一个新应用上线后, 数据库突然变慢

第一步, 调查新应用

据开发人员讲新应用访问的都是新建立的表, 表的数据量很小, 没有复杂的SQL查询.
查询 v$sqlarea 分别按照disk_reads / buffer_gets / executions 排序, TOP SQL 中没有新应用的SQL. 排除新应用数据库访问照成的性能问题.

第二步, 察看数据库log/ OS log

数据库log中可以看到大量的ORA-7445错误, 以及大量的dump文件. 分析dump文件(时间久了,没有dump文件可参考, 具体细节没法描述下来. ), 发现是新应用通过dblink访问remote DB时生成的dump文件, 应用开发人说没法修改, Oracle也没有相应的patch解决.

OS log中没有错误信息

第三步, 察看statspack report

从wait events中看到,Top event是“buffer busy waits” “db file parallel write” 等于IO相关的等待事件.
从buffer busy waits 的统计信息来看, 是等待data block.
还有些physical reads等信息与从前比没有太多的异常.
Tablespace 的IO reads/writes也没有异常, 但是wait明显增加.
初步确定是IO问题.

第四步, 察看OS的信息

1. top 命令(输出为实验室数据,仅作格式参考)
load averages:  0.05,  0.10,  0.09                                                                           10:18:32
307 processes: 304 sleeping, 1 zombie, 1 stopped, 1 on cpu
CPU states: 96.0% idle,  0.3% user,  2.6% kernel,  1.1% iowait,  0.0% swap
Memory: 4096M real, 2660M free, 1396M swap in use, 3013M swap free

   PID USERNAME THR PRI NICE  SIZE   RES STATE    TIME    CPU COMMAND
11928 a21562     1   0    0 3008K 2496K cpu/1    0:02  1.12% top
14965 mpgj76     4  59    0   10M 3696K sleep    3:09  0.18% view_server

当时现场数据显示:iowait 值与以前相比大很多, 没有异常进程

2. sar –d (输出为实验室数据,仅作格式参考)

SunOS sc19 5.7 Generic_106541-42 sun4u    03/20/08

00:00:00   device        %busy   avque   r+w/s  blks/s  avwait  avserv
           sd410            17     0.4      50    1628     0.1     7.1
           sd410,a           0     0.0       0       0     0.0     0.0
           sd410,b           0     0.0       0       0     0.0     0.0
           sd410,c           0     0.0       0       0     0.0     0.0
           sd410,g          17     0.4      50    1628     0.1     7.1

当时现场数据显示,放数据文件的设备 avwait, avque, blks/s值偏大


第五步, 察看数据库的等待事件

一个大业务量的数据库如果性能不好的话, 一般来说都会有大量的等待事件, 上百个等待事件很常见, 我通常会按照EVENT进行group.

Select count(*), event from v$session_wait where event not in ('smon timer','pmon timer','rdbms ipc message','SQL*Net message from client') group by event order by 1 desc;

输出结果显示最多的等待事件是buffer busy waits。

进一步分析,找出等待的原因
Select count(*), p1, p2, p3 from v$session_wait where event = ‘buffer busy waits’ group by p1,p2,p3;

在buffer busy waits等待事件中
P1 = file#
P2 = block#
P3 = id ( 此id对应为等待的原因)

按照p1,p2,p3 group是为了明确buffer busy waits的等待集中在哪些对象上。
Metalink对buffer busy waits等待事件的描述有如下一段话:

“If P3 shows that the "buffer busy wait" is waiting for a block read to complete then the blocking session is likely to be waiting on an IO wait (eg: "db file sequential read" or "db file scattered read" for the same file# and block#.”

输出结果显示,等待分布在多个不同的对象上,等待原因为 “waiting for a block read to complete”,进一步分析为IO的问题。

如果,buffer busy waits等待集中在某个对象上,说明有hot block, 通过重新rebuild这个对象增加freelist来解决,RAC环境增加freelist group.

通过以下SQL可以找到具体的object.

Select owner, segment_name, segment_type from dba_extents where file_id=P1 and P2 between block_id and block_id+blocks;

P1,P2是上面v$session_wait查出的具体的值

第六步, 明确原因,找出解决步骤

分析:
1。磁盘的IO流量增加
2。磁盘的IO等待增加
3。DB的IO流量没有增加
4。DB的IO等待增加
由1,2,3,4可以推出,有数据库以外的IO访问磁盘。
察看磁盘配置,该VG只存放了数据库数据文件和数据库系统文件。排除数据文件,产生IO的是数据库系统文件。
数据库系统文件一般来说不会产生IO, 有IO读写的地方只有log和dump文件。
结论:ora-7445产生的大量core dump文件堵塞IO

解决办法:
1,消除ora-7445. (应用不改的情况下,无法解决)
2, 把dump目录指向别的VG
3, 让oracle尽量少的去写core dump文件
  background_core_dump = partial
  shadow_core_dump = partial

[ 本帖最后由 feng_xin 于 2008-3-20 14:20 编辑 ]


__________________

信心并不止是相信,而是看不见证据,仍然相信。

此之谓:大信!


¤ ╱◥█◣^^  ╭⌒╮     
  ︱田︱田︱ぃ╭ ╭ ⌒╮   
⿶⿶⿶⿶⿶ い⿶⿶⿶⿶⿶⿶⿶ 
╪╪╪╪╪╪╪╪╪╪╪
⿶⿶⿶⿶
只看该作者    顶部
离线 archivelog
阿开
初级会员


来自 沈阳人在北京
精华贴数 0
个人空间 0
技术积分 195 (9210)
社区积分 3 (21835)
注册日期 2008-3-16
论坛徽章:1
数据库板块每日发贴之星     
      

发表于 2008-3-18 19:18 
不错,不错,非常感谢!
收藏之~


__________________
脚踏实地,厚积薄发~
QQ:94243990
MSN:qiaoning@msn.com
阿开的个人空间
只看该作者    顶部
离线 zuohao_lu
haorman



精华贴数 0
个人空间 530
技术积分 2927 (486)
社区积分 4844 (268)
注册日期 2007-11-13
论坛徽章:19
生肖徽章2007版:鼠     
      

发表于 2008-3-18 21:29 
up


只看该作者    顶部
离线 五“宅”一生
一般会员



来自 大连
精华贴数 0
个人空间 0
技术积分 3684 (363)
社区积分 5 (15402)
注册日期 2006-11-4
论坛徽章:13
数据库板块每日发贴之星数据库板块每日发贴之星数据库板块每日发贴之星2008北京奥运纪念徽章:排球数据库板块每日发贴之星数据库板块每日发贴之星
数据库板块每日发贴之星数据库板块每日发贴之星数据库板块每日发贴之星数据库板块每日发贴之星生肖徽章2007版:鼠生肖徽章2007版:鸡

发表于 2008-3-18 21:47 
好帖子,等待楼主后续内容。


只看该作者    顶部
离线 plvision
一天进步一点点



精华贴数 0
个人空间 10
技术积分 221 (8266)
社区积分 3 (21335)
注册日期 2007-3-16
论坛徽章:1
生肖徽章2007版:鸡     
      

发表于 2008-3-18 23:22 
期待下文。


__________________
home:  http://space.itpub.net/9253450/
只看该作者    顶部
离线 cc59
L China



精华贴数 0
个人空间 260
技术积分 9764 (117)
社区积分 13689 (96)
注册日期 2004-8-13
论坛徽章:62
现任管理团队成员2008北京奥运纪念徽章:柔道    
      

发表于 2008-3-19 00:31 
比较全面了,再加上有时候需要往bug方面来考虑,

通常指的是常规状态下出现异常的情况,这需要很多的经验来判断一个bug


__________________
My blog: tuning rac and using parallel


msn:liuyi8903@hotmail.com
只看该作者    顶部
离线 cc59
L China



精华贴数 0
个人空间 260
技术积分 9764 (117)
社区积分 13689 (96)
注册日期 2004-8-13
论坛徽章:62
现任管理团队成员2008北京奥运纪念徽章:柔道    
      

发表于 2008-3-19 00:33 
像 loop  hang之类的情况.有时候可能是os等vendor方面的问题.


__________________
My blog: tuning rac and using parallel


msn:liuyi8903@hotmail.com
只看该作者    顶部
离线 rollingpig
版主


精华贴数 4
个人空间 0
技术积分 25739 (32)
社区积分 1446 (688)
注册日期 2001-10-18
论坛徽章:53
现任管理团队成员2006年度最佳技术回答Heart of PUBITPUB北京九华山庄2008年会纪念徽章蓝锆石海蓝宝石
会员2007贡献徽章2008北京奥运纪念徽章:沙滩排球2008年新春纪念徽章每日论坛发贴之星  

发表于 2008-3-19 08:41 
有点乱
其实可以归结为一个方法

定期收集OS信息包括CPU,mem,net,swap等
定期收集DB信息,就是statspack

无论逐渐慢,突然慢,还是有时慢,都可以轻松从以上信息中找到有用信息


__________________
提问的智慧Oracle版
0。尝试在google,论坛,metalink,online document里搜索。
1。写清楚你的执行log,报错信息,写清楚DB version , OS
2。Instance 方面的问题,请贴出alertlog
3。network的问题,贴出server的listener.ora , sqlnet.ora 并运行lsnrctl service, 贴出client的tnsnames.ora , sqlnet.ora ,并运行tnsping
4。DB总体性能问题,请于peak time做statspack,并上传statspack report。同时附上CPU/MEM配置,以及CPU IDLE/free menory的情况
5。SQL性能问题,列出当前SQL,以及PLAN。同时应提供表结构,index情况,Table的record数。CBO/RBO,table是否analyze等信息。
6。确保你的问题是Oracle相关。
提问的智慧 for Oracle[展开版]
只看该作者    顶部
离线 xzh2000
仙人抚我须 结发授长生



精华贴数 12
个人空间 0
技术积分 46110 (13)
社区积分 5058 (261)
注册日期 2002-7-17
论坛徽章:29
现任管理团队成员ITPUB元老授权会员2008北京奥运纪念徽章:柔道2008北京奥运纪念徽章:帆船生肖徽章2007版:虎
ITPUB新首页上线纪念徽章数据库板块每日发贴之星数据库板块每日发贴之星数据库板块每日发贴之星数据库板块每日发贴之星数据库板块每日发贴之星

发表于 2008-3-19 09:07 
无论从理论或实际上讲,DB变慢都是一个持续与不可扼制的进程...
1 数据量增加
2 user calls增加
3 碎片增加


__________________
过目即忘  插柳成荫
只看该作者    顶部
离线 mengzhaoliang
蒙昭良


精华贴数 0
个人空间 2830
技术积分 882 (2000)
社区积分 14 (8687)
注册日期 2008-1-16
论坛徽章:1
数据库板块每日发贴之星     
      

发表于 2008-3-19 09:36 
好东西,一定要顶.

但楼主只介绍了解决思路.  具体怎么操作,怎么分析都没有写.
期待后续!


__________________
oracle+linux+java方向
            穷则思,思则变,变则通!

            zhao.liang.meng@hotmail.com
            http://space.itpub.net/12778571/

********************************************
只看该作者    顶部
相关内容


CopyRight 1999-2006 itpub.net All Right Reserved.
北京皓辰广域网络信息技术有限公司. 版权所有
E-mail:Webmaster@itpub.net
京ICP证:010037号 联系我们 法律顾问