查看: 659|回复: 13

RAC 双节点性能差距太大问题定位

[复制链接]
论坛徽章:
0
发表于 2019-11-4 20:30 | 显示全部楼层 |阅读模式
故障现象:       solaris  11.2.0.4  RAC   1节点运行正常 ,   2节点运行超级慢,并且慢的节点生成AWR报告超过1个小时,
       重启 2节点,所有的查询都恢复正常,运行1天或者几天后再次出现类似问题 ,求解!!!


同样的SQL 在双机执行 ,正常节点1秒  ,故障节点 需要几分钟以上.
当数据库2节点数据库运行缓慢后,将所有的会话迁移走,空实例什么SQL 都不执行,进行查询  也是异常缓慢,没有任何起色,求解!

操作系统   数据库没有任何报错!
多路径是华为的 ,检测多路径 所有的光纤链路无告警无报错,底层存储采用  normal冗余级别
当数据库2节点数据库运行缓慢后,关掉所有的数据库实例的连接,在系统零负载的情况下故障节点 运行依然缓慢,未有任何改善.


查询AWR报告  Interconnect Ping Latency Stats   高达45秒 不知道是否跟性能有直接关系,测试数据私有网络传输每秒50M/S心跳网络50M/s的速度心跳是网卡直连,未过交换机
慢节点的系统的  IO    cpu    内存,没有任何压力,


双机的AWR 请查收附件,求各位大神能指点!!问题解决,会在之后整理给大家,再次感谢!

RAC双机AWR.rar

110.54 KB, 下载次数: 7

论坛徽章:
188
红宝石
日期:2014-05-09 08:24:37萤石
日期:2014-01-03 10:25:39奥运会纪念徽章:羽毛球
日期:2008-07-01 10:46:06奥运会纪念徽章:马术
日期:2008-07-07 17:43:24奥运会纪念徽章:射箭
日期:2008-07-25 18:07:39奥运会纪念徽章:皮划艇激流回旋
日期:2008-07-30 10:02:57奥运会纪念徽章:花样游泳
日期:2008-09-26 13:02:43奥运会纪念徽章:排球
日期:2008-12-03 11:23:272010新春纪念徽章
日期:2010-01-04 08:33:082010年世界杯参赛球队:澳大利亚
日期:2010-02-26 11:08:44
发表于 2019-11-5 08:24 | 显示全部楼层
检查你的内联网络.

使用道具 举报

回复
论坛徽章:
188
红宝石
日期:2014-05-09 08:24:37萤石
日期:2014-01-03 10:25:39奥运会纪念徽章:羽毛球
日期:2008-07-01 10:46:06奥运会纪念徽章:马术
日期:2008-07-07 17:43:24奥运会纪念徽章:射箭
日期:2008-07-25 18:07:39奥运会纪念徽章:皮划艇激流回旋
日期:2008-07-30 10:02:57奥运会纪念徽章:花样游泳
日期:2008-09-26 13:02:43奥运会纪念徽章:排球
日期:2008-12-03 11:23:272010新春纪念徽章
日期:2010-01-04 08:33:082010年世界杯参赛球队:澳大利亚
日期:2010-02-26 11:08:44
发表于 2019-11-5 08:25 | 显示全部楼层
你使用ping 内部ip.
ping  -s 9000 xxx ,结果贴上来.

使用道具 举报

回复
论坛徽章:
0
 楼主| 发表于 2019-11-5 14:13 | 显示全部楼层
lfree 发表于 2019-11-5 08:25
你使用ping 内部ip. ping  -s 9000 xxx ,结果贴上来.

[root@racdb-2/u01/app/oracle/diag/rdbms/ybdb/ybdb2/trace]#ping  -s 192.168.1.1 10000
PING 192.168.1.1: 10000 data bytes
10008 bytes from racdb-1_priv (192.168.1.1): icmp_seq=0. time=0.642 ms
10008 bytes from racdb-1_priv (192.168.1.1): icmp_seq=1. time=0.631 ms
10008 bytes from racdb-1_priv (192.168.1.1): icmp_seq=2. time=0.581 ms
10008 bytes from racdb-1_priv (192.168.1.1): icmp_seq=3. time=0.594 ms
10008 bytes from racdb-1_priv (192.168.1.1): icmp_seq=4. time=0.621 ms
10008 bytes from racdb-1_priv (192.168.1.1): icmp_seq=5. time=0.607 ms
10008 bytes from racdb-1_priv (192.168.1.1): icmp_seq=6. time=0.586 m

使用道具 举报

回复
论坛徽章:
188
红宝石
日期:2014-05-09 08:24:37萤石
日期:2014-01-03 10:25:39奥运会纪念徽章:羽毛球
日期:2008-07-01 10:46:06奥运会纪念徽章:马术
日期:2008-07-07 17:43:24奥运会纪念徽章:射箭
日期:2008-07-25 18:07:39奥运会纪念徽章:皮划艇激流回旋
日期:2008-07-30 10:02:57奥运会纪念徽章:花样游泳
日期:2008-09-26 13:02:43奥运会纪念徽章:排球
日期:2008-12-03 11:23:272010新春纪念徽章
日期:2010-01-04 08:33:082010年世界杯参赛球队:澳大利亚
日期:2010-02-26 11:08:44
发表于 2019-11-5 15:41 | 显示全部楼层
这样看节点2 访问存储出了问题.

Top 10 Foreground Events by Total Wait Time

Event        Waits        Total Wait Time (sec)        Wait Avg(ms)        % DB time        Wait Class
db file sequential read        24,515        9304.6        380        62.6        User I/O
DB CPU                  9050.3                 60.9         

--//不大可能出现380ms.

使用道具 举报

回复
认证徽章
论坛徽章:
8
2009新春纪念徽章
日期:2009-01-04 14:52:28祖国60周年纪念徽章
日期:2009-10-09 08:28:002010新春纪念徽章
日期:2010-03-01 11:07:24ITPUB9周年纪念徽章
日期:2010-10-08 09:32:25ITPUB十周年纪念徽章
日期:2011-11-01 16:23:262013年新春福章
日期:2013-02-25 14:51:24沸羊羊
日期:2015-03-04 14:51:522015年新春福章
日期:2015-03-06 11:57:31
发表于 2019-11-5 16:37 | 显示全部楼层
今天在现场,空了看了下楼主的AWR,应该和之前的判断一致:
1、问题在节点1的IO上,这个负载对不是太好的存储来说并不小,可以重点看看存储的负载和性能;
2、 另外一个想说的问题是,应用没分片,也就是两个节点的应用重叠比较多,这样的话,节点2需要的数据在节点1缓冲中存在,导致了内联网上的大流量,而同时,节点1上的负载导致IO性能不好,因为两个节点共享存储,节点2上的IO负载虽然并不重,但性能也不好。除了内联网上的大流量,IO性能不好也会影响GCS的性能;
3、总之,节点1导致IO性能不好,应用未分片导致内联流量大,IO又反过来影响GCS性能;
4、此外,两个节点的解析比较重,尤其是节点1,但这不是主要因素;
5、可以重点看看节点1上这几个SQL,耗IO比较多:
awr_sql.jpg

使用道具 举报

回复
论坛徽章:
0
 楼主| 发表于 2019-11-5 21:19 | 显示全部楼层
sqysl 发表于 2019-11-5 16:37
今天在现场,空了看了下楼主的AWR,应该和之前的判断一致:1、问题在节点1的IO上,这个负载对不是太好的存 ...

跟1节点的关系不大,1节点不开也是一样的效果,2节点还是慢如牛

使用道具 举报

回复
认证徽章
论坛徽章:
8
2009新春纪念徽章
日期:2009-01-04 14:52:28祖国60周年纪念徽章
日期:2009-10-09 08:28:002010新春纪念徽章
日期:2010-03-01 11:07:24ITPUB9周年纪念徽章
日期:2010-10-08 09:32:25ITPUB十周年纪念徽章
日期:2011-11-01 16:23:262013年新春福章
日期:2013-02-25 14:51:24沸羊羊
日期:2015-03-04 14:51:522015年新春福章
日期:2015-03-06 11:57:31
发表于 2019-11-6 08:13 来自手机 | 显示全部楼层
anystarhu 发表于 2019-11-5 21:19
跟1节点的关系不大,1节点不开也是一样的效果,2节点还是慢如牛

如果真如楼主所说,那问题就简单了,只需把节点1关了,取个节点2的AWR就好了。
难道是节点2到存储的链路出了问题?建议排查下。

使用道具 举报

回复
论坛徽章:
188
红宝石
日期:2014-05-09 08:24:37萤石
日期:2014-01-03 10:25:39奥运会纪念徽章:羽毛球
日期:2008-07-01 10:46:06奥运会纪念徽章:马术
日期:2008-07-07 17:43:24奥运会纪念徽章:射箭
日期:2008-07-25 18:07:39奥运会纪念徽章:皮划艇激流回旋
日期:2008-07-30 10:02:57奥运会纪念徽章:花样游泳
日期:2008-09-26 13:02:43奥运会纪念徽章:排球
日期:2008-12-03 11:23:272010新春纪念徽章
日期:2010-01-04 08:33:082010年世界杯参赛球队:澳大利亚
日期:2010-02-26 11:08:44
发表于 2019-11-6 08:45 | 显示全部楼层
sqysl 发表于 2019-11-6 08:13
如果真如楼主所说,那问题就简单了,只需把节点1关了,取个节点2的AWR就好了。难道是节点2到存储的链路出了 ...

应该是链路有问题,ping 对方内网没问题.
应该rac2访问存储出了问题.不然db seq read 不会380ms这么慢.

使用道具 举报

回复
论坛徽章:
5
2014年新春福章
日期:2014-02-18 16:42:02马上有房
日期:2014-02-18 16:42:02优秀写手
日期:2014-10-22 06:00:13秀才
日期:2016-12-21 16:55:07秀才
日期:2017-08-18 11:06:45
发表于 2019-11-7 15:06 | 显示全部楼层
节点二的网线坏了吧

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

PostgreSQL中国大会,参会票抢购!

由 PostgreSQL中文社区与ITPUB联合主办的第九届《PostgreSQL 中国技术大会》将在北京隆重召开。PostgreSQL 作为功能最强的的开源关系型数据库之一,得到了越来越多企业的推广和运用,也越来越受到广大技术爱好者的欢迎和重视。这将是 PostgreSQL 的又一次交流盛会。
----------------------------------------
时间:2019年11月29~11月30日

点击报名>>
TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 
京ICP备09055130号-4  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表