查看: 5180|回复: 16

【讨论】RAC宕机调查

[复制链接]
论坛徽章:
4
2014年新春福章
日期:2014-02-18 16:44:08马上有对象
日期:2014-02-18 16:44:08马上有车
日期:2015-02-06 10:57:41优秀写手
日期:2015-02-12 06:00:14
发表于 2015-2-6 10:49 | 显示全部楼层 |阅读模式
DB2的日志:
Thu Feb 05 12:17:11 2015
NOTE: ASMB terminating
Errors in file/u01/app/oracle/diag/rdbms/xtzg/xtzg2/trace/xtzg2_asmb_5177784.trc:
ORA-15064: communication failure with ASM instance
ORA-03113: end-of-file on communication channel
Process ID:
Session ID: 218Serial number: 39
Errors in file/u01/app/oracle/diag/rdbms/xtzg/xtzg2/trace/xtzg2_asmb_5177784.trc:
ORA-15064:communication failure with ASM instance
ORA-03113:end-of-file on communication channel
Process ID:
Session ID: 218Serial number: 39
ASMB (ospid: 5177784): terminating the instancedue to error 15064
Instance terminated by ASMB, pid = 5177784
ASM日志:
Thu Feb 05 12:17:12 2015
NOTE: client exited [3473686]
Thu Feb 05 12:17:13 2015
Received an instance abort message from instance 1
Thu Feb 05 12:17:13 2015
NOTE: ASMB process exiting, either shutdown is inprogress
Please check instance 1 alert and LMON trace filesfor detail.
NOTE: or foreground connected to ASMB was killed.
Thu Feb 05 12:17:13 2015
Received an instance abort message from instance 1
Please check instance 1 alert and LMON trace filesfor detail.
LMS0 (ospid: 3670290): terminating theinstance due to error 481
Termination issued to instance processes. Waitingfor the processes to exit

Instance terminated by LMS0, pid = 3670290
集群的日志:
2015-02-0512:16:50.663:
[cssd(2949608)]CRS-1612:Network communication withnode zgxjdb1 (1) missing for 50% of timeout interval.  Removal of this node from cluster in 14.572seconds
2015-02-05 12:16:58.678:
[cssd(2949608)]CRS-1611:Network communication withnode zgxjdb1 (1) missing for 75% of timeout interval.  Removal of this node from cluster in 6.557seconds
2015-02-05 12:17:02.708:
[cssd(2949608)]CRS-1610:Network communication withnode zgxjdb1 (1) missing for 90% of timeout interval.  Removal of this node from cluster in 2.527seconds
2015-02-0512:17:05.236:
[cssd(2949608)]CRS-1608:Thisnode was evicted by node 1, zgxjdb1; details at (:CSSNM00005 in/u01/app/11.2.0/grid/log/zgxjdb2/cssd/ocssd.log.
2015-02-0512:17:05.237:
[cssd(2949608)]CRS-1656:TheCSS daemon is terminating due to a fatal error; Details at (:CSSSC00012 in/u01/app/11.2.0/grid/log/zgxjdb2/cssd/ocssd.log
2015-02-0512:17:05.242:
[cssd(2949608)]CRS-1652:Startingclean up of CRSD resources.
2015-02-0512:17:05.467:
[cssd(2949608)]CRS-1608:Thisnode was evicted by node 1, zgxjdb1; details at (:CSSNM00005 in/u01/app/11.2.0/grid/log/zgxjdb2/cssd/ocssd.log.
2015-02-0512:17:05.509:
[cssd(2949608)]CRS-1608:Thisnode was evicted by node 1, zgxjdb1; details at (:CSSNM00005 in/u01/app/11.2.0/grid/log/zgxjdb2/cssd/ocssd.log.
2015-02-0512:17:05.739:
[cssd(2949608)]CRS-1609:Thisnode is unable to communicate with other nodes in the cluster and is going downto preserve cluster integrity; details at (:CSSNM00008 in/u01/app/11.2.0/grid/log/zgxjdb2/cssd/ocssd.log.
2015-02-0512:17:06.927:
[/u01/app/11.2.0/grid/bin/oraagent.bin(5111868)]CRS-5016:Process"/u01/app/11.2.0/grid/opmn/bin/onsctli" spawned by agent"/u01/app/11.2.0/grid/bin/oraagent.bin" for action "check"failed: details at "(:CLSN00010" in"/u01/app/11.2.0/grid/log/zgxjdb2/agent/crsd/oraagent_grid/oraagent_grid.log"
2015-02-0512:17:09.147:
[/u01/app/11.2.0/grid/bin/oraagent.bin(5111868)]CRS-5016:Process"/u01/app/11.2.0/grid/bin/lsnrctl" spawned by agent"/u01/app/11.2.0/grid/bin/oraagent.bin" for action "check"failed: details at "(:CLSN00010" in "/u01/app/11.2.0/grid/log/zgxjdb2/agent/crsd/oraagent_grid/oraagent_grid.log"
2015-02-0512:17:11.231:
[cssd(2949608)]CRS-1654:Cleanup of CRSD resources finished successfully.
2015-02-0512:17:11.236:

[cssd(2949608)]CRS-1655:CSSD on node zgxjdb2detected a problem and started to shutdown.
OSSD的日志:
2015-02-0512:16:50.666: [   CSSD][5157]clssnmPollingThread: node zgxjdb1 (1) at 50% heartbeat fatal,removal in 14.572 seconds
2015-02-0512:16:50.667: [   CSSD][5157]clssnmPollingThread: node zgxjdb1 (1) is impending reconfig,flag 2491406, misstime 15428
2015-02-0512:16:50.667: [   CSSD][5157]clssnmPollingThread: local diskTimeout set to 27000 ms,remote disk timeout set to 27000, impending reconfig status(1)
2015-02-0512:16:50.667: [   CSSD][4129]clssnmvDHBValidateNcopy: node 1, zgxjdb1, has a disk HB, butno network HB, DHB has rcfg 317496490, wrtcnt, 7725783, LATS 2661826219,lastSeqNo 7688989, uniqueness 1422001660, timestamp 1423109809/2748980461
2015-02-0512:16:50.667: [   CSSD][3358]clssnmvDHBValidateNcopy: node 1, zgxjdb1, has a disk HB, butno network HB, DHB has rcfg 317496490, wrtcnt, 7725785, LATS 2661826219,lastSeqNo 7706687, uniqueness 1422001660, timestamp 1423109810/2748980737
2015-02-0512:16:50.725: [   CSSD][2073]clssnmvDiskPing: Writing with status 0x3, timestamp1423109810/2661826277
2015-02-0512:16:51.168: [   CSSD][4129]clssnmvDHBValidateNcopy: node 1, zgxjdb1, has a disk HB, butno network HB, DHB has rcfg 317496490, wrtcnt, 7725786, LATS 2661826720,lastSeqNo 7725783, uniqueness 1422001660, timestamp 1423109810/2748981462
2015-02-0512:16:51.168: [   CSSD][3358]clssnmvDHBValidateNcopy: node 1, zgxjdb1, has a disk HB, butno network HB, DHB has rcfg 317496490, wrtcnt, 7725788, LATS 2661826720,lastSeqNo 7725785, uniqueness 1422001660, timestamp 1423109811/2748981737
2015-02-0512:16:51.230: [   CSSD][2073]clssnmvDiskPing: Writing with status 0x3, timestamp1423109811/2661826782
2015-02-0512:16:51.494: [   CSSD][2844]clssnmvDiskPing: Writing with status 0x3, timestamp1423109811/2661827046
2015-02-0512:16:51.548: [   CSSD][3615]clssnmvDiskPing: Writing with status 0x3, timestamp1423109811/2661827100
2015-02-0512:16:51.668: [   CSSD][3358]clssnmvDHBValidateNcopy: node 1, zgxjdb1, has a disk HB, butno network HB, DHB has rcfg 317496490, wrtcnt, 7725790, LATS 2661827220,lastSeqNo 7725788, uniqueness 1422001660, timestamp 1423109811/2748982239
2015-02-0512:16:51.736: [   CSSD][2073]clssnmvDiskPing: Writing with status 0x3, timestamp1423109811/2661827287
2015-02-0512:16:51.994: [   CSSD][2844]clssnmvDiskPing: Writing with status 0x3, timestamp1423109811/2661827546
2015-02-0512:16:52.052: [   CSSD][3615]clssnmvDiskPing: Writing with status 0x3, timestamp1423109812/2661827604

2015-02-0512:16:52.170: [   CSSD][4129]clssnmvDHBValidateNcopy: node 1, zgxjdb1, has a disk HB, butno network HB, DHB has rcfg 317496490, wrtcnt, 7725791, LATS 2661827721,lastSeqNo 7725786, uniqueness 1422001660, timestamp 1423109811/2748982463

我推测是网络中断导致,请大侠们指教。

认证徽章
论坛徽章:
20
ITPUB新首页上线纪念徽章
日期:2007-10-20 08:38:44itpub13周年纪念徽章
日期:2014-09-28 10:55:54马上有钱
日期:2014-12-14 22:33:02美羊羊
日期:2015-02-28 17:32:28沸羊羊
日期:2015-03-04 14:51:522015年新春福章
日期:2015-03-06 11:58:18慢羊羊
日期:2015-05-01 17:38:23美羊羊
日期:2015-06-29 21:06:54秀才
日期:2015-08-28 09:17:412014年世界杯参赛球队: 瑞士
日期:2014-06-13 11:23:53
发表于 2015-2-6 11:08 | 显示全部楼层
2015-02-0512:16:50.667: [   CSSD][4129]clssnmvDHBValidateNcopy: node 1, zgxjdb1, has a disk HB, butno network HB, DHB has rcfg 317496490, wrtcnt, 7725783, LATS

私网有问题啊

使用道具 举报

回复
认证徽章
论坛徽章:
20
ITPUB新首页上线纪念徽章
日期:2007-10-20 08:38:44itpub13周年纪念徽章
日期:2014-09-28 10:55:54马上有钱
日期:2014-12-14 22:33:02美羊羊
日期:2015-02-28 17:32:28沸羊羊
日期:2015-03-04 14:51:522015年新春福章
日期:2015-03-06 11:58:18慢羊羊
日期:2015-05-01 17:38:23美羊羊
日期:2015-06-29 21:06:54秀才
日期:2015-08-28 09:17:412014年世界杯参赛球队: 瑞士
日期:2014-06-13 11:23:53
发表于 2015-2-6 11:10 | 显示全部楼层
2015-02-0512:16:50.667: [   CSSD][5157]clssnmPollingThread: node zgxjdb1 (1) is impending reconfig,flag 2491406, misstime 15428

使用道具 举报

回复
论坛徽章:
4
2014年新春福章
日期:2014-02-18 16:44:08马上有对象
日期:2014-02-18 16:44:08马上有车
日期:2015-02-06 10:57:41优秀写手
日期:2015-02-12 06:00:14
 楼主| 发表于 2015-2-6 11:57 | 显示全部楼层
parknkjun 发表于 2015-2-6 11:08
2015-02-0512:16:50.667: [   CSSD][4129]clssnmvDHBValidateNcopy: node 1, zgxjdb1, has a disk HB, butn ...

但是,客户说交换机没有报错日志,私有网络问题会记录在交换机日志里面吗?

使用道具 举报

回复
求职 : 数据库管理员
论坛徽章:
4
ITPUB社区千里马徽章
日期:2013-06-09 10:15:34马上有对象
日期:2015-01-16 11:17:07喜羊羊
日期:2015-03-04 14:54:422015年新春福章
日期:2015-03-06 11:59:47
发表于 2015-2-6 12:28 | 显示全部楼层
oracle什么版本?
操作系统什么环境,版本?
几个节点?是所有节点都宕了,还是其中一个或者多个节点宕掉了?

使用道具 举报

回复
招聘 : 数据库管理员
论坛徽章:
19
2011新春纪念徽章
日期:2011-02-18 11:42:48目光如炬
日期:2017-09-03 22:00:01山治
日期:2016-09-29 21:06:15秀才
日期:2015-10-26 09:55:08射手座
日期:2015-07-19 16:27:41沸羊羊
日期:2015-06-17 14:02:04沸羊羊
日期:2015-05-31 14:22:50暖羊羊
日期:2015-03-24 16:20:262015年新春福章
日期:2015-03-06 11:58:18美羊羊
日期:2015-03-04 14:52:28
发表于 2015-2-6 12:51 | 显示全部楼层
一眼泉水 发表于 2015-2-6 11:57
但是,客户说交换机没有报错日志,私有网络问题会记录在交换机日志里面吗?

看看节点1 ocss里是不是也有no heart beat 的信息,如果是可能是心跳问题。

有oswather就能看到是否当时有问题,不是说交换机没问题就没问题的

使用道具 举报

回复
论坛徽章:
68
2012新春纪念徽章
日期:2012-01-04 11:51:22奥运会纪念徽章:举重
日期:2012-08-02 22:17:14ITPUB 11周年纪念徽章
日期:2012-10-09 18:07:312013年新春福章
日期:2013-02-25 14:51:24慢羊羊
日期:2015-03-04 14:51:352015年新春福章
日期:2015-03-06 11:57:312015年新春福章
日期:2015-06-11 12:54:06
发表于 2015-2-6 14:12 | 显示全部楼层
太明显是私网的问题,没有OSW很难分析下去

使用道具 举报

回复
招聘 : 数据库管理员
论坛徽章:
25
ITPUB9周年纪念徽章
日期:2010-10-08 09:32:25itpub13周年纪念徽章
日期:2014-10-08 16:34:19itpub13周年纪念徽章
日期:2014-10-10 17:49:05马上有车
日期:2014-12-19 09:23:24马上加薪
日期:2014-12-29 20:30:27马上有车
日期:2015-01-20 22:29:13美羊羊
日期:2015-03-04 14:52:282015年新春福章
日期:2015-03-06 11:58:18狮子座
日期:2015-07-14 14:44:11秀才
日期:2015-08-17 13:13:32
发表于 2015-2-6 15:29 | 显示全部楼层
node 1, zgxjdb1, has a disk HB, but no network HB, DHB has rcfg 317496490
很明显嘛,磁盘有问题,与网络何干?

使用道具 举报

回复
论坛徽章:
4
2014年新春福章
日期:2014-02-18 16:44:08马上有对象
日期:2014-02-18 16:44:08马上有车
日期:2015-02-06 10:57:41优秀写手
日期:2015-02-12 06:00:14
 楼主| 发表于 2015-2-7 19:11 | 显示全部楼层
www_xylove 发表于 2015-2-6 15:29
node 1, zgxjdb1, has a disk HB, but no network HB, DHB has rcfg 317496490
很明显嘛,磁盘有问题,与 ...

有的工程师认为是网络有问题,大侠认为磁盘有问题,能说明一下吗?
期待你的回复……

使用道具 举报

回复
论坛徽章:
4
2014年新春福章
日期:2014-02-18 16:44:08马上有对象
日期:2014-02-18 16:44:08马上有车
日期:2015-02-06 10:57:41优秀写手
日期:2015-02-12 06:00:14
 楼主| 发表于 2015-2-7 19:18 | 显示全部楼层
howard_zhang 发表于 2015-2-6 14:12
太明显是私网的问题,没有OSW很难分析下去

大侠的意思,如果有当时的OSW报告,就能分析问题的根源了;否则的话,几乎不可能找到根源,对吧?

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 
京ICP备09055130号-4  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表