楼主: xiete

[范例] 一个双节点RAC的故障案例

[复制链接]
论坛徽章:
25
生肖徽章2007版:鸡
日期:2008-01-02 17:35:53管理团队成员
日期:2011-05-07 01:45:082012新春纪念徽章
日期:2012-02-13 15:10:582012新春纪念徽章
日期:2012-02-13 15:10:582012新春纪念徽章
日期:2012-02-13 15:10:582012新春纪念徽章
日期:2012-02-13 15:10:582012新春纪念徽章
日期:2012-02-13 15:10:58马上有车
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14
发表于 2010-9-26 14:00 | 显示全部楼层
网络设置:内网心跳采用直连方式

这是oracle不建议的


Note:
UDP is the default interface protocol for Oracle RAC, and TCP is the interconnect protocol for Oracle Clusterware. You must use a switch for the interconnect. Oracle recommends that you use a dedicated switch.
Oracle does not support token-rings or crossover cables for the interconnect.

文档 http://download.oracle.com/docs/ ... elinux.htm#BABGGDGC

另外,检查下发生NHB中断时候的系统和网络日志,如果频繁发生这样的问题,可以考虑提高下misscount,比如从现在的120s提高到300s,继续观察看看,当然这是权宜之计。

crsctl set css misscount 300

然后重启一下crs stack
“crsctl stop crs" followed by "crsctl start crs"

[ 本帖最后由 ricky_zhu 于 2010-9-26 14:02 编辑 ]

使用道具 举报

回复
论坛徽章:
5
授权会员
日期:2005-10-30 17:05:33会员2006贡献徽章
日期:2006-04-17 13:46:34ITPUB9周年纪念徽章
日期:2010-10-08 09:28:522011新春纪念徽章
日期:2011-02-18 11:43:35迷宫蛋
日期:2011-11-02 16:14:29
 楼主| 发表于 2010-9-28 15:17 | 显示全部楼层
加大misscount已经尝试,故障依旧,心跳已经调整到交换机,故障依旧,呵呵

使用道具 举报

回复
论坛徽章:
48
马上加薪
日期:2014-02-19 11:55:142011新春纪念徽章
日期:2011-01-25 15:42:152011新春纪念徽章
日期:2011-01-25 15:41:502011新春纪念徽章
日期:2011-01-25 15:41:01ITPUB9周年纪念徽章
日期:2010-10-08 09:32:26ITPUB季度 技术新星
日期:2010-05-17 15:53:17数据库板块每日发贴之星
日期:2010-05-12 01:01:01数据库板块每日发贴之星
日期:2010-05-08 01:01:01数据库板块每日发贴之星
日期:2010-05-07 01:01:02数据库板块每日发贴之星
日期:2010-04-29 01:01:01
发表于 2010-9-30 16:03 | 显示全部楼层
时间同步是用什么实现的。

使用道具 举报

回复
论坛徽章:
2
ITPUB9周年纪念徽章
日期:2010-10-08 09:34:022011新春纪念徽章
日期:2011-02-18 11:42:47
发表于 2010-10-6 22:06 | 显示全部楼层
用ping命令,并把结果写到日志文件里,让ping跑1天1夜,看看有没有网络中断,如果没有,那可能是ORACLE的配置有问题了。先进行这样的大排除,然后再缩小诊断范围。

使用道具 举报

回复
论坛徽章:
6
曼联
日期:2009-05-18 10:19:09
发表于 2010-10-8 10:14 | 显示全部楼层
是不是rac之间数据交换过多?

使用道具 举报

回复
论坛徽章:
5
授权会员
日期:2005-10-30 17:05:33会员2006贡献徽章
日期:2006-04-17 13:46:34ITPUB9周年纪念徽章
日期:2010-10-08 09:28:522011新春纪念徽章
日期:2011-02-18 11:43:35迷宫蛋
日期:2011-11-02 16:14:29
 楼主| 发表于 2010-10-10 14:22 | 显示全部楼层
时间同步是两台中一台向另一台同步,已经排除时间同步导致。
已经使用过PING的方式了,偶尔就是会PING不通。
RAC交换数据从AWR中看到的不多,但NLOAD显示很恐怖,不知是否是BUG,有时达到几十上百G。

使用道具 举报

回复
论坛徽章:
0
发表于 2010-10-11 14:58 | 显示全部楼层
估计是两个内部NIC的其中一个有问题,你可以试试用ping第三方ip方式,看看是哪个网卡有故障。

我曾经遇到类似的问题,当时是HA,隔一段时间固定某台机器也是HP服务器,就会发生切换,后来发现是HBA卡偶尔会有问题,

后来,更换了HBA卡就没事了。

[ 本帖最后由 delete1 于 2010-10-11 15:01 编辑 ]

使用道具 举报

回复
论坛徽章:
5
授权会员
日期:2005-10-30 17:05:33会员2006贡献徽章
日期:2006-04-17 13:46:34ITPUB9周年纪念徽章
日期:2010-10-08 09:28:522011新春纪念徽章
日期:2011-02-18 11:43:35迷宫蛋
日期:2011-11-02 16:14:29
 楼主| 发表于 2010-10-12 11:15 | 显示全部楼层
问题是不好判断时间,ping可以记录到脚本中,加时间戳的话不能做到实时记录,这个我试过很多次,谁能提供个好办法? 如果没有时间戳很难判断是因为重启不通还是有问题不通

使用道具 举报

回复
论坛徽章:
5
授权会员
日期:2005-10-30 17:05:33会员2006贡献徽章
日期:2006-04-17 13:46:34ITPUB9周年纪念徽章
日期:2010-10-08 09:28:522011新春纪念徽章
日期:2011-02-18 11:43:35迷宫蛋
日期:2011-11-02 16:14:29
 楼主| 发表于 2010-10-12 11:17 | 显示全部楼层
还有PING第三方你如何判断是哪个网卡出去的?

使用道具 举报

回复
论坛徽章:
0
发表于 2010-10-12 15:41 | 显示全部楼层
不知这样行不行

你在master node上,运行一个ping第三方(比如gateway)的指令,如果ping一直正常,则判断是slave node的网卡有问题的概率大些。

然后,找个时间把master角色切换到slave,重复以上操作,如果ping有问题,则证实了网卡的问题。如果,ping没问题,则复杂了。

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 
京ICP备09055130号-4  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表