一个双节点RAC的故障案例

ricky_zhu · 发表于 2010-9-26 14:00

网络设置：内网心跳采用直连方式

这是oracle不建议的

Note:
UDP is the default interface protocol for Oracle RAC, and TCP is the interconnect protocol for Oracle Clusterware. You must use a switch for the interconnect. Oracle recommends that you use a dedicated switch.
Oracle does not support token-rings or crossover cables for the interconnect.

文档 http://download.oracle.com/docs/ ... elinux.htm#BABGGDGC

另外，检查下发生NHB中断时候的系统和网络日志，如果频繁发生这样的问题，可以考虑提高下misscount，比如从现在的120s提高到300s，继续观察看看，当然这是权宜之计。

crsctl set css misscount 300

然后重启一下crs stack
“crsctl stop crs" followed by "crsctl start crs"

[ 本帖最后由 ricky_zhu 于 2010-9-26 14:02 编辑 ]

xiete · 发表于 2010-9-28 15:17

加大misscount已经尝试，故障依旧，心跳已经调整到交换机，故障依旧，呵呵

inthirties2 · 发表于 2010-9-30 16:03

时间同步是用什么实现的。

tiger_lw · 发表于 2010-10-6 22:06

用ping命令，并把结果写到日志文件里，让ping跑1天1夜，看看有没有网络中断，如果没有，那可能是ORACLE的配置有问题了。先进行这样的大排除，然后再缩小诊断范围。

ridens · 发表于 2010-10-8 10:14

是不是rac之间数据交换过多？

xiete · 发表于 2010-10-10 14:22

时间同步是两台中一台向另一台同步，已经排除时间同步导致。
已经使用过PING的方式了，偶尔就是会PING不通。
RAC交换数据从AWR中看到的不多，但NLOAD显示很恐怖，不知是否是BUG，有时达到几十上百G。

delete1 · 发表于 2010-10-11 14:58

估计是两个内部NIC的其中一个有问题，你可以试试用ping第三方ip方式，看看是哪个网卡有故障。

我曾经遇到类似的问题，当时是HA，隔一段时间固定某台机器也是HP服务器，就会发生切换，后来发现是HBA卡偶尔会有问题，

后来，更换了HBA卡就没事了。

[ 本帖最后由 delete1 于 2010-10-11 15:01 编辑 ]

xiete · 发表于 2010-10-12 11:15

问题是不好判断时间，ping可以记录到脚本中，加时间戳的话不能做到实时记录，这个我试过很多次，谁能提供个好办法？如果没有时间戳很难判断是因为重启不通还是有问题不通

xiete · 发表于 2010-10-12 11:17

还有PING第三方你如何判断是哪个网卡出去的？

delete1 · 发表于 2010-10-12 15:41

不知这样行不行

你在master node上，运行一个ping第三方（比如gateway）的指令，如果ping一直正常，则判断是slave node的网卡有问题的概率大些。

然后，找个时间把master角色切换到slave，重复以上操作，如果ping有问题，则证实了网卡的问题。如果，ping没问题，则复杂了。

[范例] 一个双节点RAC的故障案例