disktimeout的疑惑

ricky_zhu · 发表于 2010-11-1 12:25

原帖由 会飞的猪头二 于 2010-10-28 21:11 发表

信息太少。单从这个trace ，从时间顺序上无法判断是因为集群中节点reboot造成的misscount超时而剔除，又或者发生在实例上的evict。
如果node （1） reboot 本身在前 ---> node （2） misscount超时--> node（2） evict （node1） -->reconfiguration，那根本原因就不是interconnect的问题。
先整好日志序列，在分析。
另外，bug或其他方面，同样可能也会存在这种missed checkins。

如果node1 因为自身原因reboot在前，node2是立马会reconfig的，而不会等misscount超时，所以这个时候不会出现这样的log，然后等node1起来之后会join进来。

会飞的猪头二 · 发表于 2010-11-1 13:18

原帖由 ricky_zhu 于 2010-11-1 12:25 发表

如果node1 因为自身原因reboot在前，node2是立马会reconfig的，而不会等misscount超时，所以这个时候不会出现这样的log，然后等node1起来之后会join进来。

不，不是马上reconfig。
你可以找个rac环境模拟测试一下？
集群的状态是需要检测的，如果是节点中的自杀行为，另外的节点并不能确切的感知自杀的原因。node1如果down了，node2并需要通过网络的心跳来感知。
只有达到设定的相关threshold，才会去进行资重组。
所以在现象上，trace上依然可以看到miscount的超时信息，等到misscount大限已至，才去进行reconfig。
这个trace没有贴全，如果是因reboot在前的原因，应该前面还可以看到相关信息。

[ 本帖最后由会飞的猪头二于 2010-11-1 13:31 编辑 ]