12
返回列表 发新帖
楼主: paulyibinyi

disktimeout的疑惑

[复制链接]
论坛徽章:
25
生肖徽章2007版:鸡
日期:2008-01-02 17:35:53管理团队成员
日期:2011-05-07 01:45:082012新春纪念徽章
日期:2012-02-13 15:10:582012新春纪念徽章
日期:2012-02-13 15:10:582012新春纪念徽章
日期:2012-02-13 15:10:582012新春纪念徽章
日期:2012-02-13 15:10:582012新春纪念徽章
日期:2012-02-13 15:10:58马上有车
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14
11#
发表于 2010-11-1 12:25 | 只看该作者
原帖由 会飞的猪头二 于 2010-10-28 21:11 发表

信息太少。单从这个trace ,从时间顺序上无法判断是因为集群中节点reboot造成的misscount超时而剔除,又或者发生在实例上的evict。
如果node (1) reboot 本身在前 ---> node (2) misscount超时--> node(2) evict  (node1) -->reconfiguration,那根本原因就不是interconnect的问题。
先整好日志序列,在分析。
另外,bug或其他方面,同样可能也会存在这种missed checkins。


如果node1 因为自身原因reboot在前,node2是立马会reconfig的,而不会等misscount超时,所以这个时候不会出现这样的log,然后等node1起来之后会join进来。

使用道具 举报

回复
论坛徽章:
0
12#
发表于 2010-11-1 13:18 | 只看该作者
原帖由 ricky_zhu 于 2010-11-1 12:25 发表


如果node1 因为自身原因reboot在前,node2是立马会reconfig的,而不会等misscount超时,所以这个时候不会出现这样的log,然后等node1起来之后会join进来。


不,不是马上reconfig。
你可以找个rac环境模拟测试一下?
集群的状态是需要检测的,如果是节点中的自杀行为,另外的节点并不能确切的感知自杀的原因。node1如果down了,node2并需要通过网络的心跳来感知。
只有达到设定的相关threshold,才会去进行资重组。
所以在现象上,trace上依然可以看到miscount的超时信息,等到misscount大限已至,才去进行reconfig。
这个trace没有贴全,如果是因reboot在前的原因,应该前面还可以看到相关信息。

[ 本帖最后由 会飞的猪头二 于 2010-11-1 13:31 编辑 ]

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表