ITPUB论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 10509|回复: 44

[精华] 除了Windows和Linux,10.2.0.2以后的RAC是不是修改操作系统时间都会导致操作系统重启 [复制链接]

版主

版主

精华贴数
57
技术积分
51713
社区积分
3825
注册时间
2002-5-26
论坛徽章:
76
授权会员
日期:2005-10-30 17:05:33复活蛋
日期:2011-05-31 16:00:07ITPUB官方微博粉丝徽章
日期:2011-06-28 19:45:36ITPUB十周年纪念徽章
日期:2011-11-01 16:19:412012新春纪念徽章
日期:2012-01-04 11:49:542012新春纪念徽章
日期:2012-02-13 15:13:202012新春纪念徽章
日期:2012-02-13 15:13:202012新春纪念徽章
日期:2012-02-13 15:13:202012新春纪念徽章
日期:2012-02-13 15:13:202012新春纪念徽章
日期:2012-02-13 15:13:20现任管理团队成员
日期:2011-05-07 01:45:082011新春纪念徽章
日期:2011-01-25 15:41:01
发表于 2007-4-1 22:33:25 |显示全部楼层
在Oracle10.2.0.3 RAC的测试中,发现如果修改某个节点的系统时间超过1.5秒,那么这个节点会被自动重新启动。

好狠的处理方式 ......

详细机制参见Internal Only的Metalink Note 308051.1。

The OPROCD executable sets a signal handler for the SIGALRM handler and sets the interval timer based on the to-millisec parameter provided.  The alarm handler gets the current time and checks it against the time that the alarm handler was last entered.  If the difference exceeds (to-millisec + margin-millisec), it will fail; the production version will cause a node reboot.

尝试修改/etc/init.cssd中关于OPROCD的配置,将DISABLE_OPROCD设置为TRUE,然后重新启动系统,在系统进程中已经不存在oprocd进程,但是居然修改完系统时间以后,机器仍然被重新启动了。

文档中另外的描述提到,如果OPROCD是在non fatal mode状态下启动的,那么将只会写一段log而不去重新启动机器,并且在Note:265769.1中也描述了如何修改为non fatal mode,但是我没有去尝试。

In fatal mode, OPROCD will reboot the node if it detects excessive wait. In Non Fatal mode, it will write an error message out to the file <hostname>.oprocd.log in one of the following directories.

最后尝试的结果是将整个cssd进程disable掉,这样可以避免因为修改系统时间而引起机器重启。

这段时间发现Oracle10g的CRS确实有些霸道,上次的测试中拔掉Private IP网卡上的网线,操作系统会重新启动,这次居然修改系统时间也会导致系统重启,真当这些机器是Windows了?UNIX Server中重启一次机器多大的事儿啊,CRS搞的跟吃饭一样随意,动不动reboot。

下面的这段资料描述了Oracle CRS的三个进程会在哪些状态下重新启动机器。

Oracle clusterware has the following three daemons which may be responsible for panicing the node. It is possible that some other external entity may have rebooted the node. In the context of this discussion, we will assume that the reboot/panic was done by an Oracle clusterware daemon.

* Oprocd  - Cluster fencing module
* Cssd - Cluster sychronization module which manages node membership
* Oclsomon - Cssd monitor which will monitor for cssd hangs

OPROCD This is a daemon that only gets activated when there is no vendor clusterware present on the OS. This daemon is also not activated to run on Windows/Linux.  This daemon runs a tight loop and if it is not scheduled for 1.5 seconds, will reboot the node.
CSSD This daemon pings the other members of the cluster over the private network and Voting disk. If this does not get a response for Misscount seconds and Disktimeout seconds respectively, it will reboot the node.
Oclsomon This daemon monitors the CSSD to ensure that CSSD is scheduled by the OS, if it detects any problems it will reboot the node.

需要找到方法去禁用这些reboot的特性,reboot了你又不能解决问题,瞎操什么心嘛。

版主

开门

精华贴数
3
技术积分
20510
社区积分
10166
注册时间
2002-11-28
论坛徽章:
111
生肖徽章:龙
日期:2006-09-07 10:14:592012新春纪念徽章
日期:2012-02-13 15:11:522012新春纪念徽章
日期:2012-02-13 15:11:522012新春纪念徽章
日期:2012-02-13 15:11:522012新春纪念徽章
日期:2012-02-13 15:11:52生肖徽章:龙
日期:2007-09-26 17:12:36生肖徽章:龙
日期:2007-09-26 17:12:35生肖徽章:龙
日期:2007-09-26 17:12:20生肖徽章:龙
日期:2007-09-26 17:10:45生肖徽章:龙
日期:2007-09-26 17:10:41生肖徽章:龙
日期:2007-09-26 17:09:21生肖徽章:龙
日期:2007-01-25 16:50:47
发表于 2007-4-2 07:13:36 |显示全部楼层
1201会不会自动重启呢

使用道具 举报

注册会员

高级会员

精华贴数
0
技术积分
3552
社区积分
477
注册时间
2004-5-9
论坛徽章:
12
授权会员
日期:2005-10-30 17:05:33ITPUB十周年纪念徽章
日期:2011-11-01 16:20:282011新春纪念徽章
日期:2011-02-18 11:43:332010新春纪念徽章
日期:2010-03-01 11:19:59BLOG每日发帖之星
日期:2009-01-27 01:01:05BLOG每日发帖之星
日期:2009-01-23 01:01:092008新春纪念徽章
日期:2008-02-13 12:43:03生肖徽章2007版:鸡
日期:2008-01-02 17:35:53会员2007贡献徽章
日期:2007-09-26 18:42:10ITPUB元老
日期:2007-05-09 17:56:18生肖徽章:鸡
日期:2006-10-12 11:28:402012新春纪念徽章
日期:2012-01-04 11:49:54
发表于 2007-4-2 08:48:41 |显示全部楼层
哈哈贴internal only的东东,胆子大 thx

使用道具 举报

注册会员

高级会员

精华贴数
1
技术积分
11202
社区积分
216
注册时间
2004-7-22
论坛徽章:
64
生肖徽章:猴
日期:2006-09-07 10:18:21数据库板块每日发贴之星
日期:2010-12-23 01:01:01数据库板块每日发贴之星
日期:2011-01-05 01:01:012010广州亚运会纪念徽章:垒球
日期:2011-01-11 12:35:302010广州亚运会纪念徽章:帆船
日期:2011-02-12 19:24:142011新春纪念徽章
日期:2011-02-18 11:43:33鲜花蛋
日期:2011-05-24 15:53:26蜘蛛蛋
日期:2011-06-07 16:32:57茶鸡蛋
日期:2011-07-26 15:53:032012新春纪念徽章
日期:2012-01-04 11:49:54ITPUB十周年纪念徽章
日期:2011-11-01 16:20:28紫蛋头
日期:2012-04-19 16:29:57
发表于 2007-4-2 09:04:11 |显示全部楼层
每个节点的时间相差多了,节点会down掉,重启倒是没碰到过

使用道具 举报

注册会员

平常心

精华贴数
0
技术积分
997
社区积分
20
注册时间
2003-12-7
论坛徽章:
5
授权会员
日期:2006-05-23 16:08:19会员2007贡献徽章
日期:2007-09-26 18:42:102010新春纪念徽章
日期:2010-01-04 08:33:082010新春纪念徽章
日期:2010-03-01 11:04:592011新春纪念徽章
日期:2011-02-18 11:42:47
发表于 2007-4-2 11:27:04 |显示全部楼层
经历同楼上的样

使用道具 举报

注册会员

好好生活

精华贴数
0
技术积分
4285
社区积分
1370
注册时间
2004-9-1
论坛徽章:
43
ITPUB十周年纪念徽章
日期:2011-11-01 16:20:28ITPUB8周年纪念徽章
日期:2009-10-09 16:31:50ITPUB8周年纪念徽章
日期:2009-10-09 16:31:42ITPUB8周年纪念徽章
日期:2009-10-09 16:31:30ITPUB8周年纪念徽章
日期:2009-10-09 16:31:23祖国60周年纪念徽章
日期:2009-10-09 11:32:35祖国60周年纪念徽章
日期:2009-10-09 11:30:51祖国60周年纪念徽章
日期:2009-10-09 11:30:38祖国60周年纪念徽章
日期:2009-10-09 11:30:13参与WIN7挑战赛纪念
日期:2009-11-06 10:44:24参与WIN7挑战赛纪念
日期:2009-11-06 10:44:242010新春纪念徽章
日期:2010-01-04 08:33:08
发表于 2007-4-2 11:56:36 |显示全部楼层
正准备做一个10G的RAC项目,怕怕,也太狠了

使用道具 举报

版主

版主

精华贴数
11
技术积分
3159
社区积分
56
注册时间
2002-8-7
论坛徽章:
21
管理团队2006纪念徽章
日期:2006-04-16 22:44:45管理团队成员
日期:2011-05-07 01:45:08ITPUB十周年纪念徽章
日期:2011-11-01 16:19:412012新春纪念徽章
日期:2012-01-04 11:49:542012新春纪念徽章
日期:2012-02-13 15:11:522012新春纪念徽章
日期:2012-02-13 15:11:522012新春纪念徽章
日期:2012-02-13 15:11:522012新春纪念徽章
日期:2012-02-13 15:11:522012新春纪念徽章
日期:2012-02-13 15:11:522010广州亚运会纪念徽章:马术
日期:2011-02-19 15:47:432011新春纪念徽章
日期:2011-02-18 11:42:502011新春纪念徽章
日期:2011-01-25 15:42:56
发表于 2007-4-2 12:55:10 |显示全部楼层

Re: 除了Windows和Linux,10.2.0.2以后的RAC是不是修改操作系统时间都会导致操作系统

最初由 Kamus 发布
[B]在Oracle10.2.0.3 RAC的测试中,发现如果修改某个节点的系统时间超过1.5秒,那么这个节点会被自动重新启动。

好狠的处理方式 ......

详细机制参见Internal Only的Metalink Note 308051.1。

The OPROCD executable sets a signal handler for the SIGALRM handler and sets the interval timer based on the to-millisec parameter provided.  The alarm handler gets the current time and checks it against the time that the alarm handler was last entered.  If the difference exceeds (to-millisec + margin-millisec), it will fail; the production version will cause a node reboot.

尝试修改/etc/init.cssd中关于OPROCD的配置,将DISABLE_OPROCD设置为TRUE,然后重新启动系统,在系统进程中已经不存在oprocd进程,但是居然修改完系统时间以后,机器仍然被重新启动了。

文档中另外的描述提到,如果OPROCD是在non fatal mode状态下启动的,那么将只会写一段log而不去重新启动机器,并且在Note:265769.1中也描述了如何修改为non fatal mode,但是我没有去尝试。

In fatal mode, OPROCD will reboot the node if it detects excessive wait. In Non Fatal mode, it will write an error message out to the file <hostname>.oprocd.log in one of the following directories.

最后尝试的结果是将整个cssd进程disable掉,这样可以避免因为修改系统时间而引起机器重启。

这段时间发现Oracle10g的CRS确实有些霸道,上次的测试中拔掉Private IP网卡上的网线,操作系统会重新启动,这次居然修改系统时间也会导致系统重启,真当这些机器是Windows了?UNIX Server中重启一次机器多大的事儿啊,CRS搞的跟吃饭一样随意,动不动reboot。

下面的这段资料描述了Oracle CRS的三个进程会在哪些状态下重新启动机器。

Oracle clusterware has the following three daemons which may be responsible for panicing the node. It is possible that some other external entity may have rebooted the node. In the context of this discussion, we will assume that the reboot/panic was done by an Oracle clusterware daemon.

* Oprocd  - Cluster fencing module
* Cssd - Cluster sychronization module which manages node membership
* Oclsomon - Cssd monitor which will monitor for cssd hangs

OPROCD This is a daemon that only gets activated when there is no vendor clusterware present on the OS. This daemon is also not activated to run on Windows/Linux.  This daemon runs a tight loop and if it is not scheduled for 1.5 seconds, will reboot the node.
CSSD This daemon pings the other members of the cluster over the private network and Voting disk. If this does not get a response for Misscount seconds and Disktimeout seconds respectively, it will reboot the node.
Oclsomon This daemon monitors the CSSD to ensure that CSSD is scheduled by the OS, if it detects any problems it will reboot the node.

需要找到方法去禁用这些reboot的特性,reboot了你又不能解决问题,瞎操什么心嘛。 [/B]


not sure you are joking or now. :-) . the reboot is one of the way to avoid corruption issue such as those in split brain and it is the one choosed by oracle.  reboot means better safe then sorry.

and since oracle runs on user mode only . it may not be scheduled. so that is why so complex.

使用道具 举报

版主

版主

精华贴数
11
技术积分
3159
社区积分
56
注册时间
2002-8-7
论坛徽章:
21
管理团队2006纪念徽章
日期:2006-04-16 22:44:45管理团队成员
日期:2011-05-07 01:45:08ITPUB十周年纪念徽章
日期:2011-11-01 16:19:412012新春纪念徽章
日期:2012-01-04 11:49:542012新春纪念徽章
日期:2012-02-13 15:11:522012新春纪念徽章
日期:2012-02-13 15:11:522012新春纪念徽章
日期:2012-02-13 15:11:522012新春纪念徽章
日期:2012-02-13 15:11:522012新春纪念徽章
日期:2012-02-13 15:11:522010广州亚运会纪念徽章:马术
日期:2011-02-19 15:47:432011新春纪念徽章
日期:2011-02-18 11:42:502011新春纪念徽章
日期:2011-01-25 15:42:56
发表于 2007-4-2 13:01:06 |显示全部楼层
once reboot, the reboot node need to join the cluster again following the normal process. It can succeed or it can fail . either way , it is very clear and no unknown situation. therefore , avoid the prospect of having any corruption.

使用道具 举报

版主

版主

精华贴数
11
技术积分
3159
社区积分
56
注册时间
2002-8-7
论坛徽章:
21
管理团队2006纪念徽章
日期:2006-04-16 22:44:45管理团队成员
日期:2011-05-07 01:45:08ITPUB十周年纪念徽章
日期:2011-11-01 16:19:412012新春纪念徽章
日期:2012-01-04 11:49:542012新春纪念徽章
日期:2012-02-13 15:11:522012新春纪念徽章
日期:2012-02-13 15:11:522012新春纪念徽章
日期:2012-02-13 15:11:522012新春纪念徽章
日期:2012-02-13 15:11:522012新春纪念徽章
日期:2012-02-13 15:11:522010广州亚运会纪念徽章:马术
日期:2011-02-19 15:47:432011新春纪念徽章
日期:2011-02-18 11:42:502011新春纪念徽章
日期:2011-01-25 15:42:56
发表于 2007-4-2 13:07:23 |显示全部楼层
that is what "fencing" about .

使用道具 举报

版主

版主

精华贴数
32
技术积分
53884
社区积分
6693
注册时间
2001-12-18
论坛徽章:
54
2007年度最佳版主
日期:2008-04-03 16:46:152011新春纪念徽章
日期:2011-01-25 15:42:332011新春纪念徽章
日期:2011-01-25 15:42:562011新春纪念徽章
日期:2011-02-18 11:42:48现任管理团队成员
日期:2011-05-07 01:45:08双黄蛋
日期:2011-06-15 17:03:342012新春纪念徽章
日期:2012-01-04 11:49:54ITPUB十周年纪念徽章
日期:2011-11-01 16:19:412012新春纪念徽章
日期:2012-02-13 15:13:202012新春纪念徽章
日期:2012-02-13 15:13:202012新春纪念徽章
日期:2012-02-13 15:13:202012新春纪念徽章
日期:2012-02-13 15:13:20
发表于 2007-4-2 13:35:14 |显示全部楼层
整的还挺详细,貌似不是愚人节新闻,哈哈

使用道具 举报

相关内容推荐
您需要登录后才可以回帖 登录 | 注册

TOP技术积分榜 社区积分榜 徽章 电子杂志 团队 统计 邮箱 虎吧 老博客 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档 | IT博客
CopyRight 1999-2011 itpub.net All Right Reserved. 北京皓辰网域网络信息技术有限公司版权所有 联系我们 网站律师 隐私政策 知识产权声明
京ICP证:060528号 北京市公安局海淀分局网监中心备案编号:1101082001 广播电视节目制作经营许可证:编号(京)字第1149号
  
回顶部