ITPUB??ì3
2010数据库技术大会
ITPUB论坛 » Oracle数据库管理 » 除了Windows和Linux,10.2.0.2以后的RAC是不是修改操作系统时间都会导致操作系统重启

您有 2 条公共消息
  • 来自: 公共消息 标题: 新开"PLM/PDM产品 ... 内容: 讨论范围包括:产品研发管理(PDM),产品生命周期管理(PLM),工艺/ ...
  • 来自: 公共消息 标题: 2010数据库技术大 ... 内容: “2010数据库技术大会”将于2010年4月2日~4月3日,在北京歌华开元大酒 ...

    标题: [精华] 除了Windows和Linux,10.2.0.2以后的RAC是不是修改操作系统时间都会导致操作系统重启
    离线 Kamus
    版主


    精华贴数 52
    个人空间 400
    技术积分 47974 (16)
    社区积分 3610 (495)
    注册日期 2002-5-26
    论坛徽章:48
    现任管理团队成员2007年度ITPUB最佳技术原创精华ITPUB元老ITPUB北京九华山庄2008年会纪念徽章管理团队2007贡献徽章参与2007年甲骨文全球大会(中国上海)纪念
    ITPUB北京香山2007年会纪念徽章管理团队2006纪念徽章会员2007贡献徽章会员2006贡献徽章蓝色妖姬紫蜘蛛

    发表于 2007-4-1 22:33 
    除了Windows和Linux,10.2.0.2以后的RAC是不是修改操作系统时间都会导致操作系统重启

    在Oracle10.2.0.3 RAC的测试中,发现如果修改某个节点的系统时间超过1.5秒,那么这个节点会被自动重新启动。

    好狠的处理方式 ......

    详细机制参见Internal Only的Metalink Note 308051.1。

    The OPROCD executable sets a signal handler for the SIGALRM handler and sets the interval timer based on the to-millisec parameter provided.  The alarm handler gets the current time and checks it against the time that the alarm handler was last entered.  If the difference exceeds (to-millisec + margin-millisec), it will fail; the production version will cause a node reboot.

    尝试修改/etc/init.cssd中关于OPROCD的配置,将DISABLE_OPROCD设置为TRUE,然后重新启动系统,在系统进程中已经不存在oprocd进程,但是居然修改完系统时间以后,机器仍然被重新启动了。

    文档中另外的描述提到,如果OPROCD是在non fatal mode状态下启动的,那么将只会写一段log而不去重新启动机器,并且在Note:265769.1中也描述了如何修改为non fatal mode,但是我没有去尝试。

    In fatal mode, OPROCD will reboot the node if it detects excessive wait. In Non Fatal mode, it will write an error message out to the file <hostname>.oprocd.log in one of the following directories.

    最后尝试的结果是将整个cssd进程disable掉,这样可以避免因为修改系统时间而引起机器重启。

    这段时间发现Oracle10g的CRS确实有些霸道,上次的测试中拔掉Private IP网卡上的网线,操作系统会重新启动,这次居然修改系统时间也会导致系统重启,真当这些机器是Windows了?UNIX Server中重启一次机器多大的事儿啊,CRS搞的跟吃饭一样随意,动不动reboot。

    下面的这段资料描述了Oracle CRS的三个进程会在哪些状态下重新启动机器。

    Oracle clusterware has the following three daemons which may be responsible for panicing the node. It is possible that some other external entity may have rebooted the node. In the context of this discussion, we will assume that the reboot/panic was done by an Oracle clusterware daemon.

    * Oprocd  - Cluster fencing module
    * Cssd - Cluster sychronization module which manages node membership
    * Oclsomon - Cssd monitor which will monitor for cssd hangs

    OPROCD This is a daemon that only gets activated when there is no vendor clusterware present on the OS. This daemon is also not activated to run on Windows/Linux.  This daemon runs a tight loop and if it is not scheduled for 1.5 seconds, will reboot the node.
    CSSD This daemon pings the other members of the cluster over the private network and Voting disk. If this does not get a response for Misscount seconds and Disktimeout seconds respectively, it will reboot the node.
    Oclsomon This daemon monitors the CSSD to ensure that CSSD is scheduled by the OS, if it detects any problems it will reboot the node.

    需要找到方法去禁用这些reboot的特性,reboot了你又不能解决问题,瞎操什么心嘛。


    __________________
    有事情请发Gmail邮箱,站内IM可能不能及时回复。    

    ***Chanel [K]***



    从明天起, 做一个幸福的人  
    喂马, 劈柴, 周游世界  
    从明天起, 关心粮食和蔬菜  
    我有一所房子 面朝大海, 春暖花开
    只看该作者    顶部
    离线 vongates
    开门


    精华贴数 3
    个人空间 0
    技术积分 19942 (60)
    社区积分 10076 (203)
    注册日期 2002-11-28
    论坛徽章:94
    管理团队成员2010新春纪念徽章生肖徽章:马生肖徽章:马生肖徽章:马生肖徽章:马
    生肖徽章:马生肖徽章:马生肖徽章:马生肖徽章:马生肖徽章:马生肖徽章:马

    发表于 2007-4-2 07:13 
    1201会不会自动重启呢


    __________________
    只看该作者    顶部
    离线 wenaini
    高级会员


    精华贴数 0
    个人空间 0
    技术积分 3526 (501)
    社区积分 391 (2009)
    注册日期 2004-5-9
    论坛徽章:8
    ITPUB元老会员2007贡献徽章授权会员BLOG每日发帖之星BLOG每日发帖之星2008新春纪念徽章
    生肖徽章2007版:鸡生肖徽章:鸡    

    发表于 2007-4-2 08:48 
    哈哈贴internal only的东东,胆子大 thx


    只看该作者    顶部
    离线 atgc
    高级会员


    精华贴数 1
    个人空间 0
    技术积分 8684 (193)
    社区积分 188 (3000)
    注册日期 2004-7-22
    论坛徽章:44
    2010新春纪念徽章生肖徽章2007版:兔生肖徽章2007版:猴生肖徽章2007版:猴生肖徽章2007版:鼠生肖徽章:猴
    生肖徽章:狗生肖徽章:虎生肖徽章:兔生肖徽章:牛数据库板块每日发贴之星数据库板块每日发贴之星

    发表于 2007-4-2 09:04 
    每个节点的时间相差多了,节点会down掉,重启倒是没碰到过


    __________________
    只看该作者    顶部
    离线 don_shen
    平常心



    精华贴数 0
    个人空间 40
    技术积分 975 (2318)
    社区积分 20 (9175)
    注册日期 2003-12-7
    论坛徽章:3
    会员2007贡献徽章授权会员2010新春纪念徽章   
          

    发表于 2007-4-2 11:27 
    经历同楼上的样


    只看该作者    顶部
    离线 waityou81
    好好生活


    精华贴数 0
    个人空间 0
    技术积分 4003 (431)
    社区积分 1197 (1068)
    注册日期 2004-9-1
    论坛徽章:33
    ITPUB元老会员2007贡献徽章参与WIN7挑战赛纪念参与WIN7挑战赛纪念授权会员2010新春纪念徽章
    ITPUB8周年纪念徽章ITPUB8周年纪念徽章ITPUB8周年纪念徽章ITPUB8周年纪念徽章祖国60周年纪念徽章祖国60周年纪念徽章

    发表于 2007-4-2 11:56 
    正准备做一个10G的RAC项目,怕怕,也太狠了


    __________________
    Metalink§AskTom§ITPUB§Tahiti
    这个国家让我伤心也很无奈
    只看该作者    顶部
    离线 wing hong
    版主



    精华贴数 0
    个人空间 0
    技术积分 1428 (1467)
    社区积分 9 (13641)
    注册日期 2002-8-7
    论坛徽章:4
    管理团队成员管理团队2006纪念徽章会员2006贡献徽章2009日食纪念  
          

    发表于 2007-4-2 12:55 
    Re: 除了Windows和Linux,10.2.0.2以后的RAC是不是修改操作系统时间都会导致操作系统



    QUOTE:
    最初由 Kamus 发布
    在Oracle10.2.0.3 RAC的测试中,发现如果修改某个节点的系统时间超过1.5秒,那么这个节点会被自动重新启动。

    好狠的处理方式 ......

    详细机制参见Internal Only的Metalink Note 308051.1。

    The OPROCD executable sets a signal handler for the SIGALRM handler and sets the interval timer based on the to-millisec parameter provided.  The alarm handler gets the current time and checks it against the time that the alarm handler was last entered.  If the difference exceeds (to-millisec + margin-millisec), it will fail; the production version will cause a node reboot.

    尝试修改/etc/init.cssd中关于OPROCD的配置,将DISABLE_OPROCD设置为TRUE,然后重新启动系统,在系统进程中已经不存在oprocd进程,但是居然修改完系统时间以后,机器仍然被重新启动了。

    文档中另外的描述提到,如果OPROCD是在non fatal mode状态下启动的,那么将只会写一段log而不去重新启动机器,并且在Note:265769.1中也描述了如何修改为non fatal mode,但是我没有去尝试。

    In fatal mode, OPROCD will reboot the node if it detects excessive wait. In Non Fatal mode, it will write an error message out to the file <hostname>.oprocd.log in one of the following directories.

    最后尝试的结果是将整个cssd进程disable掉,这样可以避免因为修改系统时间而引起机器重启。

    这段时间发现Oracle10g的CRS确实有些霸道,上次的测试中拔掉Private IP网卡上的网线,操作系统会重新启动,这次居然修改系统时间也会导致系统重启,真当这些机器是Windows了?UNIX Server中重启一次机器多大的事儿啊,CRS搞的跟吃饭一样随意,动不动reboot。

    下面的这段资料描述了Oracle CRS的三个进程会在哪些状态下重新启动机器。

    Oracle clusterware has the following three daemons which may be responsible for panicing the node. It is possible that some other external entity may have rebooted the node. In the context of this discussion, we will assume that the reboot/panic was done by an Oracle clusterware daemon.

    * Oprocd  - Cluster fencing module
    * Cssd - Cluster sychronization module which manages node membership
    * Oclsomon - Cssd monitor which will monitor for cssd hangs

    OPROCD This is a daemon that only gets activated when there is no vendor clusterware present on the OS. This daemon is also not activated to run on Windows/Linux.  This daemon runs a tight loop and if it is not scheduled for 1.5 seconds, will reboot the node.
    CSSD This daemon pings the other members of the cluster over the private network and Voting disk. If this does not get a response for Misscount seconds and Disktimeout seconds respectively, it will reboot the node.
    Oclsomon This daemon monitors the CSSD to ensure that CSSD is scheduled by the OS, if it detects any problems it will reboot the node.

    需要找到方法去禁用这些reboot的特性,reboot了你又不能解决问题,瞎操什么心嘛。


    not sure you are joking or now. :-) . the reboot is one of the way to avoid corruption issue such as those in split brain and it is the one choosed by oracle.  reboot means better safe then sorry.

    and since oracle runs on user mode only . it may not be scheduled. so that is why so complex.


    只看该作者    顶部
    离线 wing hong
    版主



    精华贴数 0
    个人空间 0
    技术积分 1428 (1467)
    社区积分 9 (13641)
    注册日期 2002-8-7
    论坛徽章:4
    管理团队成员管理团队2006纪念徽章会员2006贡献徽章2009日食纪念  
          

    发表于 2007-4-2 13:01 
    once reboot, the reboot node need to join the cluster again following the normal process. It can succeed or it can fail . either way , it is very clear and no unknown situation. therefore , avoid the prospect of having any corruption.


    只看该作者    顶部
    离线 wing hong
    版主



    精华贴数 0
    个人空间 0
    技术积分 1428 (1467)
    社区积分 9 (13641)
    注册日期 2002-8-7
    论坛徽章:4
    管理团队成员管理团队2006纪念徽章会员2006贡献徽章2009日食纪念  
          

    发表于 2007-4-2 13:07 
    that is what "fencing" about .


    只看该作者    顶部
    离线 Fenng
    版主


    精华贴数 32
    个人空间 0
    技术积分 53642 (12)
    社区积分 6635 (293)
    注册日期 2001-12-18
    论坛徽章:35
    现任管理团队成员2007年度最佳版主2009架构师大会纪念徽章ITPUB北京2009年会纪念徽章2010新春纪念徽章祖国60周年纪念徽章
    生肖徽章2007版:鼠生肖徽章2007版:虎生肖徽章2007版:虎生肖徽章2007版:蛇  

    发表于 2007-4-2 13:35 
    整的还挺详细,貌似不是愚人节新闻,哈哈


    __________________
    我的Blog: www.dbanotes.net   


    点击即可用 Google Reader 订阅   

    支付宝官方Blog

    4nyth1n9 th4t can 90 wr0n9 wi11 9o wr0ng  
    不想做厨师的裁缝不是好司机






    《Oracle性能诊断艺术》出版了
    只看该作者    顶部
    相关内容


    CopyRight 1999-2006 itpub.net All Right Reserved.
    北京皓辰网域网络信息技术有限公司. 版权所有
    E-mail:Webmaster@itpub.net
    网站律师 隐私政策 知识产权声明
    京ICP证:060528号 联系我们