ITPUB??ì3
ITPUB论坛 » Oracle数据库管理 » rac启动问题,只能启动其中一个节点的instance

标题: rac启动问题,只能启动其中一个节点的instance
离线 lsc800426
中级会员



精华贴数 0
个人空间 0
技术积分 2109 (740)
社区积分 12 (9730)
注册日期 2007-1-12
论坛徽章:6
授权会员2008北京奥运纪念徽章:拳击2008北京奥运纪念徽章:排球2008北京奥运纪念徽章:沙滩排球2008年新春纪念徽章ITPUB新首页上线纪念徽章
      

发表于 2008-7-2 16:00 
rac启动问题,只能启动其中一个节点的instance

我装的10g r2 rac,是做的nfs,操作系统为linux,
将做nfs服务的共享目录分别mount在node1和node2上,然后crs,rac都安装在共享目录,安装过程顺利,但是装完后发现,只能启动一个instance,另一个instance都是offline的状态,当重启db的时候,instance就会切到另外一个node。
还发现有个问题是:由于做的nfs,在两个node间,时间相差大约为60秒

请看:
[root@cxjf01 etc]# crs_stat -t
Name           Type           Target    State     Host        
------------------------------------------------------------
ora....01.lsnr application    ONLINE    ONLINE    cxjf01      
ora.cxjf01.gsd application    ONLINE    ONLINE    cxjf01      
ora.cxjf01.ons application    ONLINE    OFFLINE               
ora.cxjf01.vip application    ONLINE    ONLINE    cxjf01      
ora....02.lsnr application    ONLINE    ONLINE    cxjf02      
ora.cxjf02.gsd application    ONLINE    ONLINE    cxjf02      
ora.cxjf02.ons application    ONLINE    ONLINE    cxjf02      
ora.cxjf02.vip application    ONLINE    ONLINE    cxjf02      
ora.rac.db     application    ONLINE    ONLINE    cxjf01      
ora....c1.inst application    ONLINE    OFFLINE               
ora....c2.inst application    ONLINE    ONLINE    cxjf02      
[root@cxjf01 etc]# srvctl start instance -d rac -i "rac1,rac2"
You have new mail in /var/spool/mail/root
[root@cxjf01 etc]# crs_stat -t
Name           Type           Target    State     Host        
------------------------------------------------------------
ora....01.lsnr application    ONLINE    ONLINE    cxjf01      
ora.cxjf01.gsd application    ONLINE    ONLINE    cxjf01      
ora.cxjf01.ons application    ONLINE    OFFLINE               
ora.cxjf01.vip application    ONLINE    ONLINE    cxjf01      
ora....02.lsnr application    ONLINE    ONLINE    cxjf02      
ora.cxjf02.gsd application    ONLINE    ONLINE    cxjf02      
ora.cxjf02.ons application    ONLINE    ONLINE    cxjf02      
ora.cxjf02.vip application    ONLINE    ONLINE    cxjf02      
ora.rac.db     application    ONLINE    ONLINE    cxjf01      
ora....c1.inst application    ONLINE    ONLINE    cxjf01      
ora....c2.inst application    ONLINE    OFFLINE               
[root@cxjf01 etc]# srvctl start instance -d rac -i "rac2"
PRKP-1001 : Error starting instance rac2 on node cxjf02
CRS-0215: Could not start resource 'ora.rac.rac2.inst'.
You have new mail in /var/spool/mail/root
[root@cxjf01 etc]# crs_stat -t
Name           Type           Target    State     Host        
------------------------------------------------------------
ora....01.lsnr application    ONLINE    ONLINE    cxjf01      
ora.cxjf01.gsd application    ONLINE    ONLINE    cxjf01      
ora.cxjf01.ons application    ONLINE    OFFLINE               
ora.cxjf01.vip application    ONLINE    ONLINE    cxjf01      
ora....02.lsnr application    ONLINE    ONLINE    cxjf02      
ora.cxjf02.gsd application    ONLINE    ONLINE    cxjf02      
ora.cxjf02.ons application    ONLINE    ONLINE    cxjf02      
ora.cxjf02.vip application    ONLINE    ONLINE    cxjf02      
ora.rac.db     application    ONLINE    ONLINE    cxjf01      
ora....c1.inst application    ONLINE    ONLINE    cxjf01      
ora....c2.inst application    ONLINE    OFFLINE


其中在最后一步执行启动node2的instance时,alert日志警告如下:
SMON started with pid=13, OS id=20225
RECO started with pid=14, OS id=20227
CJQ0 started with pid=15, OS id=20229
MMON started with pid=16, OS id=20231
MMNL started with pid=17, OS id=20233
Wed Jul  2 14:59:08 2008
lmon registered with NM - instance id 2 (internal mem no 1)
Wed Jul  2 15:01:42 2008
Error: KGXGN polling error (15)
Wed Jul  2 15:01:42 2008
Errors in file /u01/app/oracle/admin/rac/bdump/rac2_lmon_20180.trc:
ORA-29702: error occurred in Cluster Group Service operation
LMON: terminating instance due to error 29702
Wed Jul  2 15:01:46 2008
Shutting down instance (abort)


__________________
坚持就是胜利!
只看该作者    顶部
离线 lsc800426
中级会员



精华贴数 0
个人空间 0
技术积分 2109 (740)
社区积分 12 (9730)
注册日期 2007-1-12
论坛徽章:6
授权会员2008北京奥运纪念徽章:拳击2008北京奥运纪念徽章:排球2008北京奥运纪念徽章:沙滩排球2008年新春纪念徽章ITPUB新首页上线纪念徽章
      

发表于 2008-7-2 16:43 
ding


__________________
坚持就是胜利!
只看该作者    顶部
离线 microsoft_fly
不进则退



来自 杭州
精华贴数 0
个人空间 0
技术积分 3830 (363)
社区积分 44 (5096)
注册日期 2006-2-17
论坛徽章:3
生肖徽章2007版:鼠数据库板块每日发贴之星ITPUB新首页上线纪念徽章   
      

发表于 2008-7-2 16:45 
由于做的nfs,在两个node间,时间相差大约为60秒,这个原因非常大


__________________
环境:Red Hat Enterprise Linux AS release 4 (Nahant Update 4)
版本:oracle 10.2.0.1.0 /9.2.0.4

http://hi.baidu.com/fly_ch/blog
byfei@hotmail.com
只看该作者    顶部
离线 lsc800426
中级会员



精华贴数 0
个人空间 0
技术积分 2109 (740)
社区积分 12 (9730)
注册日期 2007-1-12
论坛徽章:6
授权会员2008北京奥运纪念徽章:拳击2008北京奥运纪念徽章:排球2008北京奥运纪念徽章:沙滩排球2008年新春纪念徽章ITPUB新首页上线纪念徽章
      

发表于 2008-7-2 17:04 


QUOTE:
原帖由 microsoft_fly 于 2008-7-2 16:45 发表
由于做的nfs,在两个node间,时间相差大约为60秒,这个原因非常大

我现在用ntpdate同步了两个node,还同步了nfs服务端的时间,现在时间同步了,
我执行crs_stop -all
再执行crs_start -all
仍然故障依旧啊。。。。。。
这个问题郁闷了好久了,卸载重装n次了


__________________
坚持就是胜利!
只看该作者    顶部
离线 microsoft_fly
不进则退



来自 杭州
精华贴数 0
个人空间 0
技术积分 3830 (363)
社区积分 44 (5096)
注册日期 2006-2-17
论坛徽章:3
生肖徽章2007版:鼠数据库板块每日发贴之星ITPUB新首页上线纪念徽章   
      

发表于 2008-7-2 17:07 
对单个节点startup mount
alter database open看看
或者看下日志


__________________
环境:Red Hat Enterprise Linux AS release 4 (Nahant Update 4)
版本:oracle 10.2.0.1.0 /9.2.0.4

http://hi.baidu.com/fly_ch/blog
byfei@hotmail.com
只看该作者    顶部
离线 lsc800426
中级会员



精华贴数 0
个人空间 0
技术积分 2109 (740)
社区积分 12 (9730)
注册日期 2007-1-12
论坛徽章:6
授权会员2008北京奥运纪念徽章:拳击2008北京奥运纪念徽章:排球2008北京奥运纪念徽章:沙滩排球2008年新春纪念徽章ITPUB新首页上线纪念徽章
      

发表于 2008-7-2 17:24 


QUOTE:
原帖由 microsoft_fly 于 2008-7-2 17:07 发表
对单个节点startup mount
alter database open看看
或者看下日志

我直接在offline的node上,使用startup nomount,结果报如下错误:
DBW0 started with pid=10, OS id=26107
LGWR started with pid=11, OS id=26170
CKPT started with pid=12, OS id=26231
SMON started with pid=13, OS id=26291
RECO started with pid=14, OS id=26353
CJQ0 started with pid=15, OS id=26429
MMON started with pid=16, OS id=26507
MMNL started with pid=17, OS id=26573
Wed Jul  2 17:19:56 2008
lmon registered with NM - instance id 1 (internal mem no 0)
Wed Jul  2 17:23:07 2008
Error: KGXGN polling error (15)
Wed Jul  2 17:23:07 2008
Errors in file /u01/app/oracle/admin/rac/bdump/rac1_lmon_25776.trc:
ORA-29702: error occurred in Cluster Group Service operation
LMON: terminating instance due to error 29702
Wed Jul  2 17:23:07 2008
System state dump is made for local instance
Wed Jul  2 17:23:07 2008
Errors in file /u01/app/oracle/admin/rac/bdump/rac1_diag_25620.trc:
ORA-29702: error occurred in Cluster Group Service operation
Wed Jul  2 17:23:07 2008
Trace dumping is performing id=[cdmp_20080702172307]
Wed Jul  2 17:23:11 2008
Instance terminated by LMON, pid = 25776


__________________
坚持就是胜利!
只看该作者    顶部
离线 microsoft_fly
不进则退



来自 杭州
精华贴数 0
个人空间 0
技术积分 3830 (363)
社区积分 44 (5096)
注册日期 2006-2-17
论坛徽章:3
生肖徽章2007版:鼠数据库板块每日发贴之星ITPUB新首页上线纪念徽章   
      

发表于 2008-7-2 17:28 

__________________
环境:Red Hat Enterprise Linux AS release 4 (Nahant Update 4)
版本:oracle 10.2.0.1.0 /9.2.0.4

http://hi.baidu.com/fly_ch/blog
byfei@hotmail.com
只看该作者    顶部
离线 microsoft_fly
不进则退



来自 杭州
精华贴数 0
个人空间 0
技术积分 3830 (363)
社区积分 44 (5096)
注册日期 2006-2-17
论坛徽章:3
生肖徽章2007版:鼠数据库板块每日发贴之星ITPUB新首页上线纪念徽章   
      

发表于 2008-7-2 17:29 
or:
调整网络设置

在 Oracle 9.2.0.1 以及更高版本中,Oracle 在 Linux 上使用 UDP 作为默认协议进行过程间通信 (IPC) 的默认协议,如在 RAC 集群中的实例间的高速缓存合并和集群管理器缓冲区传输。

Oracle 强烈建议将默认的和最大的发送缓冲区大小(SO_SNDBUF 套接字选项)调整为 256KB,并将默认的和最大的接收缓冲区大小(SO_RCVBUF 套接字选项)调整为 256KB。

接收缓冲区由 TCP 和 UDP 用于保留所接收的数据,直到应用程序读出这些数据为止。由于不允许对等端发送超过缓冲区大小窗口的数据,因此接收缓冲区无法溢出。这意味着,如果数据报不适合套接字接收缓冲区,则将它们舍弃,从而可能导致发送端压垮接收端。

无需重新引导即可在 /proc 文件系统中更改默认的和最大的窗口大小:

# su - root

# sysctl -w net.core.rmem_default=262144
net.core.rmem_default = 262144

# sysctl -w net.core.wmem_default=262144
net.core.wmem_default = 262144

# sysctl -w net.core.rmem_max=262144
net.core.rmem_max = 262144

# sysctl -w net.core.wmem_max=262144
net.core.wmem_max = 262144

以上命令对已经运行的操作系统作出更改。现在您应将以下各行添加到 RAC 集群中每个节点的 /etc/sysctl.conf 文件中,从而使以上更改成为永久性更改(针对每次重新引导而言):

# Default setting in bytes of the socket receive buffer
net.core.rmem_default=262144

# Default setting in bytes of the socket send buffer
net.core.wmem_default=262144

# Maximum socket receive buffer size which may be set by using
# the SO_RCVBUF socket option
net.core.rmem_max=262144

# Maximum socket send buffer size which may be set by using
# the SO_SNDBUF socket option
net.core.wmem_max=262144


__________________
环境:Red Hat Enterprise Linux AS release 4 (Nahant Update 4)
版本:oracle 10.2.0.1.0 /9.2.0.4

http://hi.baidu.com/fly_ch/blog
byfei@hotmail.com
只看该作者    顶部
离线 lsc800426
中级会员



精华贴数 0
个人空间 0
技术积分 2109 (740)
社区积分 12 (9730)
注册日期 2007-1-12
论坛徽章:6
授权会员2008北京奥运纪念徽章:拳击2008北京奥运纪念徽章:排球2008北京奥运纪念徽章:沙滩排球2008年新春纪念徽章ITPUB新首页上线纪念徽章
      

发表于 2008-7-2 17:32 


QUOTE:
原帖由 microsoft_fly 于 2008-7-2 17:28 发表
http://space.itpub.net/?uid-35489-action-viewspace-itemid-127557

这个fs.file-max = 131072
kernel.threads-max = 131072   
我已经在两个node都增加到/etc/sysctl.conf了,并且运行/sbin/sysctl -p生效了的。


__________________
坚持就是胜利!
只看该作者    顶部
离线 lsc800426
中级会员



精华贴数 0
个人空间 0
技术积分 2109 (740)
社区积分 12 (9730)
注册日期 2007-1-12
论坛徽章:6
授权会员2008北京奥运纪念徽章:拳击2008北京奥运纪念徽章:排球2008北京奥运纪念徽章:沙滩排球2008年新春纪念徽章ITPUB新首页上线纪念徽章
      

发表于 2008-7-2 17:34 
我/etc/sysctl.conf的配置内容如下:
kernel.shmall = 2097152
kernel.shmmax = 2147483648
kernel.shmmni = 4096
# semaphores: semmsl, semmns, semopm, semmni
kernel.sem = 250 32000 100 128
kernel.threads-max = 131072
fs.file-max = 131072
#fs.file-max = 65536
net.ipv4.ip_local_port_range = 1024 65000
#net.core.rmem_default=262144
#net.core.rmem_max=262144
#net.core.wmem_default=262144
#net.core.wmem_max=262144

# Additional and amended parameters suggested by Kevin Closson
net.core.rmem_default = 524288
net.core.wmem_default = 524288
net.core.rmem_max = 16777216
net.core.wmem_max = 16777216
net.ipv4.ipfrag_high_thresh=524288
net.ipv4.ipfrag_low_thresh=393216
net.ipv4.tcp_rmem=4096 524288 16777216
net.ipv4.tcp_wmem=4096 524288 16777216
net.ipv4.tcp_timestamps=0
net.ipv4.tcp_sack=0
net.ipv4.tcp_window_scaling=1
net.core.optmem_max=524287
net.core.netdev_max_backlog=2500
sunrpc.tcp_slot_table_entries=128
sunrpc.udp_slot_table_entries=128
net.ipv4.tcp_mem=16384 16384 16384


__________________
坚持就是胜利!
只看该作者    顶部
相关内容


CopyRight 1999-2006 itpub.net All Right Reserved.
北京皓辰广域网络信息技术有限公司. 版权所有
E-mail:Webmaster@itpub.net
京ICP证:010037号 联系我们 法律顾问