楼主: tolywang

[HA] 刚刚节点2自动重启了,已经是第 5 次了

[复制链接]
论坛徽章:
71
2015年新春福章
日期:2015-03-06 11:57:312013年新春福章
日期:2013-02-25 14:51:24双黄蛋
日期:2013-01-06 13:31:18蜘蛛蛋
日期:2013-01-06 10:26:08茶鸡蛋
日期:2012-11-21 19:35:23ITPUB 11周年纪念徽章
日期:2012-10-09 18:05:07版主2段
日期:2012-05-15 15:24:11铁扇公主
日期:2012-02-21 15:02:402012新春纪念徽章
日期:2012-02-13 15:13:512012新春纪念徽章
日期:2012-02-13 15:13:51
31#
 楼主| 发表于 2010-3-31 09:54 | 只看该作者
这两天间断 reboot 了 6 次,都是节点2, 如果是voting disk 或 ocr 问题, 是否应该会有日志记录 ??  不管是在 crs 或 linux 或 oracle log 中。
而且reboot 是在周天 , 没有一点业务的时候 。 通过HP 的 Integrated Lights-Out2 查看到系统硬件没有什么问题, 电力也没有发现什么问题 。


顺便问个问题, Linux 4 好像都会记录登入用户的 ip 等, 5 以后就不记录了,如何开启 ??

使用道具 举报

回复
论坛徽章:
71
2015年新春福章
日期:2015-03-06 11:57:312013年新春福章
日期:2013-02-25 14:51:24双黄蛋
日期:2013-01-06 13:31:18蜘蛛蛋
日期:2013-01-06 10:26:08茶鸡蛋
日期:2012-11-21 19:35:23ITPUB 11周年纪念徽章
日期:2012-10-09 18:05:07版主2段
日期:2012-05-15 15:24:11铁扇公主
日期:2012-02-21 15:02:402012新春纪念徽章
日期:2012-02-13 15:13:512012新春纪念徽章
日期:2012-02-13 15:13:51
32#
 楼主| 发表于 2010-3-31 10:37 | 只看该作者
原帖由 tolywang 于 2010-3-29 10:51 发表
今天又重启了两次,同样是节点2 。 按照Yong Huang 提供的文档检查是否GFS 文件系统导致的,的确是有几个项目有不满足的。 但是
不知道是不是和这个有关 。  硬件问题也同步请HP的人查看 。



Isolation of Red Hat Global File System (GFS) Issues:
If an issue is suspected by Oracle Support to be GFS software related, the issue would be transferred to
Red Hat Support after advising the customer to collect the following information required by Red Hat Support.
The collection of this information is the customers responsibility.
Please verify all of the items below to determine that a case is due to GFS software

The output of hostname and uname -n should be identical.
All systems should be able to ping each other by hostname.
Verify that the kernel is not tainted by executing lsmod.



节点 2 上 dmesg 看到的部分信息。




PNP: PS/2 Controller [PNP0303:KBD,PNP0f0e:PS2M] at 0x60,0x64 irq 1,12
serio: i8042 KBD port at 0x60,0x64 irq 1
serio: i8042 AUX port at 0x60,0x64 irq 12
mice: PS/2 mouse device common for all mice
md: md driver 0.90.3 MAX_MD_DEVS=256, MD_SB_DISKS=27
md: bitmap version 4.39
TCP bic registered
Initializing IPsec netlink socket
NET: Registered protocol family 1
NET: Registered protocol family 17
Write protecting the kernel read-only data: 467k
input: AT Translated Set 2 keyboard as /class/input/input0
qla2xxx_conf: no version for "inter_module_unregister" found: kernel tainted.
SCSI subsystem initialized
QLogic Fibre Channel HBA Driver
ACPI: PCI Interrupt 0000:0d:00.0[A] -> GSI 29 (level, low) -> IRQ 22
qla2xxx 0000:0d:00.0: Found an ISP2432, irq 22, iobase 0xffffc20000004000
qla2xxx 0000:0d:00.0: Configuring PCI space...
PCI: Setting latency timer of device 0000:0d:00.0 to 64
qla2xxx 0000:0d:00.0: Configure NVRAM parameters...
qla2xxx 0000:0d:00.0: Verifying loaded RISC code...
qla2xxx 0000:0d:00.0: Allocated (64 KB) for EFT...
qla2xxx 0000:0d:00.0: Allocated (1413 KB) for firmware dump...
qla2xxx 0000:0d:00.0: Waiting for LIP to complete...
input: ImExPS/2 Generic Explorer Mouse as /class/input/input1
qla2xxx 0000:0d:00.0: LIP reset occured (f8f7).
qla2xxx 0000:0d:00.0: LIP occured (f8f7).
qla2xxx 0000:0d:00.0: LOOP UP detected (4 Gbps).
qla2xxx 0000:0d:00.0: Topology - (Loop), Host Loop address 0x1
scsi0 : qla2xxx
qla2xxx 0000:0d:00.0:
QLogic Fibre Channel HBA Driver: 8.02.11-fo
  QLogic HPAE312A -
  ISP2432: PCIe (2.5GT/s x4) @ 0000:0d:00.0 hdma+, host#=0, fw=4.03.02 [IP] [84XX]
  Vendor: HP        Model: MSA2012fc         Rev: J200
  Type:   Enclosure                          ANSI SCSI revision: 05
qla2xxx 0000:0d:00.0: scsi(0:0:0:0): Enabled tagged queuing, queue depth 16.
  Vendor: HP        Model: MSA2012fc         Rev: J200
  Type:   Direct-Access                      ANSI SCSI revision: 05
qla2xxx 0000:0d:00.0: scsi(0:0:1:0): Enabled tagged queuing, queue depth 16.
SCSI device sda: 976896 512-byte hdwr sectors (500 MB)
sda: Write Protect is off
sda: Mode Sense: 93 00 00 08
SCSI device sda: drive cache: write back
SCSI device sda: 976896 512-byte hdwr sectors (500 MB)
sda: Write Protect is off
sda: Mode Sense: 93 00 00 08

使用道具 举报

回复
论坛徽章:
47
蒙奇·D·路飞
日期:2017-03-27 08:04:23马上有车
日期:2014-02-18 16:41:112014年新春福章
日期:2014-02-18 16:41:11一汽
日期:2013-09-01 20:46:27复活蛋
日期:2013-03-13 07:55:232013年新春福章
日期:2013-02-25 14:51:24ITPUB 11周年纪念徽章
日期:2012-10-09 18:03:322012新春纪念徽章
日期:2012-02-13 15:13:202012新春纪念徽章
日期:2012-02-13 15:13:202012新春纪念徽章
日期:2012-02-13 15:13:20
33#
发表于 2010-4-1 02:41 | 只看该作者
> qla2xxx_conf: no version for "inter_module_unregister" found: kernel tainted.

That may not be a problem, although it's better to check with whoever provided the driver to be sure, perhaps HP?

Have you checked the log files under the client directory?

Yong Huang

使用道具 举报

回复
论坛徽章:
97
ITPUB元老
日期:2008-06-30 12:48:39暖羊羊
日期:2015-03-04 14:50:372015年新春福章
日期:2015-03-06 11:57:312010数据库技术大会纪念徽章
日期:2015-04-23 10:33:192011数据库大会纪念章
日期:2015-04-23 10:33:192012数据库大会纪念章
日期:2015-04-23 10:33:192013数据库大会纪念章
日期:2015-04-23 10:33:192014数据库大会纪念章
日期:2015-04-23 10:33:19林肯
日期:2013-10-31 12:31:382013年新春福章
日期:2013-02-25 14:51:24
34#
发表于 2010-4-1 12:55 | 只看该作者
原帖由 tolywang 于 2010-3-31 09:54 发表
这两天间断 reboot 了 6 次,都是节点2, 如果是voting disk 或 ocr 问题, 是否应该会有日志记录 ??  不管是在 crs 或 linux 或 oracle log 中。
而且reboot 是在周天 , 没有一点业务的时候 。 通过HP 的 Integrated Lights-Out2 查看到系统硬件没有什么问题, 电力也没有发现什么问题 。


顺便问个问题, Linux 4 好像都会记录登入用户的 ip 等, 5 以后就不记录了,如何开启 ??


last 就可以看到的。

使用道具 举报

回复
论坛徽章:
97
ITPUB元老
日期:2008-06-30 12:48:39暖羊羊
日期:2015-03-04 14:50:372015年新春福章
日期:2015-03-06 11:57:312010数据库技术大会纪念徽章
日期:2015-04-23 10:33:192011数据库大会纪念章
日期:2015-04-23 10:33:192012数据库大会纪念章
日期:2015-04-23 10:33:192013数据库大会纪念章
日期:2015-04-23 10:33:192014数据库大会纪念章
日期:2015-04-23 10:33:19林肯
日期:2013-10-31 12:31:382013年新春福章
日期:2013-02-25 14:51:24
35#
发表于 2010-4-1 12:59 | 只看该作者
原帖由 tolywang 于 2010-3-30 23:33 发表



不过看图片中的 iowait 是 0.0% , 几乎没有I/O ,这个时候是不是因为共享磁盘在节点2 已经处于接近 unmount 状态了 ,
所以没有I/O,  但是sys cpu 负载非常高  。


图片上说明 cpu 都是 oracle process 占用的。
可以看看重启前面的awr ,ash 信息。如果直接重启了,估计可能记录不了。

使用道具 举报

回复
论坛徽章:
71
2015年新春福章
日期:2015-03-06 11:57:312013年新春福章
日期:2013-02-25 14:51:24双黄蛋
日期:2013-01-06 13:31:18蜘蛛蛋
日期:2013-01-06 10:26:08茶鸡蛋
日期:2012-11-21 19:35:23ITPUB 11周年纪念徽章
日期:2012-10-09 18:05:07版主2段
日期:2012-05-15 15:24:11铁扇公主
日期:2012-02-21 15:02:402012新春纪念徽章
日期:2012-02-13 15:13:512012新春纪念徽章
日期:2012-02-13 15:13:51
36#
 楼主| 发表于 2010-4-5 13:27 | 只看该作者
原帖由 Kamus 于 2010-4-5 09:06 发表


112的机器在22:11:03时候的top截图可一点儿不像没有业务的样子。大量oracle进程占了大量CPU,我仍然怀疑是大量换页的问题。

没有发生故障之前的vmstat情况吗?



是的,这个图是异常reboot中的一次,其他十多次,还有最近几天,几乎每天reboot 1~2 次,今天还reboot 了,这3天这边都放假,
不会有任何访问。

uptime.jpg (194.17 KB, 下载次数: 37)

uptime.jpg

使用道具 举报

回复
论坛徽章:
71
2015年新春福章
日期:2015-03-06 11:57:312013年新春福章
日期:2013-02-25 14:51:24双黄蛋
日期:2013-01-06 13:31:18蜘蛛蛋
日期:2013-01-06 10:26:08茶鸡蛋
日期:2012-11-21 19:35:23ITPUB 11周年纪念徽章
日期:2012-10-09 18:05:07版主2段
日期:2012-05-15 15:24:11铁扇公主
日期:2012-02-21 15:02:402012新春纪念徽章
日期:2012-02-13 15:13:512012新春纪念徽章
日期:2012-02-13 15:13:51
37#
 楼主| 发表于 2010-4-5 13:34 | 只看该作者
节点1运行 22 天, 节点2 这1周内几乎每天重新启动 2 次 , 有要求Houston机房的托管单位请HP的人过来看看,但是他们以 HP 远程控制的软件监控
没有任何硬件问题为由拒绝 , 没有办法  。 还有20多天就要迁移到另外新的机器了, 实在不行就忍一忍了 。 本来打算让他们下线节点2 ,重新安装系统,
重新ADD进去 , 他们在大陆的DBA倒是同意(GFS File system , 他们比较熟悉,这套系统是接管他们的) , 在Houston 的系统管理人员貌似不想重新搞一次 。

使用道具 举报

回复
论坛徽章:
2
2010新春纪念徽章
日期:2010-03-01 11:20:04ITPUB十周年纪念徽章
日期:2011-11-01 16:21:15
38#
发表于 2010-4-7 12:00 | 只看该作者
问题:

1: CRS补丁版本是多少啊? bundle patch打了么?
2: max_dump_file_size 设置的多大?

使用道具 举报

回复
论坛徽章:
71
2015年新春福章
日期:2015-03-06 11:57:312013年新春福章
日期:2013-02-25 14:51:24双黄蛋
日期:2013-01-06 13:31:18蜘蛛蛋
日期:2013-01-06 10:26:08茶鸡蛋
日期:2012-11-21 19:35:23ITPUB 11周年纪念徽章
日期:2012-10-09 18:05:07版主2段
日期:2012-05-15 15:24:11铁扇公主
日期:2012-02-21 15:02:402012新春纪念徽章
日期:2012-02-13 15:13:512012新春纪念徽章
日期:2012-02-13 15:13:51
39#
 楼主| 发表于 2010-4-7 23:54 | 只看该作者
原帖由 Hades_2008 于 2010-4-7 12:00 发表
问题:

1: CRS补丁版本是多少啊? bundle patch打了么?
2: max_dump_file_size 设置的多大?



1.  crs 补丁版本是 10.2.0.4 ,  印象中没有打 bundle patch 。
2.  
SQL> show parameter max_dump_file_size
NAME                                 TYPE        VALUE
------------------------------------ ----------- ------------------------------
max_dump_file_size                   string      UNLIMITED



BTW ,  昨天HP的人员远程协助Houston的系统人员进行了节点2 server的 firewall 升级, 没有作用,还是继续重新启动,然后log
中什么都看不到 。   还好通过HP的远程控制工具 iLO 2 一直监控并通过录制软件,录下了当时关闭OS的一瞬间 。  发现不是正常关闭
Linux 的样子, 而是直接远程控制卡对应的屏幕变成灰色, 然后白屏, 然后就是开启画面 。

Recorder_process of B2B_RAC_02 reboot.rar

1.67 MB, 下载次数: 34

使用道具 举报

回复
论坛徽章:
48
马上加薪
日期:2014-02-19 11:55:142011新春纪念徽章
日期:2011-01-25 15:42:152011新春纪念徽章
日期:2011-01-25 15:41:502011新春纪念徽章
日期:2011-01-25 15:41:01ITPUB9周年纪念徽章
日期:2010-10-08 09:32:26ITPUB季度 技术新星
日期:2010-05-17 15:53:17数据库板块每日发贴之星
日期:2010-05-12 01:01:01数据库板块每日发贴之星
日期:2010-05-08 01:01:01数据库板块每日发贴之星
日期:2010-05-07 01:01:02数据库板块每日发贴之星
日期:2010-04-29 01:01:01
40#
发表于 2010-4-8 00:27 | 只看该作者
这几天也在解决一个RAC节点宕机的问题。solaris10+Oracle 10.2.0.4,还没有找到问题,

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表