查看: 16887|回复: 71

【案例讨论】未雨绸缪:数据库崩溃了怎么办?(已公布获奖名单)

[复制链接]
认证徽章
论坛徽章:
127
茶鸡蛋
日期:2012-01-16 14:24:41鲜花蛋
日期:2012-06-06 14:48:18双黄蛋
日期:2013-01-07 21:07:482013年新春福章
日期:2013-02-25 14:51:24优秀写手
日期:2013-12-18 09:29:082014年新春福章
日期:2014-02-18 16:44:08马上有对象
日期:2014-02-18 16:44:08马上加薪
日期:2014-03-18 09:57:11马上有车
日期:2014-03-20 16:13:24马上有房
日期:2014-03-20 16:14:11
发表于 2014-6-23 11:46 | 显示全部楼层 |阅读模式

有的企业认为只有力挽狂澜,起死回生的技术人员才是好的技术人员,而有的企业认为能够规避灾难,未雨绸缪的技术人员才是最让人放心的技术人员。您觉得呢?数据库崩溃了怎么办?究竟数据库的安全对于企业有多大的份量呢?


我们见过很多客户,因为空间紧张而东拼西凑,最终导致难以挽回的数据灾难,回头看来是那么得不偿失。因为一块硬盘,损失整个数据库,看起来是那么的荒诞。然而,这样荒诞的事情还在不断发生。一个字符因为大小写的疏忽引发灾难,一个不小心强制关机的操作也有可能导致数据库引发写丢失故障,还有因为存储优化导致表空间误删除的案例。各种惨痛案例经常上演,误删除、误操作引发的数据库故障灾难为我们敲响了警钟。


在经历了数据完全丢失而导致系统停运的企业中,有2/5的企业再也没能恢复运营,余下的企业也有1/3在两年内宣告破产。由此可见数据灾难对于企业的影响有么巨大而又深远。亲们,本期话题让我们一起聊聊数据库安全的那些事。


本期话题


1.您工作中遇到过哪些数据库的灾难案例?能否为大家回放下数据库陷入灾难故障的情景?


2.分享下数据库恢复的过程,是如何进行故障消除的?有哪些经验总结?

活动时间:6月23-7月12日

活动奖励:欢迎大家针对以上任意问题回帖,选取6名网友赠送世界杯E组合F组徽章1枚。选取1名最佳网友赠送超薄无线鼠标一个。

110437cdjc6jjajrvqhxvw.jpg


瑞士.png 法国.png 阿根廷.png 厄瓜多尔.png 波黑.png 伊朗.png 洪都拉斯.png 尼日利亚.png

获奖名单:恭喜以下网友获奖


世界杯徽章1枚

listen47

jionjionyoushen

luckyrandom

pgy8288

donkey0424

sail_gu


鼠标1个


yyyzzz0yz




认证徽章
论坛徽章:
111
ITPUB9周年纪念徽章
日期:2010-10-08 09:34:03马上有房
日期:2014-02-18 16:42:02马上有车
日期:2014-03-20 10:09:22马上有钱
日期:2014-03-20 15:53:11马上有车
日期:2014-03-20 16:13:24马上有房
日期:2014-03-20 16:14:11马上有钱
日期:2014-03-20 16:14:11马上有对象
日期:2014-03-20 16:14:11马上加薪
日期:2014-03-20 16:14:11技术图书徽章
日期:2014-03-27 09:30:56
发表于 2014-6-23 12:57 | 显示全部楼层
1.您工作中遇到过哪些数据库的灾难案例?能否为大家回放下数据库陷入灾难故障的情景?
// 数据库灾难 1. 数据库非正常中断,造成回滚时间过长,却只能在旁边无能无力。
                    2. 数据库异常中断后,由于存在坏页,导致数据库几天未能解决。
应该是11年十一期间,当时放假回老家,在2号的时候接到现场值班同事的电话告警,数据库瘫了,并且重启后启动不了。
于是赶紧回公司,定位问题,同时向客户汇报,向原厂求助,终于经过了4天左右的时间排查,同时丢弃掉了几个表的数据,才恢复了数据库。
好在我们是OLAP系统,不是OLTP系统,数据可以从其他系统重新获取,这样才避免了数据丢失的问题。

2.分享下数据库恢复的过程,是如何进行故障消除的?有哪些经验总结?
    1.  演练一定要做好或者技术一定要过关,至少遇到问题后知道怎么解决。
    2.   重要的表等是否可以导出备份。

使用道具 举报

回复
认证徽章
论坛徽章:
302
季节之章:春
日期:2012-06-20 17:38:14季节之章:夏
日期:2012-06-12 10:49:25季节之章:秋
日期:2012-06-12 10:49:25季节之章:冬
日期:2012-06-12 10:49:25马上有钱
日期:2014-06-16 15:59:19蓝色妖姬
日期:2012-05-19 11:02:10蓝色妖姬
日期:2012-06-12 11:21:48蓝色妖姬
日期:2012-06-12 11:21:48玉兔
日期:2012-07-27 11:00:12玉兔
日期:2012-08-05 10:00:09
发表于 2014-6-23 14:13 | 显示全部楼层
本帖最后由 听海★蓝心梦 于 2014-6-23 14:18 编辑

1.您工作中遇到过哪些数据库的灾难案例?能否为大家回放下数据库陷入灾难故障的情景?
对于数据库DBA来说,数据库灾难应该都和恢复有关,实例恢复、数据库恢复。
2.分享下数据库恢复的过程,是如何进行故障消除的?有哪些经验总结?
其实,数据库恢复主要是由常规方法和非常规方法。
常规方法主要是通过备份恢复数据库,
非常规方法比较多,像odu恢复等。

使用道具 举报

回复
求职 : 信息技术经理/主管
论坛徽章:
29
马上有房
日期:2014-02-18 16:42:02复活蛋
日期:2013-07-27 12:45:15ERP板块每日发贴之星
日期:2011-08-25 01:01:02ERP板块每日发贴之星
日期:2009-02-07 01:01:03ERP板块每日发贴之星
日期:2011-08-27 01:01:01ITPUB元老
日期:2010-10-20 09:17:242014年世界杯参赛球队: 阿根廷
日期:2014-07-15 10:49:33祖国65周年纪念徽章
日期:2014-10-09 09:05:21咸鸭蛋
日期:2015-01-09 11:20:47沸羊羊
日期:2015-03-04 14:51:52
发表于 2014-6-24 13:25 | 显示全部楼层
首先声明,我不是DBA,实际上我是应用系统管理员,但是经历了一次数据库的问题,并且从头到尾跟踪了事件的经过,虽然没有参与。
整个事件过程中,个人感觉,针对数据故障,备份是关键。
1.您工作中遇到过哪些数据库的灾难案例?能否为大家回放下数据库陷入灾难故障的情景?
   记得是08年吧,早上上班检查EBS,发现系统没有正常启动,检查日志,发现数据库起不来,手动启动也没有用。当时很着急,因为公司的业务必须要有系统,没办法,要求业务手工记录,系统恢复后补录。最后联系了厂家,最终定位是由于数据库有坏块,经过一系列的尝试,直至晚上6点没能修复。最后将前一天的备份数据进行了恢复(我们每天进行数据备份),只有一天的数据没有进入系统,这是万幸!这次业务能够接受。

2.分享下数据库恢复的过程,是如何进行故障消除的?有哪些经验总结?
经验就是备份,怎么备份都不过分。还有就是有一个经验丰富DBA或者合作伙伴

使用道具 举报

回复
论坛徽章:
6
奥运会纪念徽章:篮球
日期:2008-10-24 13:29:382011新春纪念徽章
日期:2011-01-04 10:35:17ITPUB十周年纪念徽章
日期:2011-11-01 16:21:15问答徽章
日期:2013-12-13 11:53:28福特
日期:2013-12-22 21:22:382014年世界杯参赛球队: 阿根廷
日期:2014-07-15 10:49:33
发表于 2014-6-24 14:27 | 显示全部楼层
我们的是SQL Server,虽然处理方式不太一样,但处理的思路应该是差不了太多的。

1.您工作中遇到过哪些数据库的灾难案例?能否为大家回放下数据库陷入灾难故障的情景?
# 故障发生 #发生于上周,数据库文件遇到一致性IO逻辑校验错误。数据无法读写

2.分享下数据库恢复的过程,是如何进行故障消除的?有哪些经验总结?
#修复#
step 1)。检查定位哪些表损坏,按重要程度排序,以下的修复步骤都基于这个排序。
step 2)。 尝试重建失败
step 3)。暂停外部服务,手动执行事务日志备份,以备后用, 尝试允许数据丢失级别的修复成功
step 4)。 手动执行事务日志备份,以备后用。启动外部服务
step 5)。 恢复出修复前、修复后数据库,对损坏表执行数据比对,找出丢失数据,补回系统。

#经验#
1、 必须有自动备份机制,在处理故障过程中,只要二次确认备份是否成功即可放心处理故障。
2、 自动抓取系统的错误日志、警告日志并报出来,这样才能及时了解到故障的详细信息。
3、 对大部分故障类型,要做到分级处理。哪一级可以先修复后报告,哪一级要通知到哪些部门,要做成工作条例。避免造成故障处理时,其他部门还不知道什么情况,一头雾水。

使用道具 举报

回复
认证徽章
论坛徽章:
10
2014年世界杯参赛球队:巴西
日期:2014-06-12 16:34:36喜羊羊
日期:2015-03-18 09:30:06美羊羊
日期:2015-03-18 09:30:06懒羊羊
日期:2015-03-18 09:30:06沸羊羊
日期:2015-03-18 09:30:06慢羊羊
日期:2015-03-18 09:30:062015年新春福章
日期:2015-03-06 11:59:472015年新春福章
日期:2015-03-04 14:55:132014年世界杯参赛球队: 法国
日期:2014-06-13 11:24:50暖羊羊
日期:2015-03-18 09:30:06
发表于 2014-6-24 16:26 | 显示全部楼层
-----------------------------------------------------------------------
数据安全,重要性是第一位的,所谓的oracle的DG 服务器的HA 等等等等众多的架构为的是什么,就是保留数据的安全性。
oralce数据库为了保证数据的安全性,启用 归档模式和闪回技术 极大的消耗系统资源和数据库的性能 但是这个也是值得的。

之前我遇到过一次客户的平台数据库崩溃 原因服务器的磁盘变为只读状态,而且是单机的,之前我们提示过客户需要做双机等等保护措施,这次出现事故了,他们才重视了起来。

使用道具 举报

回复
论坛徽章:
6
ITPUB十周年纪念徽章
日期:2011-11-01 16:26:29咸鸭蛋
日期:2011-11-09 14:50:32咸鸭蛋
日期:2012-06-13 05:10:53三菱
日期:2013-09-17 09:52:46优秀写手
日期:2013-12-18 09:29:13马上加薪
日期:2014-10-15 18:26:41
发表于 2014-6-24 19:14 | 显示全部楼层
分享一个案例:
   之前在xx国家出差时候,现场的一个数据库(OLAP,2*IBM小机组成RAC )宕机,原因是存储控制器坏了(硬件不懂),现场存储工程师紧急从测试环境的存储上把存储控制器拆下来,然后在装上。
因为不在一个机房,算上车程时间,差不多2个小时恢复数据库,然后恢复OLAP应用.....
    持续分析:为什么这么多套存储都没有问题,偏偏报表系统的存储出问题?原因: 系统已运行3年,报表库的吞吐量比其他系统多出很多,且报表库跟其他两个应用的db共用(对应2个schema)。
解决办法:1.逐渐把这两个应用迁移出去。
           2.建议客户换存储。

使用道具 举报

回复
认证徽章
论坛徽章:
54
秀才
日期:2017-02-22 15:18:002015年新春福章
日期:2015-03-06 11:57:31懒羊羊
日期:2015-03-04 14:48:16马上有对象
日期:2014-10-24 17:37:552014年世界杯参赛球队: 比利时
日期:2014-08-05 11:35:382014年世界杯参赛球队: 阿根廷
日期:2014-07-15 10:49:33马上有车
日期:2014-02-18 16:41:112014年新春福章
日期:2014-02-18 16:41:11路虎
日期:2014-01-02 12:55:56ITPUB社区12周年站庆徽章
日期:2013-10-08 15:00:34
发表于 2014-6-24 19:41 | 显示全部楼层
1.您工作中遇到过哪些数据库的灾难案例?能否为大家回放下数据库陷入灾难故障的情景?
在SQL Server 2000时代,因为停电(虽然有UPS,但没顶得住)导致数据库损坏,拿备份恢复即可
有备无患
数据库停机,自然十几个部门电话不断,全厂跟系统相关的用户有点不淡定+骚动
倒是IT比较淡定,该咋做咋做,急的心态是没用的

2.分享下数据库恢复的过程,是如何进行故障消除的?有哪些经验总结?
恢复过程就是拿备份+日志恢复而已,要消除故障,必要的硬件(UPS)是少不了的,必要的备用服务器是少不了的
对多数厂,实时故障转移倒没什么需求,只要数据没丢失(或丢失数分钟),就是个小事件
当然会让跟系统相关的用户或老板们感受到原来服务器也是可能出问题的,也是个好事儿
对较关键的系统,在SQL SERVER 2008时代,搭建镜像是个好主意,当然,数据异机备份是必要的
关于集群,对绝大多数环境来说其实没啥必要。。。当嘘头吹吹当然也可

使用道具 举报

回复
论坛徽章:
3
优秀写手
日期:2013-12-26 06:00:122014年世界杯参赛球队: 阿根廷
日期:2014-07-15 10:49:33马上有对象
日期:2015-02-03 19:15:01
发表于 2014-6-24 21:08 | 显示全部楼层
1.您工作中遇到过哪些数据库的灾难案例?能否为大家回放下数据库陷入灾难故障的情景?
   生产数据库在停电以后出现问题,客户端全部都不能链接,数据库也启动不起来。初步检查数据文件没有问题,数据库未能正常启动起来,查看日志提示 ORA-00600: internal error code, arguments: [4194] ,百度之后发现,属于UNDO表空间数据文件损坏,验证数据文件后发现,发现确实已经损坏,根据搜索出来的资料,先设置手动管理 alter system set undo_management=manual scope=spfile;  重启数据库后创建新的 UNDO表空间 CREATE UNDO TABLESPACE UNDOTBS02 DATAFILE 'D:\ORACLE\PRODUCT\10.2.0\ORADATA\ORCL\UNDOTBS02.DBF' SIZE 3G AUTOEXTEND ON NEXT   10M; 并置为当前 alter system set undo_tablespace="UNDOTBS02" scope=spfile;  重启后日志没有发现错误,恢复业务运转。整体业务停业4小时。

2.分享下数据库恢复的过程,是如何进行故障消除的?有哪些经验总结?
逻辑备份备份、RMAN备份,定期拷贝备份文件到异地磁盘。
有条件的整个双击热备+DataGuard
定期

使用道具 举报

回复
认证徽章
论坛徽章:
25
马上有对象
日期:2014-10-15 16:19:39蓝锆石
日期:2015-02-04 13:42:24马上有钱
日期:2015-02-04 16:47:05狮子座
日期:2015-08-04 13:50:48妮可·罗宾
日期:2017-01-12 15:58:38山治
日期:2017-04-24 12:31:25
发表于 2014-6-24 23:58 | 显示全部楼层
1.您工作中遇到过哪些数据库的灾难案例?能否为大家回放下数据库陷入灾难故障的情景?
仅仅经历过一次数据库故障,上个月,IBM存储整个突然挂掉。
当远程确认存储挂掉时候,差不多就已经做好了最坏的打算,马上报故障,厂家现场,经后台分析得出结论--存储微码版本问题,进而一块盘坏死导致链路噪音。
庆幸的是当重启存储控制器后就正常了(还是非常不习惯重启设备来解决问题的方式),未发生文件损坏的情况。

2.分享下数据库恢复的过程,是如何进行故障消除的?有哪些经验总结?
经验:
   故障发生时需要准确定位故障&&故障原因,在没完全把握的情况下做好最坏打算;对待数据备份不能抱有侥幸心理

非常想混一组"世界杯"徽章,挺好看的样子!!!!!!!!!!!

使用道具 举报

回复
求职 : 数据库管理员
论坛徽章:
33
ITPUB社区千里马徽章
日期:2013-08-22 09:58:03生肖徽章:狗
日期:2012-12-04 17:07:41红旗
日期:2013-11-12 10:11:36现代
日期:2013-08-09 17:10:08比亚迪
日期:2013-11-20 10:30:52复活蛋
日期:2012-02-29 22:31:23茶鸡蛋
日期:2012-10-12 15:24:18茶鸡蛋
日期:2012-02-25 21:10:42咸鸭蛋
日期:2013-06-11 11:24:40蜘蛛蛋
日期:2012-11-01 08:46:58
发表于 2014-6-25 09:32 | 显示全部楼层
我这里是SQL Server数据库.

1.您工作中遇到过哪些数据库的灾难案例?能否为大家回放下数据库陷入灾难故障的情景?
    一个critical 的生产数据库(总大小300GB),是一个cluster(Win2008r2+sql 2008r2+FC Netapp storage),一个小的变更后,美国要求重启,当关闭active node后,发现instance无法在passive node起动,而当主节点起动后,SQL实例依无法起动.更可悲的是,由于存储工程师的误操作,存储(Netapp)盘上的数据文件全部丢失.
当时的情况是:几个IT老板站在后面,生产经理不停询问,压力最大的是IT老大,但好在他不会给我们压力.然后就是跟老板讨论各种恢复方案,数据损失量,恢复时间...

2.分享下数据库恢复的过程,是如何进行故障消除的?有哪些经验总结?
    恢复过程是这样:幸运的是我们在存储有定期做snapshot,而事发前恰好有一个Snapshot(有十分钟的数据损失),通过恢复snapshot主要是data盘和log盘,并将这些文件copy到一台测试服务器上,attach后发现没有任何问题(很担心数据不能Attach...)...之后又经过一系列的配置(包括大量的replication,Linked server,logshipping to US...甚至切换了字符集...).总算使系统在down机12小时后可用.后续就是开ticket给microsoft查找原因(最后给出的原因是driver问题),及重建cluster及数据库迁回.

经验总结:
    在此次异常之后,我们开始建立各种DR方案及测试.包括各种层级的DR,比如OS down,cluster down,存储down...
而且大量的使用虚拟化,目前已经将两个最主要的instance从sql cluster迁移至VM,其中一个数据库已经接近1T(进行表的page压缩后,压缩比例接近1/5),在VM中运行得很顺畅,就是借助VM 的HA代替cluster,因为以我们的经验,cluster出异常的机率似乎更大(至少在我们的环境里,带来的益处还没有异常多...).
    目前仍在进行site之间的DR方案实施(netapp snapmirroring+snapvault+snapmanger for sql server...),当然很有很多需要解决的东西...
    总之吧,有准备比没准备好,有文档比没文档好,有演练比没演练好.

使用道具 举报

回复
认证徽章
论坛徽章:
302
季节之章:春
日期:2012-06-20 17:38:14季节之章:夏
日期:2012-06-12 10:49:25季节之章:秋
日期:2012-06-12 10:49:25季节之章:冬
日期:2012-06-12 10:49:25马上有钱
日期:2014-06-16 15:59:19蓝色妖姬
日期:2012-05-19 11:02:10蓝色妖姬
日期:2012-06-12 11:21:48蓝色妖姬
日期:2012-06-12 11:21:48玉兔
日期:2012-07-27 11:00:12玉兔
日期:2012-08-05 10:00:09
发表于 2014-6-25 17:14 | 显示全部楼层
本帖最后由 听海★蓝心梦 于 2014-6-26 09:25 编辑

数据文件ORA-600 [4000]问题:

解决办法1:

1、查看Oracle告警日志
Sun May 10 14:06:34 2009
SMON: enabling cache recovery
Sun May 10 14:06:34 2009
Errors in file /u01/app/oracle/admin/orcl/udump/orcl2_ora_21637.trc:
ORA-00600: internal error code, arguments: [4000], [6], [], [], [], [], [], []

2、按照告警日志内容,检索TRC文件,检索下面类似的内容
Block header dump: 0x0040006e
Object id on Block? Y
seg/obj: 0x24 csc: 0x00.78f0a395 itc: 1 flg: - typ: 2 - INDEX
fsl: 0 fnx: 0x0 ver: 0x01
Itl Xid Uba Flag Lck Scn/Fsc
0x01 0x0006.012.00001d26 0x00800cd9.132a.02 C--- 0 scn 0x0000.78f0a395

3、将相关红色的数据转换成10进制,并且除以1024*1024*1024
0x00.78f0a395 =>0x0078f0a395 => 2029036437 = 2029036437 /1024/1024/1024 = 1.8 =2

4、设置隐含参数
        1. 修改此参数文件 _MINIMUM_GIGA_SCN = 2
        2. startup mount;
        3. recover database until cancel;(或者recover database)
        4.alter database open resetlogs;
        (必要时设置_ALLOW_RESETLOGS_CORRUPTION=TRUE 这个参数)
        (5) 转换成其它的ORA-600错误
        可能会转换为 ORA-600[4137] 或者 ORA-600[4194] 的错误。

使用道具 举报

回复
认证徽章
论坛徽章:
302
季节之章:春
日期:2012-06-20 17:38:14季节之章:夏
日期:2012-06-12 10:49:25季节之章:秋
日期:2012-06-12 10:49:25季节之章:冬
日期:2012-06-12 10:49:25马上有钱
日期:2014-06-16 15:59:19蓝色妖姬
日期:2012-05-19 11:02:10蓝色妖姬
日期:2012-06-12 11:21:48蓝色妖姬
日期:2012-06-12 11:21:48玉兔
日期:2012-07-27 11:00:12玉兔
日期:2012-08-05 10:00:09
发表于 2014-6-25 17:19 | 显示全部楼层
REDO文件问题,强制启动报ORA-00600 [2662]:

1、current日志文件坏了,通过设置_ALLOW_RESETLOGS_CORRUPTION=true来强制启动数据库,这个时候会报ORA-00600 [2662],这样虽然数据库启动,但是数据库内部可能有不一致现象,可以通过调整SCN来启动。
alter session set events 'IMMEDIATE trace name ADJUST_SCN level 1';

alter session set events ‘10015 trace name ADJUST_SCN level 1047′;

2、如果继续报2662错误,继续使用下面的办法
job_queue_processes=0;
“_allow_resetlogs_corruption”=true
“_allow_read_only_corruption”=true
“_allow_terminal_recovery_corruption”=true

3、如果还继续错误,那采用_minimum_giga_scn 这个参数
alter session set events ‘10015 trace name adjust_scn level 1

REDO文件问题,强制启动报ORA-00600 [kcfnew_2]:

强制启动,然后调整SCN
设置_allow_resetlogs_corruption=true
然后数据库启动到mount状态下,执行控制文件的恢复
recover database using backup controlfile until cancel;
提示时输入cancel
或者recover database

alter database open resetlogs;
alter session set events '10015 trace name adjust_scn level 1';
shutdown immediate
alter database open
如果报其他ORA-600错误,依次处理。

REDO log问题导致ORA-600[kcrfr_update_nab_2]:
1、通过设置_ALLOW_RESETLOGS_CORRUPTION=true强制启动
2、不能启动,重建控制文件,再次强制启动
3、再不能启动,通过alter system clear log group x的办法,把redo log清空,防止对其他的影响,然后再强制启动。
4、一般能正常启动了,或者报ORA-600[4000]的错误。

使用道具 举报

回复
认证徽章
论坛徽章:
25
奥运会纪念徽章:射击
日期:2013-01-28 09:12:182014年新春福章
日期:2014-02-18 16:41:11马上有车
日期:2014-02-18 16:41:11马上有车
日期:2014-03-20 16:13:24马上有房
日期:2014-03-20 16:14:11马上有钱
日期:2014-03-20 16:14:11马上有对象
日期:2014-03-20 16:14:11马上加薪
日期:2014-03-20 16:14:11喜羊羊
日期:2015-04-09 18:46:34秀才
日期:2016-03-24 09:20:52
发表于 2014-6-26 21:00 | 显示全部楼层

1.您工作中遇到过哪些数据库的灾难案例?能否为大家回放下数据库陷入灾难故障的情景?
一次因为存储的挂载问题导致数据库的归档日志和备份全部丢失。找存储厂商找回数据

2.分享下数据库恢复的过程,是如何进行故障消除的?有哪些经验总结?
平时一定要做好备份的工作才能在出现问题的时候有的放矢。
非常规的恢复方法有时候并不一定能够做到数据的令丢失

使用道具 举报

回复
论坛徽章:
151
授权会员
日期:2005-11-16 17:49:25世界杯纪念徽章
日期:2006-07-20 13:19:20ITPUB新首页上线纪念徽章
日期:2007-10-20 08:38:44生肖徽章2007版:龙
日期:2008-11-25 11:15:28生肖徽章2007版:羊
日期:2009-06-02 18:18:38生肖徽章2007版:鼠
日期:2009-06-17 22:01:192010新春纪念徽章
日期:2010-03-01 11:04:582010年世界杯参赛球队:科特迪瓦
日期:2010-06-11 19:25:562010广州亚运会纪念徽章:网球
日期:2010-12-31 16:37:522010广州亚运会纪念徽章:藤球
日期:2011-01-02 15:47:20
发表于 2014-6-26 22:18 | 显示全部楼层
1.您工作中遇到过哪些数据库的灾难案例?能否为大家回放下数据库陷入灾难故障的情景?
公司支持的技术论坛垮了,数据库不能运行,幸亏每天都有备份,重新安装并导入脚本恢复了数据。
2.分享下数据库恢复的过程,是如何进行故障消除的?有哪些经验总结?
早就在试验环境下测试过数据过程,直接执行预先编制好的恢复数据库的脚本文件,根据实际情况调整几个参数就好。

经验:
再小的数据库应用也要及时备份,并做好恢复预案,提前演练和测试。
风险控制手段一定要有,哪怕是多费点时间。

使用道具 举报

回复
论坛徽章:
0
发表于 2014-6-27 08:51 | 显示全部楼层
本帖最后由 yyyzzz0yz 于 2014-6-27 15:50 编辑

经历了很有几次了,我们单位要求比较严格,容灾做的还可以,虽然每次故障都带来了很大的麻烦,但都顺利解决了,没有引发灾难。
说最近一次,几年前的事情了,某应用使用IBM p系列服务器,应用A机,数据库B机,HA双机互备(例如A机故障,则应用挂载到B机上运行),
应用、数据库软件、数据文件都是外置存储上。
几年前,那天B机电源(双电源)故障了,一个电源故障了后,系统报警,还没来得及处理,另外一个电源也挂了,B机正式宕机。
数据库宕了,应用就没戏了。
HA没生效,数据库没自动切。立即人工切,结果也没切过去,VG死活挂不过去。我们对RTO是有要求,不能试很久。
于是,经过短暂的决策,启用PLAN B,切异地灾备。
交待一下,我们在异地有一套容灾设备,采用CDP同步存储(异步复制,有几分钟的时差),但一般只做站点级整体切换,不会单独启用单台服务器。
单台服务器切换以前没演练过,只能试试。
幸运的是,切换过程还算顺利,把CDP存储挂起来,把数据库顺利启了,再重启应用。
业务恢复了,但前面说了,CDP异步复制有RPO,异地的数据库有一部分数据是没有的。
后来,等本地中心数据库服务器修复了,由于异地数据库又运行了很久,所有两边数据不一致了,两边各有一份数据。
所以,要对比着异地的数据库把关键库表合并到本地库来,然后在检查勾兑及等等补救操作。。。此处省略500字。
这个过程剧痛苦了,完全人工,而且有流水号重复的问题,搞了几个通宵,哎,惨不忍睹。

前段时间还搞了一出,某国产中间件不贼,重启后有问题,丢包,数据丢一半接接到一半,当时没发现。于是,又是几个通宵。太苦逼。

经验:
1、平时的功夫不能省,要多设想各种场景,要多应急预演,多熟悉系统和各种技术
2、出问题了,谨慎谨慎再谨慎,冷静冷静再冷静,结合日常训练,恢复系统一般都会带来些后续麻烦,在把减少损失的情况下尽快把系统启起来。
3、应急不是单纯技术问题,不是有个牛人就完了,不能靠”运行+英雄”,
应急需要有组织、有体系、有预案、有流程,这个是企业管理人员和系统管理人员都要考虑的
4、领导和其他同事,千万不能认为IT运维、DBA平时没事,太闲了,找点活给他们干,或者少发点钱。
他们的工作就是保证系统安全运行,没问题就是功劳,只要太平闲着是应该,不闲说明有问题了。他们平时都在为关键
时刻做准备,养兵千日用兵一时。


使用道具 举报

回复
认证徽章
论坛徽章:
40
2014年新春福章
日期:2014-02-18 16:42:02秀才
日期:2015-12-18 09:28:57秀才
日期:2015-12-14 14:51:162015年中国系统架构师大会纪念徽章
日期:2015-09-16 12:54:392014系统架构师大会纪念章
日期:2015-09-16 12:54:392013系统架构师大会纪念章
日期:2015-09-16 12:54:392012系统架构师大会纪念章
日期:2015-09-16 12:54:392011系统架构师大会纪念章
日期:2015-09-16 12:54:392010系统架构师大会纪念
日期:2015-09-16 12:54:39秀才
日期:2015-12-25 15:31:10
发表于 2014-6-30 14:43 | 显示全部楼层
您工作中遇到过哪些数据库的灾难案例?能否为大家回放下数据库陷入灾难故障的情景?
我10年前第一次遇到的灾难是oracle8i断电以后控制文件,3个控制文件坏了2个,结果数据库就是起不来了。这是遇到的第一个,影响很深刻。最后关闭数据库以后将,坏的文件删除,用了好的文件做了替代。这样数据库就起来了。这么多年遇到的问题很多,因为这是第一个崩溃性故障,所以记得最清楚。

使用道具 举报

回复
认证徽章
论坛徽章:
135
玉石琵琶
日期:2014-07-02 10:11:04九尾狐狸
日期:2014-07-02 10:11:04紫蜘蛛
日期:2014-07-02 10:11:04蓝色妖姬
日期:2014-07-02 10:11:04蓝色妖姬
日期:2014-08-28 15:17:25马上加薪
日期:2014-08-07 12:47:01马上加薪
日期:2014-07-23 11:55:37马上加薪
日期:2014-07-21 16:24:17马上加薪
日期:2014-07-17 17:01:52马上加薪
日期:2014-07-17 16:15:19
发表于 2014-6-23 11:53 | 显示全部楼层
支持~

使用道具 举报

回复
认证徽章
论坛徽章:
51
奥运纪念徽章
日期:2013-05-20 09:57:09问答徽章
日期:2014-03-04 13:57:52技术图书徽章
日期:2014-09-28 09:06:52季节之章:冬
日期:2015-07-24 18:41:03巨蟹座
日期:2015-08-11 16:12:49双子座
日期:2015-08-21 14:09:00狮子座
日期:2015-08-28 15:27:44射手座
日期:2015-08-28 15:44:09双子座
日期:2015-08-28 16:28:20
发表于 2014-6-23 11:53 | 显示全部楼层
支持!!!!

使用道具 举报

回复
求职 : 数据库管理员
招聘 : Java研发
认证徽章
论坛徽章:
6348
ITPUB9周年纪念徽章
日期:2014-05-02 10:36:402011新春纪念徽章
日期:2014-12-29 12:11:142010广州亚运会纪念徽章:卡巴迪
日期:2014-08-06 08:44:252012新春纪念徽章
日期:2014-12-29 12:11:142013年新春福章
日期:2014-12-29 12:11:14马上有车
日期:2014-12-29 12:11:14马上有房
日期:2014-12-29 12:11:14马上有钱
日期:2014-12-29 12:11:14马上有对象
日期:2014-12-29 12:11:14马上加薪
日期:2014-12-29 12:11:14
发表于 2014-6-23 12:21 | 显示全部楼层
先支持一下~

使用道具 举报

回复
认证徽章
论坛徽章:
111
ITPUB9周年纪念徽章
日期:2010-10-08 09:34:03马上有房
日期:2014-02-18 16:42:02马上有车
日期:2014-03-20 10:09:22马上有钱
日期:2014-03-20 15:53:11马上有车
日期:2014-03-20 16:13:24马上有房
日期:2014-03-20 16:14:11马上有钱
日期:2014-03-20 16:14:11马上有对象
日期:2014-03-20 16:14:11马上加薪
日期:2014-03-20 16:14:11技术图书徽章
日期:2014-03-27 09:30:56
发表于 2014-6-23 12:48 | 显示全部楼层
占座更新

使用道具 举报

回复
论坛徽章:
66
林肯
日期:2013-09-12 15:57:33马自达
日期:2013-10-11 13:52:31路虎
日期:2014-01-26 14:35:49三菱
日期:2013-11-25 11:21:19现代
日期:2013-08-29 14:39:50雪佛兰
日期:2013-09-12 15:55:00一汽
日期:2013-11-28 14:15:05技术图书徽章
日期:2013-12-11 10:10:51技术图书徽章
日期:2013-12-11 10:11:35技术图书徽章
日期:2014-01-14 10:54:13
发表于 2014-6-23 13:06 | 显示全部楼层
占位更新

使用道具 举报

回复
论坛徽章:
401
紫蛋头
日期:2012-05-21 10:19:41迷宫蛋
日期:2012-06-06 16:02:49奥运会纪念徽章:足球
日期:2012-06-29 15:30:06奥运会纪念徽章:排球
日期:2012-07-10 21:24:24鲜花蛋
日期:2012-07-16 15:24:59奥运会纪念徽章:拳击
日期:2012-08-07 10:54:50奥运会纪念徽章:羽毛球
日期:2012-08-21 15:55:33奥运会纪念徽章:蹦床
日期:2012-08-21 21:09:51奥运会纪念徽章:篮球
日期:2012-08-24 10:29:11奥运会纪念徽章:体操
日期:2012-09-07 16:40:00
发表于 2014-6-23 13:41 | 显示全部楼层
备份、冗余

使用道具 举报

回复
认证徽章
论坛徽章:
86
秀才
日期:2015-09-21 09:46:16目光如炬
日期:2014-07-28 06:00:03马上有钱
日期:2014-06-16 15:55:42马上有房
日期:2014-06-16 15:55:422014年世界杯参赛球队: 伊朗
日期:2014-06-13 11:29:242014年世界杯参赛球队:巴西
日期:2014-06-06 14:36:14马上有钱
日期:2014-04-04 13:51:21马上加薪
日期:2014-04-04 13:35:40马上有房
日期:2014-02-18 16:42:022014年新春福章
日期:2014-02-18 16:42:02
发表于 2014-6-23 13:55 | 显示全部楼层
支持啊

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 
京ICP备09055130号-4  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表