|
话题讨论:
1:你认为此次事件的根本原因是什么?
首先:
一个大型的系统永远没有出现故障的概率是0,大家都知道系统可用性是99.99999999999%,不会是100%,因此只是什么时候出现及出现的具体原因是什么。
由于系统复杂庞大,因此升级能否做到充分就是一个挑战了。
想象下,如果一次的故障是由A+B的升级累加才会出现,并且在特定情形下出现,那么,对于无法完全仿真的平台而言,迟早出现故障成为必然。
其次:
云盾升级一定和虚机的相关操作有关,而虚机一般都有不定期的快照,或许部分设备因为升级步骤问题导致快照被强制进行恢复,从而导致用户的文件发生丢失。
2:此次阿里云文件与进程的误删事件,回滚操作后是否能解决根本的问题?
不可能完全解决问题,恢复到何时点的快照的问题,对于部分客户如果有重要应用或数据在故障期间产生是不可能恢复的。
当然,我想一般重要的东西都要有备份,呵呵。所有也不会有什么大问题就是了。
3:阿里云是一个大型的云平台,相应的技术支持应该有充足的应对问题的能力,为何此次修复用了长达6个小时,依旧没有结果?此次故障是否另有原因?
技术嘛,传承通常有缺失,人在多,不能抓住核心也是白搭。
准确定位问题要靠有经验的专家,特别核心的那种,但是运维的问题在于,不出事情不知道重要人才的关键,
重要的人,平时就该让他“闲”着,脱离琐事,专攻技术;
哈哈,我猜也许核心人物被挖角了!:)。
4:如果你是此事件对应的技术人员,你会如何应对此事件?
除了加强测试,做好升级前备份及应急预案,还能做些什么呢?!
5:一网友说自己在虚机中执行什么,就会被删掉什么。一个云平台级工具怎么能知道用户虚机执行什么且怎么能删掉虚机内数据呢?
应该是恢复了快照,因此在故障后及恢复前这段时间的所有操作备还原了。
6:这次大批量删除用户文件的时间是因为云盾升级触发BUG导致的,那么有没有办法避免此类事情发生呢?
加强测试,加强管理,同样的事情重复出现,那只能说是猪了!
|
|