【大话IT】阿里云误删文件是哪一环节出了错？

hh7yx · 发表于 2015-9-9 16:07

支持。。。

xkf01 · 发表于 2015-9-10 08:07

2：此次阿里云文件与进程的误删事件，回滚操作后是否能解决根本的问题？
不能，回滚只是把大部分的文件恢复……。但是，真正造成问题的原因如果不了解清楚，碰上下一次升级，一个不注意还是会中招啊。

小逗B · 发表于 2015-9-10 15:43

wmxcn2000 发表于 2015-9-2 12:20
应该是一个误操作，但是不能对外说，不然显得太不严谨了。

大概相当于在数据库中执行了一个 delete 语句 ...

你很机智啊，但你知道的太多了

小逗B · 发表于 2015-9-10 16:04

1：你认为此次事件的根本原因是什么？
员工水平，不单单是技术水平

2：此次阿里云文件与进程的误删事件，回滚操作后是否能解决根本的问题？
回滚属于应急解决方案

3：阿里云是一个大型的云平台，相应的技术支持应该有充足的应对问题的能力，为何此次修复用了长达6个小时，依旧没有结果？此次故障是否另有原因？
鬼晓得，平时过于安逸，应急能力不行

4：如果你是此事件对应的技术人员，你会如何应对此事件？
发生了，就只能恢复，得查真实原因

5：一网友说自己在虚机中执行什么，就会被删掉什么。一个云平台级工具怎么能知道用户虚机执行什么且怎么能删掉虚机内数据呢？
系统级。

6：这次大批量删除用户文件的时间是因为云盾升级触发BUG导致的，那么有没有办法避免此类事情发生呢？
测试。

unusa · 发表于 2015-9-10 18:53

1：你认为此次事件的根本原因是什么？
  感觉应该是一个他们未知的，或者是在开发环境和测试环境都没有发现的潜在BUG，但是，在生产上被触发了
2：此次阿里云文件与进程的误删事件，回滚操作后是否能解决根本的问题？
不能，关键是找出来为什么删除了。是测试原因还是管理原因，其它的有没有。
3：阿里云是一个大型的云平台，相应的技术支持应该有充足的应对问题的能力，为何此次修复用了长达6个小时，依旧没有结果？此次故障是否另有原因？
  感觉更低沉深层次BUG，或者是在测试环境不好重现。或者是无法修复
4：如果你是此事件对应的技术人员，你会如何应对此事件？
   首先保存事故现场。确认这个BUG是不是和这次升级有关，然后，在测试环境看看是否能重现。如果不能重现，从事故现场数据找出一些线索。另一方面，看看能不能回滚回去，尽快减少对用户影响。
5：一网友说自己在虚机中执行什么，就会被删掉什么。一个云平台级工具怎么能知道用户虚机执行什么且怎么能删掉虚机内数据呢？
不了解，无法回复。
6：这次大批量删除用户文件的时间是因为云盾升级触发BUG导致的，那么有没有办法避免此类事情发生呢？
首先是多测试，第二是要做好升级失败回滚的准备。第三，上线后马上进行检查，确认没有发现问题。最后，需要点运气吧。

lbj06 · 发表于 2015-9-11 08:42

雇了零时工。

harkjim · 发表于 2015-9-11 11:20

话题讨论：
1：你认为此次事件的根本原因是什么？
   首先：
   一个大型的系统永远没有出现故障的概率是0，大家都知道系统可用性是99.99999999999%，不会是100%，因此只是什么时候出现及出现的具体原因是什么。
   由于系统复杂庞大，因此升级能否做到充分就是一个挑战了。
   想象下，如果一次的故障是由A+B的升级累加才会出现，并且在特定情形下出现，那么，对于无法完全仿真的平台而言，迟早出现故障成为必然。
   其次：
   云盾升级一定和虚机的相关操作有关，而虚机一般都有不定期的快照，或许部分设备因为升级步骤问题导致快照被强制进行恢复，从而导致用户的文件发生丢失。
2：此次阿里云文件与进程的误删事件，回滚操作后是否能解决根本的问题？
不可能完全解决问题，恢复到何时点的快照的问题，对于部分客户如果有重要应用或数据在故障期间产生是不可能恢复的。
当然，我想一般重要的东西都要有备份，呵呵。所有也不会有什么大问题就是了。
3：阿里云是一个大型的云平台，相应的技术支持应该有充足的应对问题的能力，为何此次修复用了长达6个小时，依旧没有结果？此次故障是否另有原因？
   技术嘛，传承通常有缺失，人在多，不能抓住核心也是白搭。
   准确定位问题要靠有经验的专家，特别核心的那种，但是运维的问题在于，不出事情不知道重要人才的关键，
   重要的人，平时就该让他“闲”着，脱离琐事，专攻技术；
   哈哈，我猜也许核心人物被挖角了！：）。
4：如果你是此事件对应的技术人员，你会如何应对此事件？
   除了加强测试，做好升级前备份及应急预案，还能做些什么呢？！
5：一网友说自己在虚机中执行什么，就会被删掉什么。一个云平台级工具怎么能知道用户虚机执行什么且怎么能删掉虚机内数据呢？
应该是恢复了快照，因此在故障后及恢复前这段时间的所有操作备还原了。
6：这次大批量删除用户文件的时间是因为云盾升级触发BUG导致的，那么有没有办法避免此类事情发生呢？
   加强测试，加强管理，同样的事情重复出现，那只能说是猪了！

stilllovekk · 发表于 2015-9-11 16:31

站位求秀才

bfmo · 发表于 2015-9-12 16:36

人为失误的几率大些

王江玉 · 发表于 2015-9-14 13:46

我就来看看你们吹牛逼

【大话IT】阿里云误删文件是哪一环节出了错？

浏览过的版块