|
本帖最后由 shenlanyouyu 于 2015-10-7 12:40 编辑
1. 爱奇艺的事故毫无疑问引起了微博上对该剧的讨论热潮以及强烈关注度,因此也让人捉摸不透:此次事故是耍噱头还是真宕机?对此你怎么看?
我个人认为不是耍耍噱头,是真宕机。虽然爱奇艺在线视频播放系统具有一定的负载能力,由于百度、腾讯、优酷等视频网站的分流,在平常爱奇艺的用户量应该不大。但是在首家独播盗墓笔记,用户量激增,其次观看还伴随着支付交易行为,所以导致整个网络的负担很大,宕机是完全可能的。往往很多问题不是技术上的问题,是业务架构的问题。
2. 如果是因为技术上的因素,那么你认为此次宕机是因为服务器超负荷运行,后面的请求无法得到及时的响应?又或者是因为硬件配置不够导致应用运行异常?或者你还有其他的看法?
在平常爱奇艺的用户量应该不大。但是在首家独播盗墓笔记,用户量激增,其次观看还伴随着支付交易行为,所以导致整个网络的负担很大,宕机是完全可能的。爱奇艺提前增加了3倍服务器资源,但最终还是没能够应付过来。。
3. 对于如今网络发达的社会现状,这种事故的集中爆发,你认为是否与前期的系统架构有关?是否是这些网站平时对业务细节的不注意导致业务积累造成的严重后果?
很多时候一些问题其实不在于技术架构,而在于其业务架构。通过调整业务架构,例如引入排队机制,业务上分流,能够控制并发访问量。 小米手机抢购,也是使用排队机制。12306也使用了分时段售票来控制并发访问量。
4. 你认为应该如何维护服务器从而降低宕机几率?比如提高高系统和应用的可用性?
近期重要的宕机事件突出了将应用运转在单一数据中心且没有在其他数据中心进行故障恢复的风险。跨数据中心的冗余来减缓单一数据中心宕机的影响。缺少冗余对于混合云来说可能是严重的安全风险,尤其是如果数据冗余备份没有跨数据中心分布。在数据中心之间转移虚拟机实例比在大型数据集之间容易的多。使用一个厂商的多个数据中心实现冗余,或者多个公共云厂商或者是混合云。自动化运维是解决当前服务器系统主机数量急速增长,维护难度日益增加的最佳方案。无论是采用Python语言实现自动化运维,采用监控系统监测服务器,它们在运维工作中发挥着十分重要的作用。不仅能大大提升运维工作的效率,减少工作失误,使运维人员能够及时发现系统所出现的故障和问题,而且可以通过对监控数据的分析,找出系统性能瓶颈,为系统架构的重构提供数据支撑。常用的系统监控系统有Zabbix和Cacti。
5.众所周知HA系统是目前企业防止核心计算机系统因故障停机的最有效手段,那么你对HA了解多少?它是否真如我们所说那样有着重大作用?你是否认为HA也存在某些缺憾?
|
|