【大话IT】网站服务器频宕机：营销手段or业务积累？

醉傾天下 · 发表于 2015-9-11 10:29

1. 爱奇艺的事故毫无疑问引起了微博上对该剧的讨论热潮以及强烈关注度，因此也让人捉摸不透：此次事故是耍噱头还是真宕机?对此你怎么看？
這個沒有任何參考依據，都有可能……

2. 如果是因为技术上的因素，那么你认为此次宕机是因为服务器超负荷运行，后面的请求无法得到及时的响应？又或者是因为硬件配置不够导致应用运行异常？或者你还有其他的看法？
可能也有服務器超負荷運行的原因。但硬件的不合理使用可能是主要原因

3. 对于如今网络发达的社会现状，这种事故的集中爆发，你认为是否与前期的系统架构有关？是否是这些网站平时对业务细节的不注意导致业务积累造成的严重后果？
一個優秀的系統架構真的很重要……

4. 你认为应该如何维护服务器从而降低宕机几率？比如提高高系统和应用的可用性？
建立預警機制。進行災難演練等等

5.众所周知HA系统是目前企业防止核心计算机系统因故障停机的最有效手段，那么你对HA了解多少？它是否真如我们所说那样有着重大作用？你是否认为HA也存在某些缺憾？
瞭解不多

stilllovekk · 发表于 2015-9-11 16:31

站位求秀才

bfmo · 发表于 2015-9-12 16:49

关注中

王江玉 · 发表于 2015-9-14 13:45

我就来看看你们吹牛逼

daizyflower · 发表于 2015-9-14 14:06

相逢似首歌 · 发表于 2015-9-14 15:54

估计爱奇艺宕机有炒作嫌疑，就像明星绯闻一样，吸引眼球的做法。

pure_lotus · 发表于 2015-9-18 17:25

1. 爱奇艺的事故毫无疑问引起了微博上对该剧的讨论热潮以及强烈关注度，因此也让人捉摸不透：此次事故是耍噱头还是真宕机?对此你怎么看？
估计是真宕机，耍噱头明显得不偿失嘛。

2. 如果是因为技术上的因素，那么你认为此次宕机是因为服务器超负荷运行，后面的请求无法得到及时的响应？又或者是因为硬件配置不够导致应用运行异常？或者你还有其他的看法？
问题是多方面的，软硬件本身在一定程度都可以互补，架构好完全可以横向扩展，通过负载均衡技术多投入节点资源，爱奇艺应该不缺硬件上的钱，极可能是软件架构的问题，不支持横向扩展。

3. 对于如今网络发达的社会现状，这种事故的集中爆发，你认为是否与前期的系统架构有关？是否是这些网站平时对业务细节的不注意导致业务积累造成的严重后果？
是的，早期用户没这么多，老板总是想先花少一点钱先上线，不会先搞出大而全的东西出来；但业务发展太快，一下子还没有解决方案或者有方案但还没来得及实施就出了问题。

4. 你认为应该如何维护服务器从而降低宕机几率？比如提高高系统和应用的可用性？
首先要假定服务器一定会出问题，先做好宕机后处置方案；
其实，要做好服务器的监控和预警，否则防止宕机完全是在赌命；
最后才是优化架构，优化性能，提高系统和应用可用性的实质性操作，包括计划性改进和例行维护两方面的事务。

5.众所周知HA系统是目前企业防止核心计算机系统因故障停机的最有效手段，那么你对HA了解多少？它是否真如我们所说那样有着重大作用？你是否认为HA也存在某些缺憾？
高可用系统当然是企业防止核心计算机系统因故障停机的最有效手段之一，但HA也解决不了应用安全方面问题，对常见的单点故障最有效，也能解决用户负载稳定增加的问题，对于无法预期的临时性负载增加，比如DDOS攻击，其实也没太多的办法。

hiyachen · 发表于 2015-9-19 19:36

1. 爱奇艺的事故毫无疑问引起了微博上对该剧的讨论热潮以及强烈关注度，因此也让人捉摸不透：此次事故是耍噱头还是真宕机?对此你怎么看？
不是一个技术型公司的
2. 如果是因为技术上的因素，那么你认为此次宕机是因为服务器超负荷运行，后面的请求无法得到及时的响应？又或者是因为硬件配置不够导致应用运行异常？或者你还有其他的看法？
3. 对于如今网络发达的社会现状，这种事故的集中爆发，你认为是否与前期的系统架构有关？是否是这些网站平时对业务细节的不注意导致业务积累造成的严重后果？
4. 你认为应该如何维护服务器从而降低宕机几率？比如提高高系统和应用的可用性？
5.众所周知HA系统是目前企业防止核心计算机系统因故障停机的最有效手段，那么你对HA了解多少？它是否真如我们所说那样有着重大作用？你是否认为HA也存在某些缺憾？

qingduo04 · 发表于 2015-9-25 22:44

路过支持......................

shenlanyouyu · 发表于 2015-10-7 12:33

本帖最后由 shenlanyouyu 于 2015-10-7 12:40 编辑

1. 爱奇艺的事故毫无疑问引起了微博上对该剧的讨论热潮以及强烈关注度，因此也让人捉摸不透：此次事故是耍噱头还是真宕机?对此你怎么看？
我个人认为不是耍耍噱头，是真宕机。虽然爱奇艺在线视频播放系统具有一定的负载能力，由于百度、腾讯、优酷等视频网站的分流，在平常爱奇艺的用户量应该不大。但是在首家独播盗墓笔记，用户量激增，其次观看还伴随着支付交易行为，所以导致整个网络的负担很大，宕机是完全可能的。往往很多问题不是技术上的问题，是业务架构的问题。

2. 如果是因为技术上的因素，那么你认为此次宕机是因为服务器超负荷运行，后面的请求无法得到及时的响应？又或者是因为硬件配置不够导致应用运行异常？或者你还有其他的看法？
在平常爱奇艺的用户量应该不大。但是在首家独播盗墓笔记，用户量激增，其次观看还伴随着支付交易行为，所以导致整个网络的负担很大，宕机是完全可能的。爱奇艺提前增加了3倍服务器资源，但最终还是没能够应付过来。。

3. 对于如今网络发达的社会现状，这种事故的集中爆发，你认为是否与前期的系统架构有关？是否是这些网站平时对业务细节的不注意导致业务积累造成的严重后果？
很多时候一些问题其实不在于技术架构，而在于其业务架构。通过调整业务架构，例如引入排队机制，业务上分流，能够控制并发访问量。小米手机抢购，也是使用排队机制。12306也使用了分时段售票来控制并发访问量。
4. 你认为应该如何维护服务器从而降低宕机几率？比如提高高系统和应用的可用性？
近期重要的宕机事件突出了将应用运转在单一数据中心且没有在其他数据中心进行故障恢复的风险。跨数据中心的冗余来减缓单一数据中心宕机的影响。缺少冗余对于混合云来说可能是严重的安全风险，尤其是如果数据冗余备份没有跨数据中心分布。在数据中心之间转移虚拟机实例比在大型数据集之间容易的多。使用一个厂商的多个数据中心实现冗余，或者多个公共云厂商或者是混合云。自动化运维是解决当前服务器系统主机数量急速增长，维护难度日益增加的最佳方案。无论是采用Python语言实现自动化运维，采用监控系统监测服务器，它们在运维工作中发挥着十分重要的作用。不仅能大大提升运维工作的效率，减少工作失误，使运维人员能够及时发现系统所出现的故障和问题，而且可以通过对监控数据的分析，找出系统性能瓶颈，为系统架构的重构提供数据支撑。常用的系统监控系统有Zabbix和Cacti。

5.众所周知HA系统是目前企业防止核心计算机系统因故障停机的最有效手段，那么你对HA了解多少？它是否真如我们所说那样有着重大作用？你是否认为HA也存在某些缺憾？