|
1. 爱奇艺的事故毫无疑问引起了微博上对该剧的讨论热潮以及强烈关注度,因此也让人捉摸不透:此次事故是耍噱头还是真宕机?对此你怎么看?
耍噱头:真宕机,个人觉得55开吧
2. 如果是因为技术上的因素,那么你认为此次宕机是因为服务器超负荷运行,后面的请求无法得到及时的响应?又或者是因为硬件配置不够导致应用运行异常?或者你还有其他的看法?
各种情况都有可能,在业务平稳运行的时候,很容易因为松懈而忽略了高峰期带来的瞬间压力,高峰期的压力如果不能很好的处理,就很容易堆积请求/阻塞连接/等等,分分钟拖垮服务器
3. 对于如今网络发达的社会现状,这种事故的集中爆发,你认为是否与前期的系统架构有关?是否是这些网站平时对业务细节的不注意导致业务积累造成的严重后果?
架构级别的调整,影响和牵扯的人员都很广吧,为了KPI/绩效之类的东西,决策层不见得会在没宕过机的时候,投入资源去做,“不见棺材不掉泪”
架构没问题的话,那就是业务或者技术都有可能存在不足的地方咯,具体业务具体分析呗
4. 你认为应该如何维护服务器从而降低宕机几率?比如提高高系统和应用的可用性?
细致的监控;尤其是负载相关的数据,多去观察这些数据和时间的走向,是不是有什么异常的增长 or 其他,做好多活和HA
5.众所周知HA系统是目前企业防止核心计算机系统因故障停机的最有效手段,那么你对HA了解多少?它是否真如我们所说那样有着重大作用?你是否认为HA也存在某些缺憾?
少量的了解吧,HA的作用很“重大”,尤其是出问题的时候.....基于集群的HA,所有节点都是平等的,挂一个or几个的影响相对比较小;如果HA里面的节点有类似于主-从这种身份的话,主节点挂了,选举某个从节点为新的主节点的时间开销,在这种用秒来计算的互联网行业,是个大问题吧(个人看法)..... |
|