|
关于宕机原因很多,遇到过的和上新闻的事件也特别多,自己也遇到过不少宕机。
从最开始服务器中震荡波病毒自动关机,
到一音乐网站,由于系统架构不能兼容快速增长的业务,导致无法提供服务宕机一周,直接导致业务发展不起来。
然后大家熟悉的腾讯QQ部分号码不能登陆的宕机事件。
接着到各种DDos攻击事件和网络瘫痪,太阳活动周期影响等等。
最后甚至看到 前几天人为故意宕机事件。
主要的原因:
可以分为内部原因和外部原因,外部和非人力所能抗拒的原因之外(如地震,太阳活动周期,政策,黑客行为,网络升级改造,机房等等)
内部原因主要为:设备故障,操作系统,架构问题,程序BUG,数据问题,人为因素,第三方软件(包括病毒)等等。。。
目前市场现状:
很多内部部门根部就采用传统的技术解决方案,基本不采用raid措施和容灾策略。遇到宕机事件解决问题又简单而粗暴。
中小互联网企业技术力量和资金有限,只能基于常规的架构方案,以业务为主。对于高性能和大并发问题通常吃不消而宕机。
众多外包项目基本上都很少考虑过或设计者基本上不会考虑宕机问题,对于需要长期稳定运行的系统,基本上考虑不全。众多企业都是采用人工维护的方式来解决宕机问题。
关于企业数据防护的主要方面:
1.采购质量合格的硬件设备,做好Raid 采用合适的容灾策略
2.做好基础架构,建议采用IaaS架构或超融合架构,目的实现硬件和软件系统脱耦,硬件故障对系统平台冲击降低和硬件设备利用率最大化。
3.操作系统安全防护相关,我不多啰嗦了
4.采用合适的程序架构和合理的部署结构,例如主从数据库,读写分离技术,采用科学的数据设计和科学的编程,可以有效减少部署系统的不稳定性造成的宕机。
5.机房的管理,人员的管理
|
|