如何评价19年3月3日凌晨阿里云大规模宕机故障

人有摔跤的时候,机器有“断片”的时候。
不过这样的时候还是不要有的好,因为摔跤自己会腿疼,路也会疼;
机器“断片”不仅自己难受,别人也难受。

参考:
阿里云算是国内为数不多的中国人比较早的自主研发的云服务器技术,这几乎是除了百度的搜索引擎技术之外有一个国产的高质量的技术创新点,国内市场份额占据绝对的老大,虽然国内有实力做云技术的公司也有不少,但整算起来距离阿里的差距还是非常巨大。
这和当年马云赌博式的投入有关,当年可能大家都觉得只是吹吹牛皮而已后来还做出来了,在大家都不怎么看好的情况下,日积月累到今天的成绩,现在全球的云服务器排名第三,仅次于亚马逊和微软,非常了不起的成就。
发生大规模宕机的时候,正好公司的服务器也存在问题,结果在新闻上发现阿里的服务器出现问题了,后来查明公司服务器不是阿里云的问题,阿里云在平常的使用过程中还是非常稳定,还是很值得信赖,这次宕机据说是认为因素造成,只要涉及到软件相关的东西,因为软件开发过程中其实就是修改解决bug的过程,所以出问题也是正常的现象,像微软或者亚马逊这些公司也不能保证云服务不出一点问题,只不过现在阿里云在国内的影响力太大了,出一点问题都很容易被无限的放大,毕竟树大招风。
任何技术的成熟都是经过摸爬滚打出来的,现在国内的互联网公司做的最多的事情就是跑马圈地,通过收购或者入股的方式构建自己的护城河,这点上bat三家都有自己很深的生态链,绝大部分程序员其实就是拿过来国外开源的框架在这个基础上进行定制,真正自主研发的技术亮点不是很多,从整个全球行业来讲,国内互联网公司的护城河构建的比较牢靠,但在技术创新上还是少的可怜,像谷歌微软苹果这几家公司都有极其深远的技术产品,在基础领域差距还是全方位的。
所以像阿里云这种能在国际上排上号的国内产品不是特别多,也没有必要因为一次事件过分的渲染,从这件事情上看阿里云在管理上还是存在漏洞,相信有了这次教训之后后面的管理也会紧急跟上,毕竟这不是纯粹技术方面的东西。
出现大规模的宕机事件不仅仅出现在阿里云的平台上,在亚马逊以及微软,谷歌平台上都出现一些意外,意味着云技术的框架和技术还有待提升,所以很多人提出多云的概念,但这种概念意味着硬件和软件双管齐下的升级,技术成熟与否都需要得到验证,能够玩转云技术的公司全球范围内都能数的过来,基本上属于头等舱玩家的游戏,每次大规模的宕机事件都会意味着新的技术创新点的开始起航了,能不能跟上别家的节奏就看谁能在技术上有一个大的突破。
当然也不能排除几个巨头做在一起,合作共赢的方式,提供给广大消费者使用,这在未来也不是不可能的事情,未来云市场走向如何拭目以待。
希望能帮到你。

参考:
问题已经发生了,而且根据合同补偿也是免费给你加使用时长。
但是面对现在市场上的这些云服务一年来一次的故障,就算免费给你用,你能用的安心吗?
所以这次的故障给我们的提示是不管云服务提供商多么的牛逼,也不能把一个鸡蛋放在一个篮子里,最佳的措施就是同时使用多家平台的云服务,不能够同一时间所有的这些大平台全都宕机了吧,如果真的发生了,那就不是技术上的问题了??。
另外在一家平台上同时购买不同区域的云服务器,也能降低由单节点宕机带来的危害。
再就是自己注意备份咯
参考:
未雨绸缪。
阿里云精心耕耘数年,达到了目前的压倒性市场份额,也积累了丰富的技术经验,即便如此,仍然会出错。
有主观因素,代码中的BUG;
有客观因素,CPU或存储器的先天缺陷导致IO报错;
怎么办?
不能把鸡蛋放在一个篮子里面。
在部署云端应用的第一天开始,就要牢固树立一个思想:数据,一定会丢的!备份,备份,再备份。
部署在阿里云的第一天开始,就要考虑到一个问题,如果哪一天,阿里云崩溃了,业务如何拉起?
如果哪一天,阿里云数据丢失,你的数据和业务能恢复到什么程度?
如果回答不了这个问题,你就要承担这个风险和后果!有些东西,合同上那点补偿款,是无法弥补的!只有自己才能救自己!
参考:
哎,我的几台服务器3月2号日志全部丢失了。
阿里云的
参考:
都过去这么久了,还在不依不饶的挖苦,云平台哪个大厂能保证绝对安全?
亚马逊,谷歌,等每年都有,包括国内的哪家没出事故?
出了宕机事故,应该怎么第一时间修复,而不是第一时间或者用更多的时间来谴责,再者说科技都是在不断成长中,没有绝对的成熟。

参考:
看了好多抨击阿里云不可靠的论调,哪个公有云没有宕机过?
我自己用Azure多年虽然没有遇过宕机,但是因为Azure维护重启虚机的事件不在少数。
既然企业要上云,规划高可用及负载均衡就要考虑,同时能做多云备份或站点还原的总得考虑吧。
之前看好多例数据丢失的案例多为单机运行,很不幸如果这些用户的实例刚好在故障节点,那自然就会有数据丢失的风险。
个人浅见。


参考:
人有失足,马有失蹄,阿里有宕机。
作为个体,我们可以备份好我们自己的重要东西。
阿里经过此次事件也会有所进步的。
所以不需要揣测,做好自己的。
因为就算是别的服务器,也有这种问题。

参考:
上学的时候老师批评成绩差的学生是用吼的,批评成绩好的学生是哄的!阿里在中国人眼中一直是好形象,所以我不用看下面的评论都知道,那些评论是哄的
参考:
有问题是正常的,不出问题才有问题呢,电子设备哪有不出问题的?
关键的问题是这些问题是不是灾难性的,有没有自我修复的能力!关于业务如何安全的部署在云平台上,我之前写过一篇文章在上,有兴趣的朋友可以去看看,只要能够合理的部署,安全性是有保障的!