在过去的几年里,云计算的使用量在不断增加。但特别是今年,Covid-19给服务带来了非同寻常的考验。
虽然云服务提供商有义务对他们的基础设施负责,并确保各个方面的安全和安全,但有时这种情况并不完全发生。今年发生了几起大规模的事故,在某些情况下,是由于使用量激增。
最近,在12月14日,包括YouTube、Gmail、googleassistant和googledocs在内的多个Google云服务和网站在遭受大面积宕机影响后宕机约一个小时。谷歌承认Gmail存在的问题,影响了它的业务和个人服务,并表示这个问题是为“绝大多数”用户而解决的。
但随着这些问题的迅速解决,像这样的服务中断让我们开始质疑我们越来越依赖少数云计算巨头的服务。如果企业要继续使用它们,它们是否应该做好准备,作为技术的一个不幸的副产品,甚至开始计算业务中断的成本?
谷歌云的宕机让人记忆犹新,以下是2020年发生的另外三起重大事件。
AWS,11月26日
最近,AWS又一次大规模的互联网服务中断事件提醒了我们,互联网应用、服务和网站受大型科技公司的支配。
去年11月,亚马逊声称其23个地理位置的AWS地区(US-East-1)中的一个地区(US-East-1)受到了AWS的影响,包括Roku、Adobe、Glassdoor、Autodesk、1Password等多家公司,以及亚马逊自己的大量服务,包括其家庭安全摄像头公司Ring。
这家电子商务巨头的云部门表示,该问题影响了其Kinesis Data Streams API和其他相关服务,包括CloudWatch,DynamoDB,Lambda,托管区块链,Rekognition,SageMaker和Workspaces等。
戴尔技术公司Boomi的首席技术官Mike Kiersey表示:“采用与AWS一样广泛的架构,必须全面集成从数据中心到每个数字服务的各个要素。”
包括Apple,Slack和Netflix在内的AWS主要客户似乎并未受到影响。
Microsoft Azure,3月3日
3月初,微软Azure云的美国东部数据中心(useastdatacenter)遭受了6小时的首次断电,限制了一些北美客户对Azure云服务的可用性。微软随后披露,一个冷却系统故障是导致这次停机的原因。发生故障的楼宇自动化控制导致气流减少,随后整个数据中心的温度峰值阻碍了网络设备的性能,使计算和存储实例无法访问。
微软最终重置了冷却系统控制器,一旦温度下降,工程师便对硬件进行了循环再用以恢复服务。
随后,由于大流行对数种云服务造成压力,三月发生的一系列中断影响了欧洲客户。最终,微软接受了不及时解决故障的责备。不过,事情并没有就此结束,因为今年9月28日,10月1日和10月7日,微软云服务中断的次数更多。
Zoom,8月24日
考虑到Zoom的中断在一年前不会有多大影响,现在流行的视频会议平台今年8月的3个小时停机显示,该公司离线的会议和网络研讨会服务不再仅仅影响白领。
Zoom现在每天约有1.15亿活跃用户,从最小的牙科诊所到大型企业都在使用。该公司的服务可能已成为2020年在家工作的动词,但从8月起,该公司开始收到有关用户无法访问Zoom.us网站,无法启动和参加会议和网络研讨会的报告。
目前尚不清楚有多少组织,公司和学区受到影响,但Zoom并未解释造成中断的原因,他只是在状态页面上说找到并解决了问题。
其中有三点,这提醒我们,尽管云解决方案已使2020年应对社会隔离的需求成为可能,但是随着我们继续投资并依赖云计算技术,中断的频率和严重性可能会增加。也许是时候该考虑使用混合云策略在真正关键任务应用程序上是否应在内部部署了。