2025 年 10 月 20 日,当世界一半的人都沉浸在排灯节庆祝活动时,数字领域却遭遇了一场重大灾难。亚马逊的云计算平台亚马逊网络服务(AWS)遇到了技术问题,在接下来的几分钟内,它关闭了许多依赖其托管服务的网站。虽然云计算中断是一种常见现象,但这一次影响很大——它导致 Snapchat、Perplexity、亚马逊电子商务网站、Prime Video、Signal、Atlassian、苹果数字服务等知名服务瘫痪。
这次中断非常严重,导致数千个主要在线平台瘫痪超过 15 个小时。此次故障起源于该公司位于弗吉尼亚州北部的关键 US-EAST-1 区域(AWS 最古老的服务器之一),该故障迅速导致从社交媒体和游戏到银行和政府门户网站等服务瘫痪。虽然部署了资源并控制了局势,但这次中断确实暴露了一个弱点——互联网严重依赖“大型科技”。
AWS 中断:究竟发生了什么
对于那些想要了解问题背后的技术细节的人,这里有一个更简单的解释。这次中断是由在例行软件更新期间影响 DynamoDB 数据库服务端点的域名系统 (DNS) 解析故障引发的,导致数字经济很大一部分的关键功能立即失效。
受影响的平台名单令人震惊——Snapchat、Roblox、Signal、Zoom、Coinbase、Venmo、Etsy,甚至亚马逊自己的零售网站以及 Ring Doorbells 和 Alexa 等智能设备都经历了广泛的连接问题。包括达美航空和联合航空在内的主要航空公司面临运营挑战,而劳埃德银行等金融机构则在英国遭遇混乱。 DownDetector 是一个监控服务中断的网站,记录了全球数百万用户的投诉。
这几乎占互联网的 30%!
AWS 占据全球云基础设施市场约 30% 的份额,与微软 Azure 和谷歌云并驾齐驱,后者共同为超过 60% 的公共云提供动力。为了追求成本效率和规模,大多数 IT 公司已将其数字工作负载整合到这些知名企业上。当占主导地位的云提供商的核心服务出现故障时,其后果是连锁性的全球停电,这证明从伦敦的一家银行到悉尼的流媒体内容的人都可以感受到一个技术故障。
服务器群需要更健康地运行
中断的根本原因是核心数据库 API 标准更新过程中的内部技术错误,这凸显了管理这些庞大服务器群的 IT 公司肩负的责任。云基础设施是一个由物理、能源密集型数据中心组成的庞大网络。维护这些高度复杂的生态系统需要在两个关键领域做出不懈的努力:
常规软件更改(例如本次 AWS 事件中导致 DNS 失败的更改)必须经过多层、经过冗余检查的部署流程。一行代码中的错误可能会立即导致全球服务瘫痪。
虽然云承诺高可用性,但该事件凸显了可用区(旨在隔离故障的独立数据中心)仍然可以通过共享的内部依赖关系进行链接,从而允许局部错误在整个地理区域中传播。维护计划必须优先考虑真正的隔离和立即回滚功能。
重大云中断会造成什么损害?
AWS 中断让我们尝到了更严重或更长时间的云故障可能给我们带来的后果。
这可能是今天服务器宕机造成的最大损失了。对于企业来说,停机就等于收入损失。分析师经常估计,由于交易丢失、生产暂停和交易停止而导致的停电成本为每小时数百万美元。金融平台、交易所和零售服务全部陷入停滞。
除了消费者应用程序之外,重大的云故障还会损害基本的国家服务。最近的中断影响了英国的政府税务服务和大学使用的教育平台,导致学生无法访问课程材料和提交作业。在最坏的情况下,依赖这些云主干网的公用事业、医疗保健系统和国家安全基础设施可能会受到损害。
将来可以采取什么措施来减少此类停机错误吗?
随着世界开始更加依赖互联网基础设施,立法者有责任制定政策,防止“大型科技”市场集中。管理该部门的更明智的政策可以在更大程度上缓解此类问题,再加上强大的维护程序和更好的数据中心基础设施,可以解决像 AWS US-EAST-1 这样的中断,而无需等待数小时才能恢复正常。