亚马逊网络服务“恢复正常运营”——这就是导致全球停电 15 小时的原因

亚马逊发表声明称，该公司已修复周日全球互联网使用中断的云计算服务重大中断问题。该问题影响了许多在线平台，包括社交媒体、游戏、食品配送、流媒体和金融服务。

AWS恢复“正常运营”

亚马逊网络服务 (AWS) 表示，其系统已“恢复正常运行”，结束了长达 15 小时的中断。此前，该公司曾表示，中断的主要原因已得到解决，但部分 AWS 服务仍面临连接问题。其中包括 Lambda 服务，该服务允许智能手机和计算机上的应用程序使用云运行。

AWS 解释说，由于该公司致力于解决遗留的网络问题，当其函数尝试连接到其他系统或服务时，其 Lambda 服务的用户可能会偶尔遇到错误。为了解决这些问题，AWS 暂时降低了 Lambda 检查 SQS 队列中消息的速度。现在，成功操作的数量正在增加，错误正在减少，该公司正在逐步将轮询率恢复到正常水平。

截至东部时间上午 8 点，AWS 将中断状态从“降级”更新为“受影响”，并表示他们仍在努力清除累积的延迟用户请求。

该公司后来澄清说，所有剩余的技术问题均已解决。

是什么导致AWS大规模宕机？

该公司表示，中断的主要原因是“潜在的 DNS 问题”，即域名系统的故障，该系统的工作原理就像互联网的电话簿一样，将网站名称转换为数字 IP 地址。

截至东部时间上午 6:35，AWS 表示中断已“完全缓解”，这意味着大多数系统已恢复正常。然而，他们的工程师后来解释说，某些服务仍然“出现大量错误”。

该问题始于 US-East-1（北弗吉尼亚州）区域，该区域是 AWS 运营的关键中心。这引起了连锁反应，影响了世界各地的许多数字服务。

哪些平台受到影响？

监测网站 DownDetector 显示，用户在 WhatsApp、Snapchat、Pinterest、Zoom、Signal、Fortnite、Xbox 和 YouTube 等多个流行平台上遇到了问题。 Canva、Duolingo、Strava 和 Peloton 等与工作和生活方式相关的应用程序也受到影响并显示错误。

照片共享网站 Flickr 表示，由于亚马逊网络服务出现重大问题，该网站已离线一段时间。

混乱还会继续吗？

AWS工程师表示，大多数系统正在再次变得稳定，但一些轻微的放缓可能会持续一段时间。该公司尚未发布详细报告，解释导致问题的原因或计划如何防止问题再次发生。