Где-то сегодня вечером в северной Вирджинии группа администраторов AWS, вероятно, наслаждается напитком после очень долгого дня устранения неполадок.
В понедельник в Amazon Web Services произошел каскад сбоев в регионе US-EAST-1, что привело к многочисленным сбоям в огромном количестве облачных сервисов, включая AWS Lambda, Amazon API Gateway, Amazon Appflow, Amazon Aurora DSQL Service и других.
Как это часто бывает, виновником стала неправильная настройка DNS. Пойди разберись.
Из 15 регионов AWS по всему миру US-EAST-1, вероятно, является крупнейшим: кластеры центров обработки данных разбросаны по округам Лаудон, Принс-Уильям и Фэрфакс. И, судя по сегодняшнему отключению электроэнергии, многие из крупнейших предприятий сегодня имеют, по крайней мере, свое присутствие в этом регионе.
По данным компании, AWS сейчас почти полностью восстановлена, а очередь услуг клиентов будет завершена в течение следующих нескольких часов. Snapchat, Reddit, Venmo и другие облачные сервисы, использующие AWS, также демонстрируют восстановление.
Как провалился US-EAST-1
Проблема впервые проявила себя около 3 часов утра по восточному времени, когда несколько служб сообщили об увеличении частоты ошибок при разрешении DNS конечных точек API DynamoDB. Об этой проблеме было сообщено в течение трех часов, и к 6 часам утра сотрудники были уверены, что после периода наращивания объемы услуг вскоре начнут работать на полную мощность.
«Мы можем подтвердить, что глобальные сервисы и функции, которые полагаются на US-EAST-1, также восстановлены. Мы продолжаем работать над полным разрешением и будем предоставлять обновления, поскольку у нас будет больше информации, которой мы можем поделиться», — оптимистично написали они в журнале в 6:03 утра.
Почти все службы восстановились, т.е. Запросы на запуск новых инстансов EC2 (или сервисов, запускающих инстансы EC2, таких как ECS) по-прежнему встречались с высоким уровнем ошибок в регионе US-EAST-1. Первоначально подозреваемым виновником были устаревшие кэши, которые необходимо было очистить.
Команда администраторов по-прежнему была уверена, что сможет легко решить проблему EC2, хотя два часа спустя ошибки при запуске экземпляров EC2 все еще возникали. Они посоветовали не запускать инстансы, если этот регион обозначен как зона доступности.
Хуже того, у службы Lambda, которая с самого начала была нестабильной, также начались серьезные проблемы с восстановлением. К концу утра команду администраторов поразила волна отключенных сервисов AWS.
Больше проблем с EC2
«Мы можем подтвердить серьезные ошибки API и проблемы с подключением в нескольких сервисах в регионе US-EAST-1», — написали они в 10:14. Они отследили проблему во внутренней сети EC2, которая препятствовала работе DynamoDB, SQS, Amazon Connect и других сервисов.
Проблема оказалась в системе мониторинга балансировщиков нагрузки, которая нагружала службу Lambda.
В последнем сообщении, опубликованном в 18:48 по восточному времени, отмечалось, что запуск EC2 был восстановлен, хотя существует двухчасовое отставание в работе для сервисов, требующих запуска EC2, таких как Redshift, а также отставание в аналитике и отчетных данных.
Широкое влияние на крупный онлайн-бизнес
Хотя это затронуло только один регион, это окажет глубокое влияние на многие крупнейшие облачные сервисы в Интернете. На сайте Downdetector, который сообщает о доступности облачных сервисов, в течение дня наблюдался огромный приток сбоев в работе сервисов AWS, большинство из которых — из региона US-EAST-1.
Источник: Даундетектор
Это, в свою очередь, вызвало проблемы у многих компаний, использующих AWS. Downdetector сообщил сегодня о проблемах, связанных с AWS3d, в Snapchat, Apple Music, Reddit, Venmo, Doordash, Hulu и самой Amazon. Степень воздействия на них, по-видимому, измеряется тем, насколько сильно они зависели от этого конкретного региона.
ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Джоаб Джексон — старший редактор The New Stack, специализирующийся на облачных вычислениях и системных операциях. Он освещал вопросы ИТ-инфраструктуры и ее развития более 30 лет, в том числе работал в IDG и Government Computer News. До этого он… Подробнее от Джоава Джексона