18 ноября 2025 года в Cloudflare произошел серьезный сбой продолжительностью несколько часов, который нарушил доступ к многочисленным популярным веб-сайтам и онлайн-сервисам по всему миру. Это был лишь последний из волны падений крупных интернет-провайдеров. Другие включали Amazon Web Services и Azure, оба в октябре. Становится до боли очевидным, что мы слишком сильно полагаемся на горстку компаний, предоставляющих облачные и сетевые услуги.
Однако здесь нет единого недостатка. В случае с AWS в конечном итоге — да, вы знаете эту историю — произошел сбой в системе доменных имен (DNS), в то время как сбой Azure произошел из-за ошибочного изменения конфигурации. В случае с Cloudflare основной причиной была ошибка в разрешениях системы баз данных. Это привело к сбою популярных сайтов и сервисов, таких как Shopify, Amazon и Robox, а также к выходу из строя практически всех чат-ботов с искусственным интеллектом, таких как ChatGPT, Perplexity и Anthropic Claude.
Основная причина: ошибка в разрешениях базы данных
В частности, сбой был вызван не кибератакой, а программной ошибкой в системе управления ботами Cloudflare. В частности, недавнее изменение разрешений для запроса к базе данных привело к созданию слишком большого «функционального файла», который использовался модулем управления ботами, со множеством повторяющихся записей.
Обычно этот файл имеет фиксированный размер и обновляется каждые несколько минут, но из-за ошибки файл превысил ожидаемые пределы, что привело к неоднократному сбою модуля управления ботами. Поскольку этот модуль является неотъемлемой частью основного прокси-конвейера Cloudflare, это затрагивало любой трафик, зависящий от него, что приводило к широко распространенным ошибкам 5xx.
График простоев и решение
Проблемы начались около 11:20 по всемирному координированному времени. Симптомы, включая повышенную задержку, сбои аутентификации доступа и коды ошибок, появились во всех основных сетях Cloudflare. Первоначальное замешательство привело к тому, что некоторые команды заподозрили крупномасштабную DDoS-атаку, но это было быстро исключено, как только основная причина была определена как поврежденный файл объекта.
Тем временем многие люди в сети на работе и на отдыхе заметили проблему. Как сообщает Cisco ThousandEyes, хотя на сетевых путях к внешней инфраструктуре Cloudflare не наблюдалось повышенной задержки или потери пакетов, Cisco ThousandEyes обнаружила ряд тайм-аутов и ошибок сервера HTTP 5XX, которые указывают на проблемы с внутренними службами. По иронии судьбы, даже веб-сайты, которые сами отслеживают сбои в работе сети, такие как Downdetector, вышли из строя из-за сбоя Cloudflare.
График простоев и решение
За кулисами, как объяснил Cloudflare, файл объекта обновлялся каждые пять минут с помощью запроса, выполняемого в кластере базы данных ClickHouse, который постепенно обновлялся для улучшения управления разрешениями. Таким образом, «каждые пять минут существовала вероятность того, что хороший или плохой набор файлов конфигурации будет сгенерирован и быстро распространен по сети».
«В конце концов, — продолжил Cloudflare, — каждый узел ClickHouse генерировал неверный файл конфигурации, и колебания стабилизировались в состоянии сбоя». Это исправление заключалось в том, чтобы остановить «генерацию и распространение плохого файла функции и вручную вставить заведомо исправный файл в очередь распространения файлов функций. А затем принудительно перезапустить наш основной прокси».
К счастью, инженеры Cloudflare относительно быстро остановили создание и распространение поврежденных файлов. К 14:24 UTC Cloudflare откатился к ранее стабильной версии. Основной трафик в основном нормализовался к 14:30 UTC, а полное восстановление системы завершилось к 17:06 UTC.
Каскадные эффекты на вспомогательные системы
Как всегда бывает в таких случаях, одна проблема перетекала в другую. Затронуты и другие затронутые вспомогательные системы Cloudflare. Сюда входили хранилище Workers KV и Cloudflare Access, которые зависят от основного прокси-сервера, и в них увеличилось количество ошибок и сбоев при входе в систему. Вход в панель управления Cloudflare серьезно пострадал, поскольку Turnstile, служба CAPTCHA Cloudflare, не загружалась правильно. Также не помогло то, что загрузка ЦП резко возросла из-за того, что внутренние системы отладки работали сверхурочно для диагностики необнаруженных ошибок и всегда замедляли работу сети доставки контента (CDN).
В целом основное отключение продолжалось около трех часов с периодом восстановления, а затем окончательной стабилизацией после полного устранения. Некоторые клиенты столкнулись с более длительными сбоями из-за задержек и повторных попыток, когда услуги вернулись к работе.
Обязательства Cloudflare по предотвращению будущих сбоев
Заглядывая в будущее, Cloudflare обязалась принять ряд мер для предотвращения повторения ситуации. К ним относятся:
- Усиление приема файлов конфигурации с проверкой, аналогичной вводу данных пользователем.
- Внедрите глобальные аварийные переключатели для проблемных функций, чтобы быстро изолировать проблемы.
- Устраните сценарии, в которых отчеты об ошибках или дампы ядра могут привести к перегрузке ресурсов.
- Проведите тщательный анализ режимов сбоев во всех основных модулях прокси.
Это все хорошо, но эта неудача, если ее рассматривать наряду с другими недавними сбоями в работе Интернета, подчеркивает, насколько хрупок сегодняшний Интернет. Действительно, внешние атаки, такие как распределенные атаки типа «отказ в обслуживании» (DDoS) размером в терабайты, которые могут привести к глобальным отключениям услуг для миллионов пользователей, также представляют собой реальную проблему. Но даже без таких атак эти инциденты с системными сбоями поднимают важные вопросы о том, насколько безопасны критически важные системы облачной инфраструктуры.
ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Стивен Дж. Воан-Николс, он же sjvn, писал о технологиях и технологическом бизнесе с тех пор, как CP/M-80 была новейшей операционной системой для ПК, скорость 300 бит/с — высокоскоростное подключение к Интернету, WordStar — современный текстовый процессор, и он нам понравился. Узнайте больше от Стивена Дж. Воана-Николса.