Почему современный IPv6 не прошел масштабный сетевой тест Kubernetes

ПАРИЖ — Когда я работал в НАСА в 1980-х годах, я помогал создавать программу отслеживания сети ближнего космоса, используя xBase в качестве внешнего интерфейса и Datatieve на VAX/VMS в качестве внутреннего. После завершения он вручную отследил чуть более тысячи статических сетевых каналов.

Это ничто — ничто — по сравнению с тем, что пытается сделать Deutsche Telekom — создать высокопроизводительную платформу эмуляции для моделирования спутниковых и наземных станций: обширных, динамичных сетей связи, таких как Starlink от SpaceX.

Это непросто, как объяснили в презентации на OpenInfra Summit Europe 2025 Андреас Флорат, облачный архитектор Deutsche Telekom, и Маттиас Бритч, старший технический эксперт Deutsche Telekom.

Проблема, с которой они сталкиваются, заключается в том, что в то время как мегасозвездия низкой околоземной орбиты (LEO) и средней околоземной орбиты (MEO) совершают революцию в сфере телекоммуникаций, традиционные протоколы сетевой маршрутизации, такие как Open Shortest Path First (OSPF) и Border Gateway Protocol (BGP), борются со своими динамическими топологиями — не говоря уже о интернет-протоколе следующего поколения IPv6.

Проблема имитации динамических спутниковых сетей

Итак, цель состоит в том, чтобы имитировать крупномасштабные спутниковые ячеистые сети, в которых узлы постоянно движутся, входят и выходят из контакта по мере того, как они вращаются вокруг Земли, а мир вращается под ними. Ответ Deutsche Telekom, работа над которым все еще находится в стадии разработки, заключается в создании масштабируемого испытательного стенда на базе контейнера, способного точно воспроизводить эту сетевую динамику.

Лучший результат на сегодняшний день — рекордный кластер Kubernetes. В кластере успешно работают 2000 модулей, каждый из которых имеет пять сетевых интерфейсов, всего 10 000 интерфейсов на одном рабочем узле с использованием Multus, многосетевого плагина от Red Hat.

Как сказал Флорат аудитории OpenInfra: «Нам неизвестен ни один другой проект, масштабирующий Kubernetes до такого уровня». Это достижение устанавливает новый стандарт для контейнерных сетей высокой плотности. Он также предлагает жизненно важные уроки как корпоративным операторам, так и исследователям спутниковых сетей, стремящимся имитировать крупномасштабные динамические топологии.

Дойти до этой точки было тяжелым трудом. Точная эмуляция сети требует не только огромного количества контейнеров, но и сложных, меняющихся топологий, отражающих движение узлов в реальном мире. Как сказал собравшимся Флорат, «эти сети обладают тем свойством, что узлы движутся, меняют свое положение, а сегодняшние алгоритмы маршрутизации не предназначены для этого». Вы можете сказать это еще раз.

Создание рекордного кластера Kubernetes

Действительно, при построении своей модели они обнаружили, что многие строительные блоки сети не справляются с этой задачей. Например, команда использовала IPv6 для сетевых адресов. Можно подумать, что, поскольку в 2020 году уровень использования сети IPv6 во всем мире превысил 25%, а все основные платформы, интернет-провайдеры и мобильные сети внедрили его в производство, мы бы устранили все ошибки. Вы ошибаетесь.

Бритш сообщил, что установщик Medicube, основанный на OpenStack’s Ironic, «создал совершенно неправильные конфигурации для IPv6». Даже после правильной настройки автоматическая настройка постоянно выдавала неверные настройки IPv6, что указывало на глубокие ошибки в процессе подготовки сети инструмента.

Неожиданные сбои при внедрении IPv6

Команда также изо всех сил пыталась использовать установку сетевой загрузки через IPv6. В некоторых реализациях Dell BIOS отсутствовала полная поддержка загрузки IPv6, а если и присутствовала, то были ошибки. Это приводило к зависаниям загрузки или сбоям. Цепочки инструментов требовали ручных исправлений или обходных путей на уровне ядра, чтобы обеспечить надежную загрузку PXE/HTTP с IPv6. В конце концов Dell исправила BIOS, устранив проблемы.

Тем не менее, когда все было сказано и сделано, им пришлось создать специальные инструменты обеспечения, чтобы IPv6 работал правильно в их крупномасштабном развертывании Kubernetes. Другим, желающим развернуть сети высокой плотности, следует принять это к сведению.

Инженеры также столкнулись и преодолели серьезные узкие места, которые проявлялись только в таких беспрецедентных масштабах. Ограничения включали переполнение сетевого интерфейса и таблицы MAC-адресов, исчезновение IP-адресов, неправильную настройку цикла ЦП для обработки пакетов и сбои системы, связанные с проблемами обновления BIOS. Ряд инструментов был опробован и отброшен: коммерческие установки, такие как предложения Canonical, не отличались документацией и надежностью, тогда как сетевая автоматизация и создание пользовательских образов дисков предлагали путь к стабильной платформе.

Преодоление беспрецедентных узких мест масштабирования

Важно отметить, что размеры буфера сокетов, параметры конфигурации ядра и таблицы адресов сетевых устройств потребовали серьезных корректировок. Плагин Multus позволил каждому поду обрабатывать несколько интерфейсов, но серьезные проблемы с управлением IP-адресами возникли, когда масштабирование достигло тысяч. Это побудило команду перепроектировать адресацию, сделав ее локальной для каждого модуля, оптимизировав ограничения ядра и отключив некоторые аппаратные ограничения для принудительной обработки MAC-адресов.

Как отметил Бритч, я увидел ограничения сетевых карт, «которые были для меня новыми; даже современные карты не могли обрабатывать такое количество MAC-адресов».

После нескольких месяцев устранения неполадок и постепенных улучшений установка достигла точки надежной стабильности: 2000 модулей, поддерживающих 10 000 интерфейсов на узел в течение более трех месяцев. Наконец, как с гордостью заявил Бритч: «Мы полностью все автоматизировали: установку с нуля, полностью настроенный стек».

Достижение стабильности и полной автоматизации

Однако дальнейшие попытки масштабирования выявили новые, нерешенные узкие места, указывая на то, что, хотя текущий уровень достаточен для задач моделирования, будущие улучшения потребуют решений, направленных на повышение точности сети и задержку обработки пакетов. Короче говоря, работа еще не закончена.

Тем не менее, команде наконец удалось автоматизировать развертывание своего стека и изучает возможность интеграции с данными спутникового позиционирования для моделирования динамических условий прямой видимости в сети. Это важный шаг на пути к проверке протоколов маршрутизации следующего поколения, таких как IS-IS, в орбитальном масштабе.

С появлением спутниковых сетей и голосовых услуг, таких как T-Satellite от T-Mobile, служба спутниковой телефонной связи, нам нужны эти услуги, чтобы понять наш Интернет в небе. Инженеры обсуждают со своими руководителями возможность открыть исходный код своих сценариев развертывания и модульных решений загрузки, чтобы каждый мог извлечь выгоду из их работы.

ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Стивен Дж. Воан-Николс, он же sjvn, писал о технологиях и технологическом бизнесе с тех пор, как CP/M-80 была новейшей операционной системой для ПК, скорость 300 бит/с — высокоскоростное подключение к Интернету, WordStar — современный текстовый процессор, и он нам понравился. Узнайте больше от Стивена Дж. Воана-Николса.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *