Бостон — Значит, вы хотите запустить генеративную модель AI (Genai) или сделать эти модели. Или, хорошо, давайте признаем это, вы хотите запустить несколько моделей на платформах, которые вы хотите, когда вы хотите. Это нелегко. Чтобы удовлетворить эту потребность, на Red Hat Summit 2025, Red Hat выпустила сервер Red Hat AI Interference (RHAI).
Rhai-это высокопроизводительная платформа с открытым исходным кодом, которая работает как механизм выполнения для рабочих нагрузок искусственного интеллекта. Как следует из названия, Rhai — это все о выводе. Именно там, где предварительно обученные модели генерируют прогнозы или ответы на основе новых данных. Вывод-это критический механизм выполнения ИИ, где предварительно обученные модели переводят данные в взаимодействие пользователей.
Эта платформа построена на широко принятом проекте с открытым исходным кодом VLLM. VLLM-это высокопроизводительный и эффектный вывод для памяти и двигатель обслуживания для больших языковых моделей (LLMS). Разница между VLLM и более старыми двигателями вывода заключается в том, что более ранние двигатели оснащены путем ввода/вывода памяти. VLLM делит память, где бы она ни была, на управляемые куски и только доступ к тому, что необходимо, когда это необходимо. Если это очень похоже на то, как компьютеры обрабатывают виртуальную память и пейджинг, вы правы, это так, и это работает так же хорошо для LLMS, как и для ваших ПК.
Технология нейронной магии
К VLLM Red Hat добавила технологии из ее нейронной магии. Нейронная магия приносит программное обеспечение и алгоритмы, которые ускоряют нагрузки на вывод Genai в таблицу. Результатом является платформа с выводом ИИ, которая достаточно быстра и достаточно экономична, чтобы вы могли развернуть масштабируемые двигатели для сбора ИИ в любом облаке.
Ключевые функции Rhai включают:
- Поддержка любой модели Genai: Сервер является агроностическим, поддерживающий ведущие открытые и сторонние проверенные модели, такие как Llama, Gemma, Deepseek, Mistral и Phi, среди прочих.
- Аппаратная и гибкость облака. Пользователи могут запустить вывод ИИ на любом акселераторе ИИ (графические процессоры, процессоры, специализированные чипы) и в любой среде-локальном, общедоступном облаке или гибридном облаке-включая бесшовную интеграцию с AI Red Hat Openshift AI и Red Hat Enterprise Linux AI (RHEL AI).
- Производительность и эффективность. Использование высокопроизводительного двигателя вывода VLLM, сервер поддерживает такие функции, как крупные входные контексты, ускорение с несколькими GPU и непрерывное пакетирование, подача заявок Red Hat, в два-четыре раза больше производства токенов с оптимизированными моделями.
- Сжатие и оптимизация модели: встроенные инструменты уменьшают размер основополагающих и настраиваемых моделей, минимизируя вычислительные требования при сохранении или даже повышении точности.
- Поддержка корпоративного уровня: Red Hat обеспечивает закаленные, поддерживаемые распределения и сторонние поддержки, обеспечивая развертывание даже на платформах Linux и Kubernetes, не имеющих Red Hat.
Сервер вывода AI Red Hat доступен в качестве автономного контейнерного решения или как интегрированный компонент Red Hat Openshift AI. Это то, что дает вам возможность использовать Rhai для развертывания и масштабирования практически в любом месте. Как объяснил Брайан Стивенс, технический директор Red Hat’s AI и бывший генеральный директор Neural Magic Magic, вы можете развернуть его «где угодно». Или, более конкретно, в OpenShift Red Hat или любой сторонней среде Linux или Kubernetes ». Я не знаю о тебе, но мне нравится эта гибкость.
From a business perspective, Joe Fernandes, Red Hat’s VP and general manager of the AI Business Unit, said, “Inference is where the real promise of GenAI is delivered, where user interactions are met with fast, accurate responses delivered by a given model, but IT must be delivered in an effective and cost-efficient way. RHAI Server is intended to meet the demand for high-performing, responsive inference at scale while keeping resource demands low, providing a common inference слой, который поддерживает любую модель, работает на любом акселераторе в любой среде ».
Red Hat имеет большие амбиции для Rhai. Red Hat стремится сделать для ИИ то, что он сделал для Linux — сделать ее доступным, надежным и повсеместным в условиях корпоративных сред.
Распределенный вывод Genai в масштабе
Конечно, чтобы это произошло, вам нужен солидный фонд с открытым исходным кодом. Для этого, Red Hat, в партнерстве с CoreWeave, Google Cloud, IBM Research Nvidia и многими другими компаниями и группами запустили LLM-D. LLM-D-это проект с открытым исходным кодом, который женится на Kubernetes, распределенном выводе на основе VLLM и интеллектуальной сетевой маршрутизации AI-AWAR для создания надежных облаков вывода с большой языком (LLM).
Помимо Kubernetes и VLLM, LLM-D также включает в себя:
- Предварительно заполнить и декодировать дезагрегацию, чтобы отделить входной контекст и фазы генерации токенов на дискретные операции, где они могут быть распределены по нескольким серверам.
- Кэш KV (клавиш). Разгрузка кэша, основанная на LMCache, сдвигает бремя памяти кэша KV с памяти графического процессора в более экономически эффективное и обильное стандартное хранилище, например, память ЦП или сетевое хранилище.
- Маршрутизация сети AI-AWARE для планирования входящих запросов на серверы и ускорители, которые, скорее всего, имеют горячие кэши с расчетами прошлого вывода.
- Высокопроизводительные API-интерфейсы связи для более быстрой и более эффективной передачи данных между серверами при поддержке библиотеки xfer библиотеки NVIDIA (NIXL).
Стивенс объяснил, что все это вместе, и «запуск сообщества LLM-D… знаменует собой ключевой момент в решении необходимости масштабируемого вывода Genai, решающего препятствия, которое необходимо преодолеть, чтобы обеспечить более широкое внедрение AI. Выводы в расширенном гибридном облаке, поддерживая любую модель, любой ускоритель, в любой облачной среде и помогая реализовать видение безграничного потенциала ИИ ».
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Стивен Дж. Воган-Николс, известный как SJVN, пишет о технологиях и технологии, так как CP/M-80 был передовой операционной системой ПК, 300BPS был быстрым подключением к Интернету, WordStar был современным текстовым процессором, и нам понравилось. Подробнее от Стивена Дж. Вогана-Николса