Рамалама проект объединяет контейнеры и ИИ

CNCF спонсировал этот пост.

Проект Ramalama стоит на пересечении контейнеров AI и Linux и предназначен для того, чтобы облегчить разработку и тестирование моделей ИИ на рабочих стопах разработчиков.

С недавним запуском веб -сайта Рамаламы и публичного приглашения внести свой вклад, я решил встретиться с двумя основателями проекта, Эриком Кертином и Дэном Уолшем. Дэн и Эрик ранее работали вместе над инструментом управления контейнерами Podman, недавно принятым в качестве проекта Cloud Native Computing Foundation (CNCF).

Как начался Рамалама

Скотт Маккарти: Как вы связались с Рамаламой?

Эрик Кертин, инженер -программист в Red Hat: Рамалама был побочным проектом, на котором я взламывал. Мы начали играть с Llama.cpp, облегчая использование с облачными нативными концепциями. В наши дни я также являюсь сопровождающим Llama.cpp. У меня разнообразный опыт в программном обеспечении.

Дэн Уолш, старший инженер из Red Hat: Сейчас я работаю в команде Red Hat AI. В течение последних 15 лет я работал над контейнерными технологиями, включая создание Podman, ныне проект CNCF. В течение последнего года я работал над загрузочными контейнерами, и это привело к работе над Red Hat Enterprise Linux AI (RHEL AI), в которых использовались загрузочные контейнеры для инструментов ИИ. Я также работал над рецептами AI Lab, которые использовали контейнеры для запуска рабочих нагрузок ИИ. Я работал с Эриком пару лет назад над отдельным проектом, поэтому мы поддерживали связь.

Скотт: Как и когда начался проект Рамаламы?

И: Эрик написал несколько сценариев и демонстрировал свои инструменты прошлым летом, когда я заметил усилия. Я был обеспокоен тем, что мир ИИ с открытым исходным кодом игнорировал контейнеры и собирался улавливать разработчиков ИИ в конкретные аппаратные и операционные системы ноутбука. И что еще более важно, исключить Linux и Kubernetes.

Эрик: Первоначальной целью Рамаламы было сделать ИИ скучным (простым в использовании) и использовать облачные нативные концепции. В то время он назывался Podman-Llm. В то время у нас было запланировано две основные функции: потяните время выполнения акселератора ИИ в качестве контейнера и поддержали несколько транспортных протоколов (OCI, обнимающееся лицо, Ollama). Диаграмма сегодня в readme.md с тех пор не изменилась.

И: Я начал предлагать такие изменения, как перемещение его в Python, чтобы упростить участники и ликвидировать большинство программного обеспечения для искусственного интеллекта. Мы переименовали проект «Рамалама». Я также предложил перенести инструменты в контейнеры Org на GitHub, где у нас был первый запрос на притяжение, объединенное 24 июля 2024 года.

Скотт: Откуда взялось имя?

Эрик: (смеется) Я оставлю это Дэну.

И: Многие из открытых контентов ИИ используют некоторую форму ламы, возглавляемой моделью Meta’s Llama2 AI. Мы основывали некоторые технологии в Рамаламе на Олламе, а основной двигатель, который мы используем внутри контейнеров, — это llama.cpp. Итак, мы хотели как -то иметь имя «лама». Глупая песня, которую я вспомнил, когда я был молодым, была «Рама Лама Дин Донг», поэтому мы выбрали имя Рамалама.

Как работает Рамалама

Скотт: Каково преимущество использования контейнерных изображений для моделей искусственного интеллекта на рабочем столе?

Эрик: Мы уже используем открытое изображение контейнера (OCI) в качестве механизма распределения для таких вещей, как контейнеры приложений, Bootc и AI -времени. Реестры OCI предназначены для передачи больших данных, и это зрелый транспортный механизм, который уже доступен во многих местах.

И: Предприятия хотят иметь возможность хранить свой контент искусственного интеллекта в своей инфраструктуре. Многие предприятия не позволят их программному обеспечению вытащить непосредственно из Интернета. Они захотят контролировать используемые модели ИИ. Они будут хотеть, чтобы их модели были подписаны, версированы и с данными безопасности цепочки поставок. Они хотят, чтобы они были организованы с использованием таких инструментов, как Kubernetes. Поэтому возможность хранить модели ИИ и содержание ИИ в качестве изображений и артефактов OCI имеет общий смысл.

Скотт: Как работает Рамалама?

Эрик: Рамалама пытается автоматически рассчитывать на первичный ускоритель в системе; Это потянет время выполнения ИИ на основе этого. Затем он будет использовать или вытащить модель на основе указанного имени модели-например, Ramalama запускает Granite3-Moe-и затем подает модель. Это самое основное использование; Есть функциональность для Kubernetes, Quadlet и многих других функций.

И: Другая цель для Рамаламы — помочь разработчикам получить свои заявки на ИИ в производство. Рамалама позволяет легко преобразовать модель ИИ из любого транспорта в содержание OCI, а затем подтолкнуть модель в реестр OCI, такой как Docker Hub, Quay.io или Artifactory. Рамалама может не только обслуживать модели на местном уровне, но и генерировать развертывание Quadlets и Kubernetes, чтобы легко запустить модели искусственного интеллекта в производстве.

Скотт: Почему Рамалама важна?

И: Мы облегчаем пользователям просто установить Ramalama и вставать и запустить модель искусственного интеллекта в качестве чат-бота или обслуживать сервис на основе искусственного интеллекта в простой команде, в отличие от пользователя, необходимого загружать и установить, а в некоторых случаях создает инструменты AI, прежде чем вытащить модель в систему. Одна из ключевых идей Рамаламы — запустить модель в контейнере, чтобы защитить пользователя от модели или программного обеспечения, управляющего моделью от влияния на их хост -машину. Пользователи, управляющие случайными моделями, являются проблемой безопасности.

Эрик: Он дал сообществу доступный проект для вывода искусственного интеллекта с использованием облачных нативных концепций. Мы также менее самоуверенны в таких вещах, как вывод о выводе, транспортные механизмы, совместимость с бэкэнд и совместимость аппаратного обеспечения, позволяя разработчикам использовать и опираться на ИИ в выбранных их системах.

Поддержка Рамаламы для оборудования и других инструментов

Скотт: Вы можете поддерживать альтернативное оборудование?

Эрик: Это одна область, где Рамалама отличается. Многие проекты имеют ограниченную поддержку для оборудования и поддержки только одного или двух типов оборудования, таких как Nvidia или AMD. Мы будем работать с сообществом, чтобы обеспечить альтернативное оборудование на основе наилучших усилий.

И: Рамалама написан на Python и, вероятно, может работать в любом месте, где поддерживается Python и поддерживает контейнерные двигатели Podman или Docker. Что касается ускорителей, у нас в настоящее время есть изображения для поддержки только ЦП, а также Vulkan, CUDA, ROCM, ASAHI и Intel-GPU. Многие из них были предоставлены сообществом, поэтому, если кто -то хочет внести вклад в контейнер (Dockerfile), чтобы создать поддержку нового графического процессора или другого ускорителя, мы добавим его в проект.

Скотт: С какими еще инструментами интегрируется Рамалама?

Эрик: Рамалама стоит на плечах гигантов и использует много ранее существовавших технологий. С точки зрения контейнеров, мы интегрируемся с существующими инструментами, такими как Podman, Docker, Kubernetes и Kubernetes. С точки зрения вывода, мы интегрируемся с llama.cpp и VLLM, поэтому мы совместимы с инструментами, которые могут интегрироваться с этими API. Вероятно, есть способы использования, о которых мы не знаем.

Скотт: Рамалама работает с новой моделью Deepseek AI?

Эрик: Да, мы были совместимы с DeepSeek в день, когда модель была выпущена. Это одна из самых впечатляющих моделей; Интересно, как он показывает свой мыслительный процесс.

И: Мы обнаружили очень мало моделей GGUF (сгенерированный GPT Unified Format), с которыми он не работает. Когда у нас есть, мы работали с проектом Llama.cpp, чтобы исправить их, и мы работаем в течение нескольких дней. Мы планируем поддержать другие модели для использования с VLLM.

Что впереди для ИИ?

Скотт: Есть ли другие мысли о Рамаламе или о будущем ИИ?

И: Я вижу наше приключение ИИ как серию шагов. Во -первых, мы играем и обслуживаем модели искусственного интеллекта. Рамалама делает это сейчас. Мы хотим улучшить это, добавив другие способы использования моделей искусственного интеллекта, таких как Whisper. Далее мы активно работаем над тем, чтобы помочь пользователям преобразовать свои статические документы в базы данных по поиску-августа (RAG) с использованием инструментов с открытым исходным кодом, таких как Decling и Llama Stack. После этого мы добавляем поддержку моделей бега и обслуживания вместе с данными RAG, чтобы улучшить способность моделей искусственного интеллекта давать хорошие ответы. Все это будет сделано, сосредоточившись на контейнерировании данных ИИ.

Следующим шагом после этого является поддержка агентов искусственного интеллекта. Эти агенты позволяют моделям ИИ взаимодействовать со случайными API и базами данных по всему Интернету. Мы видим кучу работы, продолжающаяся в этой области в мире открытых исходных кодов. Мы хотим, чтобы разработчикам было легко воспользоваться этими инструментами и в конечном итоге поместить их в производство.

Эрик: Мы приветствуем сообщество, чтобы принять участие. Я все еще вижу Рамаламу как в зачаточном состоянии. Мы едва затронули такие вещи, как тряпка, агенты ИИ, распознавание речи и стабильную диффузию. Я с нетерпением жду возможности увидеть, как сообщество будет его использовать. Подман в начале использовался для таких вещей, как серверы; Теперь мы видим более творческие использование его, таких как настольный компьютер Podman, Toolbox и Bootc. Я с нетерпением жду возможности увидеть, как Рамалама развивается для беспрецедентных вариантов использования.

Чтобы узнать больше о Kubernetes и облачной нативной экосистеме, присоединяйтесь к нам в Kubecon + CloudNativecon Europe в Лондоне с 1 по 4 апреля.

Облачный фонд Cloud Computing Foundation (CNCF) проводит критические компоненты глобальной технологической инфраструктуры, включая Kubernetes, Prometheus и Angoy. CNCF является нейтральным домом для сотрудничества, объединяющий ведущих разработчиков отрасли, конечных пользователей и поставщиков. Узнайте больше последних из CNCF Trending Stories YouTube.com/ThenewStack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. В Red Hat Скотт Маккарти является старшим основным менеджером продуктов для Server, возможно, крупнейшего бизнеса с открытым исходным кодом в мире. Основные области включают облако, контейнеры, расширение рабочей нагрузки и автоматизацию. Работа в тесном сотрудничестве с клиентами, партнерами, инженерными командами, продажами … Подробнее от Скотта Маккарти

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *