Разработка моделей искусственного интеллекта достигла переломного момента: возможности высокопроизводительных вычислений, обычно предназначенные для облака, передаются на периферийные устройства. Это свежая перспектива по сравнению с всепоглощающей природой больших языковых моделей (LLM) и графических процессоров, необходимых для их запуска.
«В какой-то момент у вас закончатся вычислительные мощности, энергия и деньги», — сказал Зак Шелби, генеральный директор и соучредитель Edge Impulse, компании Qualcomm Technologies. «Мы хотим развернуть [generative AI] так широко. Это не масштабируемо, верно? И тогда возникает множество проблем с надежностью. Это наталкивается на проблемы с питанием».
На периферии вопросы мощности различаются в зависимости от устройства. А результат? Эти устройства могут работать с различными языковыми моделями, но LLM представляет собой серьезную проблему.
История искусственного интеллекта касается не только крупных центров обработки данных. Нам нужны преимущества для запуска приложений, близких к данным, которые обрабатывают модели. Поездки туда и обратно к облачному сервису в регионе по всей стране обходятся дорого и создают множество проблем, которые делают непригодными для использования приложения реального времени.
Проблемы и варианты использования LLM в промышленных условиях
Шелби основала Edge Impulse в 2019 году вместе с Яном Джангбумом, техническим директором компании. Шелби дважды беседовала с The New Stack после ежегодной конференции Edge Impulse Imagine в Музее компьютерной истории в Маунтин-Вью, Калифорния. Компания предлагает периферийную платформу искусственного интеллекта для сбора данных, обучения моделей и их развертывания на периферийных вычислительных устройствах.
«Нам необходимо найти способы заставить эти вероятностные архитектуры LLM вести себя более детерминировано, чтобы в приложениях не участвовал человек или минимальное количество людей в цикле», — сказал Шелби.
LLM имеют несколько вариантов использования для бэк-офиса, но в промышленных средах преимущества немного другие.
Существует множество различных типов архитектур, таких как модели малого языка (SLM), модели визуального языка (VLM) и другие, которые становятся все более полезными на периферии. Но вариант использования остается неясным, когда речь идет о больших языковых общих моделях, обычно используемых на потребительских рынках.
«В чем компании видят реальную ценность?» — спросила Шелби. «Это была проблема на заре существования магистратуры в сфере промышленности».
«Это вопрос того, чему действительно доверяют люди в отрасли», — сказал он: «В промышленном производстве мы должны иметь [a return on investment]верно? Мы должны понимать, что мы решаем. Мы должны понять, как это работает. Планка гораздо выше».
Например, по словам Шелби, VLM быстро взрослеют.
«Я действительно думаю, что сейчас, когда VLM быстро развивается, мы действительно находим множество вариантов использования, потому что это позволяет нам выполнять сложный визуальный анализ, который мы обычно не могли бы сделать с дискретными моделями. Очень полезно, но это требует большого количества тестов. Вам нужно провести сквозное тестирование. Вы должны параметризовать и поставить вокруг него эти ограждения».
От очков XR до распределенных агентов искусственного интеллекта
В Imagine я носил очки расширенной реальности (XR), чтобы рассмотреть часть печатной платы. С помощью очков я мог обнаружить эту часть, а затем выбрать один из множества вопросов, которые мне хотелось бы задать. Я использовал голос, чтобы задать вопрос, включив Whisper, службу распознавания речи, YOLO («Вы смотрите только один раз») и OpenVocabulary для обнаружения объектов.
Как работают очки расширенной реальности.
Это, в свою очередь, было передано в инструмент поисково-дополненной генерации (RAG) и интегрировано с Llama 3.2, которая включает в себя LLM для машинного зрения малого и среднего размера (11B и 90B), а также облегченные текстовые модели (1B и 3B). По данным Meta, модели подходят для периферийных и мобильных устройств, включая предварительно обученные и настроенные с помощью инструкций версии.
Следующий шаг, по мнению Шелби? Примените агентов к физическому ИИ, который Edge Impulse позволяет использовать с помощью каскадных моделей.
Рабочая нагрузка может выполняться в «стекле», когда один агент интерпретирует то, что он видит и что говорит человек. Затем эти данные могут быть переданы каскадом в устройство искусственного интеллекта, где другой агент выполняет поиск.
«Я думаю, что это действительно интересно с точки зрения периферийной технологии искусственного интеллекта: мы начинаем иметь возможность распределять этих агентов на периферии», — сказал Шелби. «Это круто. Но я думаю, что агентный и физический ИИ делает это понятным».
По словам Шелби, людям нравятся очки XR. И они показывают связь между агентным ИИ и физическим ИИ.
По его словам, небольшие дискретные модели, такие как обнаружение объектов, осуществимы с помощью недорогих встраиваемых устройств с батарейным питанием. Однако они не могут управлять генеративным ИИ (GenAI). Для этого вам нужны гораздо более мощные периферийные устройства.
«Модель с 10 миллиардами параметров модели, представьте себе небольшую VLM», — сказал Шелби. «Или небольшой SLM. Таким образом, вы можете сделать что-то целенаправленное. У нас нет мировоззрения на все, но мы можем сделать что-то очень целенаправленное, например, анализ транспортных средств или дефектов, очень сфокусированный интерфейс человеческого языка или простой SLM для его интерпретации.
«Мы могли бы запустить это на одном устройстве. Очки XR являются хорошим примером. Это своего рода ТОП-класс устройств от 12 до 100, которые вы можете производить сегодня».
TOP — это термин, используемый для описания вычислительных возможностей NPU. NPU — это нейронный процессор, используемый в GenAI. По словам Qualcomm, «TOPS количественно определяет вычислительные возможности NPU, измеряя количество операций (сложения, умножения и т. д.) в триллионах, выполняемых в течение секунды».
По словам Шелби, очки XR могут выполнять простые, целенаправленные приложения, такие как обработка естественного языка с помощью SLM для устного перевода, на устройстве класса от 12 до 100 TOPS.
Почему агентные архитектуры необходимы для периферии
Помимо экрана, существует потребность в агентных приложениях, которые специально уменьшают задержку и повышают пропускную способность.
«Вам нужна агентная архитектура, в которой будет выполняться несколько функций», — сказал Шелби, например, об использовании моделей для анализа упаковки фармацевтических препаратов. «Возможно, вам придется проанализировать дефекты. Тогда вам может понадобиться LLM с RAG для выполнения ручного поиска. Это очень сложно. Для этого может потребоваться много данных. Возможно, они должны быть очень большими. Вам может понадобиться 100 миллиардов параметров».
Он отметил, что анализ может потребовать интеграции с серверной системой для выполнения другой задачи, что потребует сотрудничества между несколькими агентами. В этом случае для управления многоагентными рабочими процессами и более крупными моделями необходимы устройства искусственного интеллекта.
Чем сложнее задача, тем более общий интеллект требуется, что требует перехода на более крупные устройства искусственного интеллекта.
Дэвид Арончик, генеральный директор и основатель Expanso, сказал, что в сфере периферийных устройств никогда не изменятся три вещи, которые окажут влияние на то, как разработчики разрабатывают периферийные устройства:
- Рост данных.
- Скорость света не увеличивается, а сети никогда не смогут справиться с ней, потому что данных слишком много.
- Безопасность и регулирование никуда не денутся по мере распространения данных, а сетевое взаимодействие должно учитывать множество факторов.
«Агентная архитектура — это слой поверх данных и сетей», — сказал Арончик. «Если эти три вещи верны, это означает, что вам нужно начать перемещать туда своих агентов, или программы, или что бы они ни были. Вы должны это сделать».
Expanso обеспечивает распределенные вычисления для рабочих нагрузок. Вместо перемещения данных вычисления переходят к самим данным, что становится все более актуальным, поскольку корпоративные клиенты выходят за рамки облака для удовлетворения своих вычислительных потребностей. Он предлагает архитектуру с открытым исходным кодом, которая позволяет пользователям запускать задания по созданию и хранению данных.
Остается только догадываться, что мы называем инструментами агентной архитектуры, сказал Арончик. Но, как и Шелби, Арончик считает, что задержка и пропускная способность — это большие проблемы, которые необходимо решить. Кроме того, перемещение данных открывает проблемы безопасности и регулирования. Учитывая это, имеет смысл размещать свои приложения как можно ближе к серверам.
Обеспечение надежности: ограждения для промышленного искусственного интеллекта
По словам Шелби, природа LLM требует, чтобы человек сообщал вам, верны ли результаты LLM, что, в свою очередь, влияет на то, как оценивать релевантность LLM в периферийных средах.
Это не значит, что вы можете полагаться на LLM, чтобы дать ответ на запрос. «Представьте себе камеру в техасском пейзаже, фокусирующуюся на масляном насосе», — сказал Шелби. «LLM такой: «О, некоторые туристы готовят еду», хотя на самом деле на масляном насосе пожар.
Итак, как же сделать процесс тестируемым так, как ожидают инженеры, спросил Шелби. Для этого необходимы сквозные ограждения. Именно поэтому случайные облачные LLM пока не применимы в промышленных средах.
Edge Impulse проверяет соответствие выходного шаблона, которого ожидают разработчики, а также оценивает сквозную производительность и точность. Тесты проводятся на реальных данных.
Это не только тесты Edge Impulse необработанного потока камеры, но также детектор объектов плюс VLM и категоризация выходных данных.
LLM, по словам Шелби, нуждаются в обучении работе с соответствующими базовыми данными, такими как промышленное оборудование: «Затем вы проводите трансферное обучение, которое похоже на тонкую настройку этих моделей».
Осторожный подход к развертыванию LLM на периферии
По словам Шелби, Edge Impulse может затем втиснуть гораздо больше нейронов в меньшие вычисления, поскольку он контролирует архитектуру среды периферийных вычислений.
Но варианты использования LLM все еще демонстрируют незрелость, поэтому компания разрабатывает ограничения для сценариев промышленного использования. Базовые модели имеют важное значение. Компания обрабатывает данные, как только они поступают с камеры, используя базовые модели предварительной обработки.
Необходимо быть осторожным с LLM, устанавливая ограждения и проверяя опыт разработчиков и удобство использования, чтобы LLM можно было развернуть в полевых условиях.
«Мы стараемся делать это шаг за шагом, как будто мы еще не привлекли наших специалистов», — сказал Шелби. «Мы все еще убеждаемся, что их можно безопасно использовать в промышленности».
Текстовый ввод для кого-то, находящегося на ветряной башне, может работать нормально. Тем не менее, существуют и другие методы ввода, такие как голосовые интерфейсы, которые, по словам Шелби, компания рассматривает как способ взаимодействия, например, использование SLM с голосовыми интерфейсами, такими как Whisper, для лучшего понимания проблемы или автоматического выполнения обслуживания с использованием естественного языка.
«Мы внедрим технологию и сделаем ее очень простой для разработчиков, но вам придется делать это немного медленнее, чем то, что рекламируется в облаке», — сказал Шелби. «Это интересно. Итак, теперь встает задача: как вы разоблачите эти вещи?
«Что вы собираетесь делать со студентами LLM — попросить вашего специалиста по техническому обслуживанию пообщаться с чат-ботом на масляном насосе?»
ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Алекс Уильямс — основатель и издатель The New Stack. Он давний технологический журналист, работавший в TechCrunch, SiliconAngle и в компании, которая сейчас известна как ReadWrite. Алекс работает журналистом с конца 1980-х годов, начиная с… Читать далее от Алекса Уильямса