Руководитель искусственного интеллекта Андрей Карпати заявил, что подход Inception Labs к распространению потенциально может отличаться от всех других крупных языковых моделей, лидирующих в этой области, таких как Claude и ChatGPT.
Это что-то значит. И когда Карпати призывает людей попробовать это? Это большое дело.
Карпати, придумавший термин «кодирование вибрации», в феврале написал на X, что большинство LLM обучаются авторегрессионно, то есть они прогнозируют токены слева направо. Диффузия идет не слева направо, а сразу. По его словам, вы начинаете с шума и постепенно шумите его как поток токенов.
«Все это говорит о том, что эта модель потенциально может отличаться и, возможно, продемонстрировать новую, уникальную психологию или новые сильные и слабые стороны», — написал он на X. «Я призываю людей попробовать ее!»
Inception Labs — это стартап, созданный 18 месяцев назад, основатели которого стали пионерами в области диффузионной технологии и разработали, по их словам, возможность строить языковые модели быстрее и с меньшими затратами, чем традиционные авторегрессионные LLM. Кимберли Мок писала о Inception ранее в этом году для The New Stack.
У компании есть несколько аналогов на рынке, в том числе Dream7B, LLaDA и Google, предлагающие экспериментальную модель распространения через Gemini. Но Inception — единственная коммерчески доступная модель с собственным API.
Что отличает диффузионные модели от авторегрессионных LLM?
Mercury, модель Inception, генерирует токены параллельно, рассказал Бурзин Патель, вице-президент по продуктам Inception, в интервью The New Stack на AWS re:Invent. Модели авторегрессии генерируют токены последовательно.
«За один проход процесса отбора вы получаете несколько токенов, из-за чего это происходит в 5–10 раз быстрее», — сказал Патель о Меркьюри. Пропуск означает просмотр нейронной сети вперед для оценки и прогнозирования.
Преимущество в скорости усиливается для приложений, которые выполняют несколько последовательных вызовов к LLM, сказал Патель. «Все больше и больше приложений многократно взаимодействуют с LLM — это очень большая тенденция в агентных приложениях», — сказал он. Если приложение совершает 30 вызовов LLM, и каждый из них выполняется на две секунды быстрее, это экономит целую минуту на каждый запрос».
Авторегрессионные архитектуры имеют преимущества, особенно в пользовательском интерфейсе. Например, используйте такой сервис, как Claude, и вы увидите вывод токена после первого прохода. Результатом авторегрессии является режим реального времени, в то время как первоначальный результат модели диффузии имеет некоторую задержку, даже если окончательный ответ может быть быстрее.
Преимущества скорости и эффективности диффузионных моделей
Но для агентских рабочих процессов скорость диффузионной модели может иметь существенное значение.
По словам Патель, с Mercury как частью блока вы действительно можете менять токены. Если вы видите лучший пятый жетон, вы можете пойти и поменять второй жетон.
Модели диффузии обычно прогнозируют все замаскированные токены одновременно. По словам Патель, Mercury генерирует токены в блоках с разным уровнем достоверности. (Это все, что он объясняет, что скрывается под капотом: компания, по его словам, не раскрывает подробные архитектурные решения.)
В Mercury это вопрос высокого доверия к токенам. Если в блоке 1000 токенов, 300 могут иметь высокую степень достоверности. Меркурий может продолжить пробой и продолжать показывать токены, имеющие высокую степень доверия.
«Предположим, для вашего ответа требуется 1000 жетонов», — сказал Патель. При использовании авторегрессионных моделей вам потребуется тысяча проходов вперед. С помощью диффузии вы можете генерировать от пяти до 10 токенов за один прямой проход — тысячу, разделенную на пять, или тысячу, разделенную на 10. Это не намного сложнее».
Акцент Inception на сценариях использования кода и голосовой связи
Метод диффузии появился в лабораториях искусственного интеллекта Стэнфордского университета. Патель отметил, как в этом участвовали соучредители Inception и их связи друг с другом: «Стефано [Ermon] — руководитель лаборатории искусственного интеллекта в Стэнфорде. Адитья Гровер — доктор философии. профессор Калифорнийского университета в Лос-Анджелесе, а Владимир Кулешов из Корнелла. Адитья и Владимир были учениками Стефано, и они как бы построили этот алгоритм, основанный на диффузии».
Патель добавил: «Все [the diffusion algorithms] пришел из Стэнфордских лабораторий. Никто не придумал, как использовать этот алгоритм для модальности текста. Это прорыв, который совершил Стефано: он взял творческий отпуск в Стэнфорде и основал эту компанию».
По его словам, Inception — небольшая компания, которая максимально использует свои ресурсы, сосредотачиваясь на двух вертикалях: кодировании и голосовой связи.
«На самом деле мы можем охватить весь спектр вариантов использования, но мы — стартап-компания, в которой работают 25 человек, поэтому мы выходим на рынок не так», — сказал Патель.
Почему компания решила сосредоточиться на кодировании и голосовой связи? «Потому что эти два типа наиболее чувствительны к скорости. Когда вы кодируете и выполняете что-то вроде автозаполнения, если я могу печатать быстрее, чем автозаполнение, это бесполезно».
Голосовым агентам требуется скорость, чтобы избежать задержек, поскольку они работают в режиме реального времени.
«Мы используем метод преобразования текста в текст, а не голос в голос», — сказал Патель. «Вы используете ASR, вы получаете текст, вы используете модель — и ее сердцем является движок, которым является наша диффузионная модель Inception Mercury — а затем вы преобразуете текст в речь. У нас есть пара клиентов, которые делают это в больших масштабах».
По его словам, Inception начала работать с IDE для кодирования, которые зависят от «образцовых людей, тех, кто из таких мест, как Стэнфорд, потратил годы на исследования для получения докторской степени».
«Мы являемся LLM по умолчанию для многих плагинов IDE», — сказал Патель. «Если вы посмотрите на все это пространство кодирования и IDE, то увидите, что эти люди действительно хороши в создании IDE. Они понимают среду кодирования. Они не моделисты. Люди-модели приезжают из Стэнфорда и имеют докторскую степень. Мы модели».
Inception работает с Continue, агентом кодирования с открытым исходным кодом. Стартап также работает с такими компаниями, как Proxy AI, JetBrains, Kilo Code и Cline.
Как модель Меркурия интегрируется в существующие системы
Mercury API совместим с OpenAI и стандартными моделями. Для интеграции требуются строки кода, состоящие из одной или двух цифр, API легкий и использует те же протоколы.
В наше время эффективность алгоритмов имеет большее значение, чем когда-либо, для компаний, использующих генеративный ИИ.
«Цена нашей модели составляет 25 центов за миллион входных токенов и 1 доллар за миллион выходных токенов», — сказал Патель. «Мы более эффективны с точки зрения затрат. Мы можем обслуживать эти модели более эффективно, и именно это позволяет снизить наши затраты».
По словам Патела, модели развертывания Inception различаются. Например, пользователи получают 10 миллионов токенов при создании учетной записи. Документация API помогает им начать создавать свои программы и разрабатывать модели.
У некоторых компаний есть требования к суверенитету данных, и в этом случае они могут самостоятельно разместить модель через Amazon Bedrock или Azure Foundry.
«Если вы посмотрите на Bedrock, вам будет доступно более 20 различных моделей, включая открытый исходный код», — сказал Альваро Эчеверрия, директор по стартапам в Латинской Америке Amazon Web Services, в дискуссии на AWS re:Invent.
«Мы не считаем, что существует одна модель, которая решит каждый вариант использования, и вы можете выбрать ту, которая подойдет именно вам», — сказал Эчеверрия. «И такие вещи, как Bedrock, позволят вам его настроить».
По словам Патела, в настоящее время Inception работает только с Nvidia в отношении графических процессоров.
Диффузионные модели имеют значительные преимущества. Начало игры находится на ранней стадии, и это дает свои преимущества. Тем не менее, возможности диффузионных моделей в области текста исторически не идут ни в какое сравнение с их авторегрессионными аналогами.
Подробный технический анализ, сравнивающий авторегрессионные и диффузионные технологии, можно найти в публикации Грега Робисона на Medium по этой теме.
ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Алекс Уильямс — основатель и издатель The New Stack. Он давний технологический журналист, работавший в TechCrunch, SiliconAngle и в компании, которая сейчас известна как ReadWrite. Алекс работает журналистом с конца 1980-х годов, начиная с… Читать далее от Алекса Уильямса