Singlestore спонсировал этот пост. Insight Partners является инвестором в Singlestore и TNS. Эта статья была обновлена с тех пор, когда она была первоначально опубликована 8 августа 2023 года.
Современные крупные языковые модели (LLMS) предварительно обучены на большом корпусе самоподобных текстовых данных, затем настраиваемые на человеческие предпочтения с помощью таких методов, как обучение подкреплению от обратной связи человека (RLHF).
В 2012 году LLMS наблюдается быстрые достижения в течение последнего десятилетия, особенно после того, как разработка генеративных предварительно обученных трансформаторов (GPT). Google BERT, введенный в 2018 году, представлял собой значительный прогресс в возможностях и архитектуре и последовал выпуск GPT-3 OpenAI в 2022 году и GPT-4 в следующем году.
В то время как модели ИИ с открытым источником являются противоречивыми, учитывая потенциал для широко распространенного злоупотребления — от создания спама и дезинформации до неправильного использования в синтетической биологии — мы видели ряд альтернатив с открытым исходным кодом, которые могут быть дешевле и столь же хороши, как и их проприетарные аналоги.
Варианты использования для LLMS
Учитывая, насколько это новое, мы все еще справляемся с тем, что может или не может быть возможно с помощью технологии. Но возможности LLM, несомненно, интересны, с широким спектром потенциальных приложений в бизнесе. К ним относятся использование в качестве чат -ботов в настройках поддержки клиентов, генерацию кодов для разработчиков и бизнес -пользователей, а также суммирование транскрипции аудио, перефразирование, перевод и генерация контента.
Например, вы можете себе представить, что встречи с клиентами могут быть расшифрованы и суммированы подходящим образом обученным LLM почти в реальном времени, при этом результаты были связаны с командами по продажам, маркетингу и продуктам. Или веб -страницы организации могут автоматически быть переведены на разные языки. В обоих случаях результаты будут несовершенными, но могут быть быстро рассмотрены и исправлены человеком.
В контексте кодирования многие популярные среды внутренней разработки в настоящее время поддерживают некоторый уровень завершения кода, работающего на AI, с Github Copilot, Sourcegraph и Codewhisperer среди ведущих примеров на предприятиях. Другие связанные приложения, такие как запросы базы данных естественного языка, также показывают обещание. LLMS также может сгенерировать документацию разработчика из исходного кода.
LLMS может оказаться полезным при работе с другими формами неструктурированных данных в некоторых отраслях. «В управлении богатствами, — сказал Мадхукар Кумар, директор CMO Singlestore, реляционная база данных, — мы работаем с клиентами, у которых есть огромное количество неструктурированных и структурированных данных, таких как юридические документы, хранящиеся в PDF и данные пользователя в таблицах базы данных, и мы хотим иметь возможность запросить их на простом английском языке, используя большую языковую модель».
Singlestore видит, как клиенты используют LLMS для выполнения как детерминированных, так и не определенных запросов одновременно.
«В управлении богатством я мог бы сказать:« Покажите мне заявления о доходах всех в возрасте от 45 до 55 лет, которые недавно ушли с работы », потому что я думаю, что они подходят для моего продукта 401 (k)», — сказал Кумар.
«Это требует как запроса базы данных через SQL, так и возможность работать с этим корпусом неструктурированных данных PDF. Это тот вариант использования, который мы часто видим ».
Новое применение ИИ предназначено для агентских систем. «Мы видим ряд новых компаний искусственного искусственного искусства среди наших клиентов, которые стремятся сделать свои данные немедленно доступными для создания агентских систем», — сказал нам Кумар. «Например, в кибербезопасности вы можете взять несколько живых видеопроводов и дать это ИИ, чтобы очень быстро принимать решения».
Большие языковые модели были применены к таким областям, как анализ настроений. Это может быть полезно для организаций, собирающих данные и обратную связь для повышения удовлетворенности клиентов. Анализ настроений также полезен для выявления общих тем и тенденций в большом объеме текста, которые могут помочь как с принятием решений, так и с более целенаправленными бизнес-стратегиями.
Как мы отмечали в другом месте, одна важная проблема с использованием LLMS заключается в том, что они придумывают. Например, победившее решение для конкурса сравнительного анализа, организованного Meta и основанным на извлечении дополненного поколения (RAG) и сложных ситуациях, было неправильно примерно в половине времени. Эти результаты аналогичны результатам от NewsGuard, системы рейтинга для новостей и информационных сайтов, которая показала, что 10 ведущих чат -ботов сделали ложные претензии в 40% времени и не давали ответов на 22% вопросов. Использование тряпки и множество других методов может помочь, но устранение ошибок совершенно выглядит невозможным. Ввиду этого, LLM не следует использовать в какой -либо ситуации, когда точность имеет значение.
Обучение LLM с нуля остается основным предприятием, поэтому имеет смысл строить на вершине существующей модели, где это возможно. Следует также отметить, что экологические затраты как на обучение, так и за управление LLM значительны; Из -за этого мы рекомендуем использовать только LLM, где нет меньшей, более дешевой альтернативы. Мы также рекомендуем вам попросить проекта поставщика или OSS раскрыть свои цифры для обучения и запуска модели, хотя на момент написания этой информации все труднее получить.
С помощью Кумара мы составили список того, что мы считаем пятью наиболее важными LLM на данный момент. Если вы хотите изучить потенциальное использование для LLMS, это те, которые, по нашему мнению, вам следует рассмотреть.
5 лучших лучших моделей «рассуждения»
Модели рассуждений постепенно производят ответы, имитируя в определенной степени, как люди сталкиваются с проблемами или идеями.
Openai O3-Mini-Sigh
O3-Mini-High от Openai был точно настроен для проблем STEM, в частности, программирования, математики и науки. Таким образом, и со всеми обычными предостережениями, которые применяются к сравнению, в настоящее время он набирает самые высокие оценки на эталоне GPQA, обычно используемом для сравнения производительности рассуждений.
Разработчики могут выбирать между тремя вариантами усилий по рассуждениям — Low, Medium и High — для оптимизации для их конкретных вариантов использования. Эта гибкость позволяет O3 -Mini «мыслить более усерднее» при решении сложных задач или определять приоритет скорости, когда задержка вызывает беспокойство. Это также первая небольшая модель рассуждений Openai для поддержки функций Calling, структурированных выходов и сообщений разработчика.
OpenAI больше не раскрывает выбросы углерода, хотя размер модели действительно имеет значение, и претендуют на улучшение времени ответа, означают более низкую общую стоимость работы с углеродом.
DeepSeek-R1
Они утверждают, что модели рассуждений DeepSeek были обучены на графическом процессоре кластера от размера любой из основных западных лабораторий искусственного интеллекта. Они также выпустили статью, объясняющую, что они сделали, хотя некоторые детали редки. Модель бесплатна для загрузки и использования по лицензии MIT.
R1 высоко оценивает контрольный показатель GPQA, хотя теперь он побежден O3-Mini. Deepseek говорит, что это смогло сделать это дешево-исследователи, стоящие за ним, утверждают, что для обучения, на которую обсуждается GPT-4, соблюдает 6 миллионов долларов (4,8 млн фунтов стерлингов). Он также использует меньше памяти, чем его конкуренты, в конечном итоге снижая углерод и другие связанные затраты для пользователей.
DeepSeek обучен избегать политически чувствительных вопросов — например, он не даст никаких подробностей о резне на площади Тяньаньмэнь 4 июня 1989 года.
Вам не обязательно нужно придерживаться версии DeepSeek, конечно. «Вы можете использовать его для изготовления модели, такой как Qwen 2.5 или Llama 3.1, и она намного дешевле, чем Openai», — признался Кумар.
Лучше всего для кодирования задач антропический Claude 3.7 Сонет
В то время как скорость набора текста или строк кода давно разоблачена как хорошая мера эффективности разработчика-и многие опытные разработчики выражали оговорки по поводу использования кода, сгенерированного AI,-кодирование является одной из областей, где Genai, по-видимому, имеет раннюю подгонка рынка продукта. Это хорошо работает, потому что ошибки, как правило, легко определить или проверить, что означает, что вышеупомянутые проблемы с точностью являются меньшей проблемой.
В то время как большинство разработчиков, скорее всего, будут предпочтение системе завершения кода, встроенной в их IDE, такую как JetBrains AI или Github Copilot, нынешним в своем классе в Claidmark Claude 3.5 Sonnet из Anpropic. «Когда дело доходит до кодирования, Клод все еще лучший», — сказал нам Кумар. «Я лично использовал его часами и часами, и вокруг него очень мало дебатов».
Эта собственная модель также хорошо оценивается по агентскому кодированию и использованию инструментов. На тау-Bench, задаче по использованию агентского инструмента, она набирает 69,2% в розничной домене и 46% в домене авиакомпании. Это также набирает 49% по проверке SWE-Bench.
На момент написания статьи Anpropic только что выпустили сонета Claude 3.7, который, как утверждает поставщик, «показывает особенно сильные улучшения в кодировании и веб -разработке frontend». Claude 3.7 Сонет с расширенным мышлением — позволяя вам увидеть мыслительный процесс Клода наряду с его ответом — предлагается как часть профессионального плана. Anpropic также предлагает интеграцию GitHub во всех планах Claude, позволяя разработчикам подключать репозитории кода непосредственно с Клодом.
Лучшая общая цель Meta Llama 3.1 405b
Как O3 O3, так и модели Deepseek R1 высоко оценивают модели общего назначения, но мы поклонники семейства Meta Llama моделей с открытым исходным кодом, которые приближаются. Он использует подход смеси экспертов (MOE), который представляет собой методику обучения ансамбля, которая масштабирует модельную мощность без значительного увеличения затрат на обучение или вывод. MOES может значительно увеличить количество параметров без пропорционального увеличения вычислительных затрат.
Llama 3.1 405b набирает 88,6% по эталону MMLU, поставив его за волосы за гораздо более дорогими вычислительными альтернативами.
Google Gemini Flash 2.0
Экспериментальный Gemini Flash 2,0 Google ниже, чем LLAMA на эталоне MMLU, на 76,2%, но у него есть другие возможности, которые делают его интересным. Он поддерживает мультимодальный выход, такие как назначенные изображения, смешанные с текстовым и управляемым многоязычным звуком текста в речь (TTS). Он также может изначально звонить в такие инструменты, как поиск Google и выполнение кода, а также сторонние пользовательские функции. Это также впечатляюще быстро и имеет один из самых больших размеров контекста 1 миллиона токенов.
Google также активно изучает агентские системы через Project Astra и Project Mariner, а Flash 2.0 построен с намерением сделать их особенно подходящими для агентских систем.
Выбор LLM
После того, как вы создали короткий список LLMS и определили один или два варианта использования низкого риска для экспериментов, у вас есть возможность провести несколько тестов, используя различные модели, чтобы увидеть, какой из них лучше всего подходит для вас-как вы могли бы сделать, если вы оценивали инструмент наблюдения или аналогичный.
Также стоит рассмотреть вопрос о том, можете ли вы использовать несколько LLMS на концерте. «Я думаю, что будущее будет включать не только один из них, но и ансамбль LLM, которые хороши в разных вещах», — сказал нам Кумар.
Конечно, ничто из этого не является особенно полезным для вас, если у вас нет своевременного доступа к данным. Во время нашего разговора Кумар предположил, что именно здесь появляются контекстные базы данных, такие как Singlestore.
«Чтобы по -настоящему использовать силу LLMS, — сказал он, — вам нужна возможность выполнять как лексические, так и семантические поиски, управлять структурированными и неструктурированными данными, обрабатывать как метаданные, так и векторизованные данные и обрабатывать все это в миллисекундах, поскольку вы сейчас сидите между конечным пользователем и ответом LLM».
Singlestore, разработанный для интеллектуальных приложений, является единственной в мире платформой данных в реальном времени, которая может читать, писать и разум на данных о масштабе Petabyte за несколько миллисекунд. Insight Partners является инвестором в Singlestore и TNS. Узнайте больше последних из Singlestore Trending Stories YouTube.com/ThenewStack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Чарльз Хамбл — бывший инженер -программист, архитектор и технический директор, который работал старшим лидером и руководителем как технологических, так и контент -групп. Он был главным редактором Info Quec с 2014-2020 годов и был главным редактором контейнерных решений с 2020 по 2023 год …. Подробнее от Чарльза Хамбла