Погоняясь за автономией ИИ пропускает краткосрочную агентскую доходность

VMware Tanzu спонсировал этот пост.

Apple недавно опубликовала статью с просьбой о больших моделях рассуждений (LRMS) для решения некоторых простых, но длинных алгоритмических проблем, таких как башни сортировки дисков Ханоя. Модели провалились взрывоопасно. Модели смогли решить башни Hanoi Challenge (в котором диски смещены по колышкам в соответствии с простыми правилами) с тремя дисками, но потерпели неудачу в восемь или более. В документе показано, что модели догадываются на выводе правил, даже когда предоставлен алгоритм.

Выводы Apple не уникальны. В статье под названием «Mind the Gap: глубокое обучение не учится глубоко», Subbarao Kambhampati пишет, что инспекция внутренней работы моделей показывает, что модели, которые успешны на алгоритмах, не верны алгоритмам внутренне. Другими словами, модели, которые получают правильный ответ, могут использовать «альтернативные стратегии», сродни моему подростку, разбивая имперские династии в ночь перед экзаменами: правильный ответ — это имя, которое вы узнаете. Kambhampati утверждает, что LRM не принципиально не отличаются от крупных языковых моделей (LLMS), из которых они адаптированы.

Как говорят статистики: все модели неверны, но некоторые полезны.

Меньше вывода, больше алгоритма

Как написал Гэри Маркус, LLMS «не заменяет хорошие, хорошо упомянутые обычные алгоритмы». Я побудил Клода вывести алгоритм для меня. Я попросил его написать валидатор для алгоритма. Затем я попросил это дать мне демонстрационное приложение, показывающее решение.

Модель решила башни Ханоя с первой попытки.

Алгоритм, написанный LLM, работает лучше, чем вызов ИИ для того же результата: он хорошо масштабируется, более эффективен, чем модель машинного обучения (ML) и должен работать так же, как и все остальное в вашем браузере. Модели, которая написала код, способствовали многочисленные опубликованные справочные решения для этого основного продукта для обучения, что также относится к критическим бизнес-вопросам, таким как «Я зарабатываю деньги?» и «Когда приходит моя пицца?»

Эксперименты и интуиция

Чтобы получить ценность от моделей фундамента, мы должны указать на них на соответствующие проблемы с обширными. На практике работа проблем с ИИ — это комбинация экспериментов и интуиции разработчика, а также в корпоративном контексте, используя платформы разработчиков, которые делают небольшие пакетные эксперименты безопасными, чтобы попробовать. (Раскрытие: я работаю над этим на платформе VMware Tanzu.) Вы можете назвать эту комбинацию DEV с полным стеком и осведомленности о моделях как «EI Engineering».

Мой товарищ по команде и инженер искусственного интеллекта Брайан Фридман говорит: «Требуются усилия… вы должны предоставить специфику вашей организации в узком порядке, чтобы запрашивать конкретные и точные ответы. Нам нужно рассматривать такие вещи, как поиск-аугимент, не как стопки или анти-паттерны, а в качестве пути для безопасного и эффективного использования ИИ».

Агенты: менее плохие, чем то, что мы делали

Это приводит нас к агентам, причина, по которой модели рассуждений существуют. Было бы очень приятно, если бы модели рассуждений могли продумать долгие рабочие процессы как решения с нулевым выстрелом: найти мне полет, мне все равно, как. Более вероятная ситуация в том, что мы будем продолжать писать программное обеспечение.

Мы определим небольшие промежуточные цели и сохраним результаты. Мы вызовым услуги и инструменты и валидаторы. Мы внедрим алгоритмы в Java и Python и Go. Мы получим отзыв от людей по пути. Мы будем беспокоиться о задержке, безопасности и выбросах углерода.

Вполне вероятно, что такие помощники по кодированию, как Claude, Devstral и Gemini, могут сделать часть этой работы для нас. Но медленная работа по выяснению того, что пользователи хотят и тестирование рынка продуктов все еще должно произойти.

Фонд модели решают жесткие проблемы. По В рамках «транспортировки соответствующего бита JSON из базы данных в пользовательский интерфейс» модели рассуждений оказываются стабильными, точными и быстрыми. Интеграции сейчас дешевые. Классификация работает. Вы можете добавить бизнес -правила в приложение с естественным языком — «делай это, если это не одна из следующих ситуаций» — и это работает довольно хорошо в первый день.

Как разработчик, восхитительные сюрпризы начинают превосходить ужасающие.

Недавнее выступление влияния от «агентов» к «агентским приложениям» является обнадеживающей коррекцией шумиха. Как я писал ранее, существующие рабочие процессы программного обеспечения являются ближайшей целью для не совсем агента. Мы решили понимание естественного языка невероятно общим образом. Это только сейчас становятся продуктами в рабочих процессах с высокой стоимостью (я оставлю потребительские чат-боты, такие как Chatgpt, на другой день). Предприятия начинаются с доменов, которые легко измерить как доллары (приоритетная группа по продажам, поддержка клиентов, инженерия надежности сайта [SRE]), но в следующем десятилетии он заполняется в таких местах, как рестораны Pizza и розничные склады как небольшие, но полезные улучшения процесса. Пользователям не нужно знать, что там есть модель фундамента. Они просто хотят лучшего программного обеспечения.

Роботы стирают, но только для разработчиков программного обеспечения

Первая волна несколько автономных агентов сегодня работает на ноутбуках для разработчиков. В посте скромно названо «Мои скептические друзья AI — все чокнутые», — пишет инженер -программист Томас Птацек:

«Люди, которые кодируют с LLMS, сегодня используют агенты. Агенты сами застрятся вокруг вашей кодовой базы. Они авторизуют файлы напрямую. Они запускают инструменты. Они компилируют код, запускают тесты и итерации по результатам. Они также: они также:

  • Втянуть произвольный код с дерева или из других деревьев онлайн, в свои контекстные окна,
  • Запустите стандартные инструменты Unix для навигации по дереву и извлечения информации,
  • взаимодействовать с git,
  • Запустите существующие инструменты, такие как Linters, Formatters и модельные шашки, и
  • Сделайте по существу произвольные вызовы инструментов (которые вы настроили) через MCP ».

Мой опыт и различные исследования поддерживают это. Производство билетов, тестирования, репозитории и трубопроводов развертывания представлены в качестве инструментов, часто с протоколом контекста модели (MCP), подключающим их. Боты, подключенные к редактору кода, позволяют разработчикам задавать вопросы, такие как «Hey Tanzu Platform, какая инфраструктура данных одобрена для этого варианта использования?» И получить ответы, которые формируются контекстуально, над тем, над чем они работают.

Это намек на то, как «агентская» организация выглядит для всех работников знаний: не робот с высокой автономией, а управляемая властная броня, обернутая вокруг людей, которые могут начинать быстрее, работать более безопасно и проводить больше времени на трудные (или даже веселые) проблемы.

Тем временем строители продолжают строить. Мой бывший социальный коллега Sprout Кевин Стэнтон сообщает: «Не могу дождаться, когда этот цикл шумиха закончится. Единственный путь — это создание реальных вещей и игнорирование болтовни».

Запустите небольшие тесты. Измерить результаты. Используйте реалистичные данные в реалистичных ограничениях, собирая входные входы вашей модели вручную, если вам нужно или, что еще лучше, используя платформу для быстрого и безопасного оценивания компонентов и оценки компонентов. Вся эта сила не нацелена на то, чтобы произвести впечатление на ваших боссов с помощью прототипов паровой программы или бросить пресс -релиз AI по снижению цены акций, но для создания лучших продуктов. Попробуй что -то. Покажите это клиентам. Слушать.

Хорошо, но как насчет больших преобразующих изменений? Это так. Вы увидите это задним числом.

Недавние десятилетия достигли больших успехов в инфраструктуре; Теперь пришло время создать приложения, которые используют максимальную пользу из этих новых инструментов. Решения VMware Tanzu ускоряют разработку и поставку приложений с помощью оптимизированных путей к производству, автоматизированным операциям платформы и улучшению затрат, производительности и безопасности. Узнайте больше последних из VMware Tanzu Trending Stories YouTube.com/thenewstack Tech, которые движутся быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Jonathan Eyler-Werve запускает продукты в течение 15 лет и работает в области управления продукцией, дизайна и инженерных работ с полным стеком. Он наставляет PMS в середине карьеры и консультирует стартапы и социальные предприятия. В настоящее время он заботится о командах разработки приложений в Broadcom, … Подробнее от Джонатана Эйлера-Вервера

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *