Эффект маховика LLM: ИИ, который пишет и тестирует документацию

Чтобы помочь члену команды быстро освоить проект, мне пришлось изучить, а затем задокументировать, как настроить среду Mac с использованием Node.js и среды выполнения .NET. Я никогда не использовал .NET на Mac, поэтому первым заказчиком этой документации был я.

Естественно, я обратился к своей команде помощников по искусственному интеллекту, которые в совокупности обладают обширными знаниями по этой теме. Они писали инструкции, я следовал им и сообщал о проблемах, и мы работали над решением.

Затем пенни упал: эти ИИ-помощники могут не только помочь написать инструкции, но также прочитать их и помочь мне воспроизвести. Я решил позвонить этому эффект маховика. Это не происходит автоматически; У меня еще не было такого опыта взаимодействия с ИИ, о котором сообщают другие, но это не моя цель. Я не хочу быть в стороне; Я хочу быть в этом эффективно: запустите маховик, а затем стратегически коснитесь его, чтобы набрать обороты.

Роль сервера MCP в рабочем процессе ИИ

Ключевым фактором реализации этого сценария стал сервер MCP файловой системы, который позволяет таким агентам, как Claude и Cursor, читать и записывать файлы. Эталонная реализация Anthropic предоставляла доступ, необходимый для чтения и записи развивающегося документа. Он не давал доступа для запуска необходимых системных команд, поэтому я был твердо в курсе: копируйте/вставляйте предложенные ими команды, запускайте их, копируйте/вставляйте выходные данные и обсуждайте следующие шаги.

Я не хочу быть в стороне, я хочу быть в нем эффективно: запустите маховик, а затем стратегически коснитесь его, чтобы набрать обороты.

Это сработало прекрасно, учитывая продолжающуюся борьбу за управление конфигурацией MCP в команде помощников. Каждый из них имеет свой собственный файл конфигурации, и хотя сам протокол MCP является стандартным, расположение и формат этих файлов конфигурации не являются стандартными.

В книге «Как LLM ведут нас по счастливому пути настройки и кодирования» я заметил, что конфигурация — это новая трудная проблема, которая затмевает ошибки аннулирования кэша, именования и отклонения на единицу. Вы можете привлечь ИИ-помощников для отладки своих собственных конфигураций, но мне бы хотелось, чтобы людям, которые используют наш собственный сервер MCP, не приходилось этого делать; это шумиха. Есть ли лучший способ справиться с этим? Если да, пожалуйста, дайте мне знать, я весь во внимании.

Вы также можете сделать это более прямым способом, используя Claude Code или Codex. Чтобы протестировать этот подход, я уничтожил установку и попросил Клода Кода прочитать инструкции, выполнить шаги, выполнить все необходимые команды с моего разрешения, оценить результаты и составить окончательный отчет. Все было установлено, внутренний сервер запустился, и внешнее приложение успешно заработало. Вот отчет.

Мы давно представляли себе документацию как первоклассную дисциплину разработки программного обеспечения, но не было ясно, что именно это будет означать. Теперь картина обретает четкость. Помощники ИИ могут помочь нам не только создавать документацию, но и тестировать ее — точно так же, как мы тестируем наш код. Если вам когда-либо приходилось писать воспроизводимую документацию или вас расстраивали инструкции по установке, которые не работают так, как описано, вы оцените силу этого эффекта маховика.

Итерация на сервере MCP с обратной связью от ИИ

Когда я использовал Claude для создания первой версии сервера XMLUI MCP, я был поражен, обнаружив, что, поскольку Claude также был клиентом этого сервера, я мог попросить его проанализировать ответы, полученные от инструментов, предоставляемых сервером MCP, а затем скорректировать код сервера для улучшения этих ответов. Главным приоритетом было привязывание агентов к истине, поэтому мы организовали включение во все ответы страшных предупреждений: не придумывайте синтаксис, используйте и рекомендуйте только методы, подкрепленные документами, которые включают рабочие примеры, всегда цитируйте URL-адреса этих документов.

Архитектура «агент-агент» может появиться в будущем.

Благодаря этому руководству агенты кодирования ведут себя лучше, чем раньше, но они часто по-прежнему игнорируют его и требуют интерактивных напоминаний, чтобы следовать ему. Кричать на них громче не поможет. Корень проблемы в том, что у сервера MCP нет независимого агентства. Он может пытаться влиять на то, как агент выбирает и использует свои инструменты, но в конечном итоге не имеет контроля над этим выбором и использованием. Я предполагаю, что сервер MCP должен стать более похожим на агента, чтобы он мог работать с агентами помощников по кодированию на более равных условиях. Архитектура «агент-агент» может появиться в будущем.

Между тем, когда я нанял свою команду помощников для оценки сервера MCP, все они согласились, что подробные инструкции приводят к пустой трате токенов. Пример отзыва: Блок инструкций «ОБЯЗАТЕЛЬНЫЙ» повторяется и использует ~ 2 тыс. токенов за сбой». Связанная с этим проблема заключалась в том, что результаты поиска могли быть слишком многословными и съедать бюджет токенов.

Я выбрал Киро, чтобы оптимизировать ответы, затем пересобрал сервер и попросил его переоценить примеры запросов, которые выдали громоздкие ответы. Вот что он увидел.

-Сообщения о сбоях теперь краткие: только три пункта вместо более чем 20 «ОБЯЗАТЕЛЬНЫХ» предупреждений (экономит ~1,5 тыс. токенов за сбой).

-Работает усечение результатов: при успешном поиске отображается 20 результатов с сообщением «… X результатов опущено…» (чище, чем старое «использовать JSON для полного списка»)

– Усечение фрагмента: длинные строки обрезаются до 200 символов с помощью «…»

– Затронуты все инструменты: улучшения касаются xmlui_search, xmlui_search_howto и xmlui_examples.

Поскольку это коллективная работа, я попросил Cursor провести такую же оценку. Вот что он заметил:

Проблема. Если результатов нет, код всегда включает напоминания о базовых правилах, которые бесполезны:

«Цитируйте источники с путями к файлам и URL-адресами» (нет источников для цитирования)

«Предоставить URL-адреса из document_urls, если они доступны» (URL-адреса недоступны)

Эти напоминания полезны для успешных поисков, а не для неудач.

Хороший вопрос! Я передал отзыв Киро, он внес предполагаемые изменения, и я проверил их с помощью отзывов всей команды.

Роль человеческого развития в цикле добродетели

Хотя я подозреваю, что зарождающийся протокол взаимодействия между агентами позволит такого рода вещам происходить более автономно, я рад быть координатором и не думаю, что когда-либо захочу полностью отказаться от этой роли.

Мне вспоминается старая поговорка о том, как построить самолет, пока ты на нем летаешь. В этом случае, что странно и удивительно, пилот, который чувствует проблемы, одновременно является и механиком, который их устраняет. Кто я в этом сценарии? Если использовать эту метафору, то я думаю, что я менеджер авиакомпании, который ставит цели, формирует команды, запускает маховик и включает его в нужное время и правильными способами, чтобы ускорить благотворный цикл улучшений.

Наша цель в Tabnine — создать и реализовать полный рабочий процесс разработки с использованием искусственного интеллекта, который расширяет возможности всех создателей кода на всех языках, от концепции до завершения. Узнайте больше Последние новости от Tabnine ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Джон Уделл — автор и разработчик программного обеспечения, который исследует программные инструменты и технологии и объясняет их в письменной форме, аудио и видео. Он является автором культовой классической книги «Practical Internet Groupware». Прошлые выступления включают Lotus, журнал BYTE, Safari… Подробнее от Джона Уделла.

Разработка сайтов в Гомеле

Добавить комментарий Отменить ответ

Похожие записи

Новый анализ искусственного директора бывшего генерального директора Intel фокусируется на процветании человека

Используйте эту новую технику управления контекстом, чтобы справиться с разочарованием ИИ

Новая внутренняя платформа Developer от Pulumi ускоряет доставку облачной инфраструктуры

Переосмысление DevSecops: безопасность программного обеспечения для безопасности программного обеспечения

JavaScript Framework Reality Проверка реальности: что на самом деле работает

Агент ИИ: Следующая граница власти ИИ

Руководство Google по веб-ИИ: асфальтированная дорога против открытого поля

Чтобы графические процессоры работали как часы

Библиотека JavaScript запускает модели машинного обучения в браузере

Закон о кибер -устойчивости: страх, путаница — и заверение

Агентное кодирование и слабость расширений для IDE

Как добиться производительности графического процессора «голого железа» в конфиденциальных виртуальных машинах

Вам тоже может быть интересно:

TechCrunch Disprupe 2025: Защитите свой билет по самым низким тарифам в этом году

Junction, API, чтобы связать здоровье носимых продуктов с лабораториями, приносит 18 миллионов долларов США.

Тесла доходы Q1 2025: что мы смотрим

Генеральный директор Openai Сэм Альтман называет предложение Маска «замедлить нас»

SpaceX, как сообщается, имеет секретный бэкдор для китайских инвестиций

Waymo был защелкнут почти 600 парковочных билетов в прошлом году только в SF

От Боготы до поля битвы: стартапы Latam выигрывают большие в TechCrunch Startupfield Battlefield

TechCrunch All Stage открывает мощную повестку дня для основателей

DuckDuckgo наклоняется в Genai, поскольку его интерфейс чата ИИ выходит из бета -версии

TechCrunch Mobility: Tesla получает удар, начинается тарифный хаос, и один стартап EV поражает веху

Spotify, Warner Music Group Sign New Deal, чтобы помочь предоставить «дальнейшие платные уровни подписки»

Tiktok Sunssetshess своего рынка создателей для Tiktok One, более широкое решение с инструментами искусственного интеллекта