Как WebMCP позволяет разработчикам контролировать агенты ИИ с помощью JavaScript

В этом году MCP (протокол контекста модели) стал клеем, который соединяет ИИ с Интернетом. Следуя MCP-UI и NLWEB, у нас теперь есть еще один новый Open Standard, связанный с MCP: WebMCP, инициатива Microsoft и Google.

Чтобы узнать больше о WebMCP, я провел интервью с Kyle PFLUG, групповым менеджером продуктов для веб -платформы на Microsoft Edge.

Что такое webmcp?

Впервые я услышал о WebMCP от коллеги PFLUG Патрика Броссет, который представил WebMCP в сообщении в блоге как «предложение, чтобы позволить вам, веб -разработчикам, контролировать, как агенты искусственного интеллекта взаимодействуют с вашими веб -страницами». Далее он объяснил, что WebMCP представляет собой набор функций JavaScript: «Web MCP позволяет вам перечислить действия (называемые« инструменты »), которые агент ИИ может выполнять на странице, поскольку функции JavaScript, зарегистрированные через API браузера».

По сути, это похоже на настройку сервера MCP для вашего веб-сайта или приложения, за исключением того, что функциональность WebMCP дает клиентская сторона, а не с сервера. Как говорит Readme проекта: «Веб-страницы, которые используют WebMCP, можно рассматривать как серверы протокола контекста модели (MCP), которые реализуют инструменты в сценарии на стороне клиента, а не на бэкэнд».

«MCP предоставил естественную отправную точку, но требует новых инструментов платформы для охвата сценариев просмотра агента человека в петле…»
— Kyle Pflug, Group Product Manager, Microsoft Edge

Я спросил PFLUG, что было вдохновением для проекта.

«Поскольку помощники искусственного интеллекта из многих поставщиков все чаще преследуют« агентные »варианты использования, которые предпринимают действия на веб -страницах, мы видели, как веб -разработчики могут быть в состоянии партнерства с этими агентами и облегчить их взаимодействие с страницами более намеренно», — ответил он. «MCP предоставил естественную отправную точку, но требует новых инструментов платформ для охвата агентских сценариев просмотра человека в петле, в которые мы все чаще видим инвестиции в браузер и агентов».

Участие W3C и второй протокол WebMCP

Проект на GitHub указан как подгруппа рабочей группы W3C Web Machine Learning. Итак, откуда возникла идея, в пределах W3C или она была принесена им после факта Microsoft и/или Google?

«Как и многие предложения, WebMCP начинал как набор независимых объяснений по всему сообществу», — ответил PFLUG. «Microsoft предложила« контекст веб -модели »в нашем публичном хранилище Microsoft Edge Deprositors, и команда Chrome имело очень похожее предложение для« инструментов сценариев ». После ранних обсуждений с командой Chrome и рабочей группой W3C WebML мы согласились продвинуться вперед с одним объединенным предложением WebMCP в W3C».

Стоит отметить, что существует еще один связанный протокол, предшествующий проекту W3C, который также использует имя WebMCP. Он был создан независимо Алексом Нахасом-его проект называется MCP-B, но основной протокол называется WebMCP.

По сути, MCP-B-это расширение Chrome. Протокол Nahas WebMCP звучит очень похоже на тот, который предлагается Microsoft и Google. Но после контакта с NAHAS он подтвердил, что сейчас работает с новой группой WEBMCP, связанной с W3C, и намерен поддержать их версию WebMCP.

«… Варианты использования и технологии между такими идеями, как MCP-B, инструменты сценариев и контекст веб-модели помогают подтвердить необходимость в таких возможностях в Интернете».
— плуг

PFLUG подтвердил, что Nahas присоединился к их группе.

«Общественные проекты, такие как MCP-B, являются неотъемлемой частью разработки веб-стандартов, а команда MCP-B активно участвует в дискуссиях WebML WG,-сказал он,-и совпадения в использовании и технологиях между такими идеями, как MCP-B, инструменты сценария и контекст веб-модели помогают подтвердить необходимость в таких возможностях в Интернете».

PFLUG добавил, что с WebMCP «мы предлагаем, чтобы эти возможности были« встроены »в браузер, не требуя расширений, что важно для широкого распространения в Интернете».

Сайт или браузер сервером MCP?

В своем первоначальном сообщении в блоге Броссет писал, что идея «сделать браузер и сервером MCP». Но как эта функция будет работать для пользователя браузера — например, должен ли сервер MCP быть привязанным к профилю браузера пользователя?

«Основная концепция состоит в том, чтобы позволить веб -разработчикам определять« инструменты »для своего веб -сайта в JavaScript, аналогично инструментам, которые будут предоставлены традиционным сервером MCP», — ответил PFLUG. «Вы можете себе представить, что они подвергаются воздействию агентов в браузере или операционной системе хоста, или даже для первых агентов, размещенных на одном и том же сайте. Наше предложение в первую очередь сосредоточено на том, чтобы разработчики определяли эти инструменты. Как это будет реализовано конкретными пользовательскими агентами и подвергается воздействию помощников ИИ, вероятно, будет различаться по браузерам и не будет указано по текущим предложениям».

«Наше предложение позволяет веб -страницам разоблачить инструменты MCP агентам, аналогично инструментам, выявленным традиционным сервером MCP, но не требуя отдельного компонента сервера».
— плуг

Так это браузер, который является сервером MCP (как написал Броссет) или веб -сайт? Или оба? В проекте GitHub говорится, что это веб -страница: «Веб -страницы, которые используют WebMCP, можно рассматривать как серверы протокола контекста модели (MCP)».

«Терминология MCP может быть немного запутанной здесь», — сказал PFLUG. «Наше предложение позволяет веб-страницам разоблачить инструменты MCP для агентов, аналогично инструментам, выявленным традиционным сервером MCP, но не требуя отдельного компонента сервера. В дополнение к упрощению реализации и разрешению повторного использования кода, это естественно подходит для сценариев человека в сценарии, поскольку оно работает в контексте просмотра и может упрощать такие вещи и авто, которые могут быть сложными в более традиционных, связанных с просмотрами.

Он добавил, что группа ожидает, что «некоторые сайты могут использовать как WebMCP, так и серверы MCP», потому что они служат разным сценариям. «Традиционные серверы MCP отлично подходят для контекста просмотра или когда агент будет в основном взаимодействовать с облачными конечными точками».

Понимание участия поставщика агента ИИ

Таким образом, для работы WebMCP необходимо ли добавить какую -либо функциональность агента AI (OpenAI, Anpropic и др.

«Наше намерение состоит в том, чтобы любой агент, который может вызвать инструменты MCP, сможет использовать инструменты WebMCP, подвергнутые сайтам», — ответил PFLUG. «WebMCP не является самоуверенными в отношении того, как пользовательские агенты или операционные системы могут подвергать эти инструменты эти инструменты, но мы намерены заключаться в том, что это может быть реализовано любым браузером для использования с любым комбинацией встроенных или сторонних агентов, в дополнение к собственному использованию разработчика (например, агента на странице)».

«Наше намерение состоит в том, что любой агент, который может вызвать инструменты MCP, сможет использовать инструменты WebMCP, выявленные сайтами».
— плуг

Поскольку WebMCP является API JavaScript, я подумал, напоминает ли он какой -либо из существующих веб —API?

«Сегодня мы не знаем о каких -либо непосредственно сопоставимых веб —API», — сказал PFLUG. «Несмотря на то, что сегодня веб-разработчики можно писать инструменты в JavaScript, нет стандартизированного подхода, что означает, что агенты искусственного интеллекта должны будут создавать специфичные для веб-сайта реализации для взаимодействия с сайтом. WebMCP предлагает стандартизированный подход для Интернета, чтобы агенты могли надежно вызовать инструменты вызовов, предоставляемые разработчиками».

WebMCP против NLWEB: Какой протокол вы должны использовать?

Как упомянуто выше, в этом году было несколько новых открытых стандартов, которые используют MCP для подключения LLM в Интернет. NLWEB, похоже, является наиболее близким к WEBMCP, по крайней мере, в том, что они оба протокола для использования с веб-сайтом или веб-приложением (MCP-UI специально для использования в агентах ИИ). Кроме того, Microsoft активно участвует в WebMCP и NLWEB.

Пытаясь понять, насколько широко можно использовать WebMCP в Интернете, я спросил PFLUG, будет ли контент -сайт (например, для медиа), будет более вероятно использовать WebMCP или NLWEB?

«Это действительно зависит от того, что пытается сделать сайт», — ответил он. «В зависимости от опыта разговора, который вы хотите включить, вы можете выбрать один, другой или оба. NLWEB-это структура полного стека, которая помогает вам переосмыслить ваш сайт с помощью разговорного интерфейса и включает в себя возможности MCP Server, структурированный поиск, на основе схемы заземления и т. Д. WebMCP предлагает легкое усовершенствование на стороне клиента, которые стандартизируют веб-сайты, которые ставят веб-сайты Javascript Intools в Agent in the Agent in the Agent.

WebMCP «может быть особенно подходит для очень интерактивных впечатлений».
— плуг

Он добавил, что WebMCP «может быть особенно подходит для очень интерактивных переживаний, где агенты, наивно подходящие для навигации, сложный или многоэтапный пользовательский интерфейс, могут быть менее эффективными или более хрупкими». Принимая во внимание, что необходимость «может быть менее ясной для контента -сайта, который не пытается активно облегчить агентские взаимодействия».

Тем не менее, PFLUG также может представить собой случаи «когда сайт может, например, использовать WebMCP, чтобы агенты могли более эффективно ориентироваться в потоке подписки».

Будущее WebMCP и следующие шаги

Наконец, я спросил, какой основной приоритет для проекта WebMCP на оставшуюся часть 2025 года?

«Мы находимся на ранних стадиях дизайна и сосредоточимся на более глубоких разговорах с веб -разработчиками, чтобы раскрыть наше понимание их вариантов использования для WebMCP и итерации на основе обсуждений сообщества и обратной связи», — ответил PFLUG.

Он сказал, что они заинтересованы в том, чтобы услышать от разработчиков и издателей не только технического дизайна, но и с точки зрения инструментов, проблем с бизнес -моделью и других факторов, которые могут потребовать решения в WEBMCP — или на других подходах платформы, как агенты просматривают и предпринимают действия на веб -сайтах ».

Цель группы состоит в том, чтобы работать на ранний предварительный просмотр разработчика в Chromium, чтобы разработчики могли попробовать это и предоставить обратную связь.

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Ричард Макманус — старший редактор нового стека и пишет о тенденциях разработки веб -и приложений. Ранее он основал ReadWriteWeb в 2003 году и встроил его в один из самых влиятельных технологических новостей в мире. С самого раннего … Подробнее от Ричарда Макмануса

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *