«Каждому агенту искусственного интеллекта нужен веб -браузер», — сказал Пол Кляйн IV, генеральный директор BrowerBase BrowserBase BrowerBase BrowerBase в этом месяце.
Что такое безголовный браузер? Проще говоря, это веб -браузер без графического пользовательского интерфейса. До недавнего времени они использовались в основном для запуска автоматизированных тестов веб -приложений, а также для сетевого скребки и снижения экрана. За эти годы появились три проекта с открытым исходным кодом для выполнения этих типов задач: кукольник, драматург и селен. Playwright — самый новый — он был запущен Microsoft в январе 2020 года — а также самым популярным.
На самом деле только за последний год для браузеров появился другой, совершенно новый, появился вариант использования. Внезапно они стали ключевым компонентом того, что некоторые, включая Microsoft и Browser Company Opera, называют «агентской сети».
Агенты искусственного интеллекта, которые являются автономными программными приложениями, обычно получают задачу в том, чтобы выйти в Интернет и собирать информацию, которая затем доставлена либо пользователю, либо действие предпринимается на основе этой информации (например, покупка предмета на сайте электронной коммерции). Оказывается, браузеры без головы являются идеальной инфраструктурой для этих агентов искусственного интеллекта.
«Если мы хотим, чтобы агенты ИИ взаимодействовали с остальной частью устаревшего Интернета, им нужен мост. И я действительно верю, что браузер — это мост».
— Пол Кляйн IV, генеральный директор Browserbase
Browserbase сильно разобралась, чтобы воспользоваться этим новым рынком. Когда компания была запущена в январе 2024 года, она рекламировала себя как инфраструктурная компания браузера. Его главным предложением было управляемое сервис для кукловода, драматурга и селена. Теперь, всего восемнадцать месяцев спустя, Browserbase описывает себя как «веб -браузер для вашего искусственного интеллекта».
Ранее в этом месяце Browserbase объявил о масштабном раунде финансирования серии B 40 миллионов долларов, что указывает на то, что браузеры без головы теперь являются крупным бизнесом. В этом сообщении Кляйн сделал это наблюдение: «Будущее просмотра-это селективная автоматизация. Люди все равно будут выполнять радостные, основанные на открытиях задачи. Но повторяющиеся, трудоемкие работы должны выполняться с помощью программного обеспечения. Это то, для чего мы строим».
Как безголовые браузеры используются в агентах ИИ
В своей справедливой презентации инженеров -инженера ИИ Кляйн подчеркнул, что выполнение этой автоматизированной работы браузера в масштабе является ключом к его ценностному предложению. «С BrowserBase мы позволили вам управлять 1000 -х без головных браузеров в облаке, чтобы агенты контролировали», — сказал он.
В этом году BrowserBase также забросила еще одну огромную тенденцию: серверы MCP. По словам Klein, Browserbase имеет «самый популярный сервер MCP Automation Browser».
Browserbase MCP Server.
Он добавил, что одна из причин, по которой разработчики выбирают MCP -сервер BrowserBase, заключается в том, что в «Непросновном Интернете» (его термине) есть тысячи вариантов использования. Таким образом, использование безголового браузера со встроенным сервером MCP — как это делает BrowerBase — является эффективным решением.
«У вас есть агенты ИИ и устаревший интернет», — объяснил Кляйн. «Вы знаете, DMV не будет иметь сервер MCP в ближайшее время. Моя парикмахерская не собирается открывать API GraphQL для меня, чтобы запланировать стрижку, так же, как я продолжаю просить Джона [presumably his barber] сделать это. У него есть лучшее дело. Итак, если мы хотим, чтобы агенты ИИ взаимодействовали с остальной частью устаревшего Интернета, им нужен мост. И я действительно верю, что браузер — это мост между ИИ и остальной частью Интернета ».
Он отметил, что многие организации в «устаревшем Интернете» не обязательно имеют MCP -сервер, но у них, вероятно, есть веб -сайт. (Эд: Если у них просто нет страницы в Facebook!)
«Я думаю, что люди используют много сокращений в наши дни», — продолжил Кляйн. «Вы знаете, у вас есть MCP, у вас есть A2A, у вас есть OpenAPI. Но если они недоступны, вы можете просто сделать то, что можно считать тупой вещью: вы просто используете веб-сайт. И веб-сайты там, их есть много. У вас есть миллиарды веб-сайтов. И когда ваш пользователь собирается предложить вашему агенту сделать что-то, у вас не всегда есть интеграция с первым лицом».
«Просто используйте сайт».
Если верить в AI-ориентированные компании, такие как BrowserBase, именно агенты ИИ будут все чаще посещать ваш бизнес-веб-сайт, что подразумевает, что посещения человеческих веб-сайтов будут соответствующим образом сокращаться. Но как именно эти агенты получают правильную информацию для своих пользователей?
Кляйн рассмотрел различные типы агентов ИИ, доступных в настоящее время, и то, как они контролируют браузеры. Он начал с продуктов, которые пионеровали веб -агентами за последний год или около того, включая Webvoyager, Adept и Openai. Он охарактеризовал их подход как: «Возьмите модель, а затем пусть он генерирует некоторый код для управления браузером, обычно анализируя DOM на странице, HTML и CSS».
Что такое веб -агент?
Там, где мы сейчас находимся, он продолжил, что есть два основных типа веб -агентов.
Веб -агенты Vision, как правило, используют безголостные браузеры, чтобы сделать снимок экрана «как контекст для модели», и они «могут сделать некоторую маркировку экрана, чтобы указать, на какую коробку нажимают», — сказал Кляйн.
Текстовые веб -агенты «преимущественно используют HTML в качестве контекста модели» — Playwright является популярным инструментом в этом подходе.
Два типа агентов.
Между прочим, у BrowserBase есть рамка с открытым исходным кодом для драматурга под названием StageHand — доступен для Python и Node.js. В недавнем интервью подкаста с Брайаном Дугласом Кляйн сказал, что StageHand — это «суперсет драматурга» и что он добавляет «больше функциональности ИИ на вершине драматурга».
StageHand является ключом к амбициям Browserbase с агентами искусственного интеллекта. В другом интервью подкаста, на этот раз с скрытым пространством, Кляйн назвал «Стандарт» как «структуру для создания веб -агентов» с тремя «инструментами API», которые разработчики могут позвонить: ACT, извлекать и наблюдать.
Вернувшись на ярмарку ИИ Инженерного инженера World, Кляйн сказал, что «компьютерные» модели являются новым типом веб-агента. Как следует из названия, это когда модель ИИ обучается задачам пользовательского интерфейса и «веб -траекториях» (своего рода рабочего процесса для агента искусственного интеллекта, когда он просматривает веб -сайт).
Веб -траектории.
Заключение
Кляйн отметил, что в настоящее время есть «много инноваций […] Происходит на обучении ИИ, как просматривать Интернет — и этот материал становится хорошо ». Конечно, если агенты ИИ должны соответствовать своей ажиотаже, то возможность эффективно просматривать веб -сайты автономно будет иметь решающее значение.
Вы можете утверждать, хорошо ли для веб -издателей это хорошо просмотр их агентов ИИ, а не людьми (это большая проблема). Но трудно спорить с инфраструктурой браузера, являющейся важной частью стека разработчиков ИИ, движущейся вперед. Browserbase кажется идеально расположенной для этого рынка.
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Ричард Макманус — старший редактор нового стека и пишет о тенденциях разработки веб -и приложений. Ранее он основал ReadWriteWeb в 2003 году и встроил его в один из самых влиятельных технологических новостей в мире. С самого раннего … Подробнее от Ричарда Макмануса