Агенты ИИ должны просмотреть Интернет, но традиционные инструменты автоматизации браузеров слишком хрупкие для работы. Это проблема второго времени, основатель Пол Кляйн IV-это решает с помощью BrowserBase и его сцены с открытым исходным кодом: создание инструмента браузера, который агенты искусственного интеллекта могут эффективно использовать.
«Мне очень нравится думать о том, как я могу помочь в обеспечении будущего программного обеспечения с примитивами, которые способствуют этому программному обеспечению?» Кляйн объяснил в четвертом издании нашего подкаста The New Stack Agents. «Я сделал это в Twilio. Я сделал это в Mux. Теперь с BrowserBase мы делаем это снова, но в гораздо более новой категории, которая является этой идеей агента браузера или браузера, который может контролироваться ИИ».
Безголовный браузер для интеллектуальных агентов ИИ
Традиционные безголовные инструменты браузера, созданные для тестирования, общеизвестно хрупкие. Тесты разрываются, когда кнопка перемещается даже на несколько пикселей. Но агентам ИИ нужно что -то совершенно другое.
«Поскольку разработчики создавали больше программного обеспечения, которое существует в Интернете, больше веб -сайтов и веб -приложений, им нужен был способ протестировать эти приложения», — объяснил Кляйн, когда его спросили об истории безголовного браузера, то есть браузеров без типичного пользовательского интерфейса вокруг них. «Оказывается, это довольно утомительно после того, как отправила функцию, чтобы перейти в вашу новую функцию на веб -сайте и нажимать на все кнопки 100 раз и продолжать делать это каждый раз, когда вы меняете функцию. Поэтому разработчики начинали думать о том, как, хорошо, теперь у нас есть люди, использующие браузеры, но для наших рабочих потоков программного обеспечения, мы должны иметь компьютеры. […] Итак, давайте создадим браузер, который можно контролировать некоторым кодом ».
В некотором смысле, пояснил он, эти инструменты были хрупкими по дизайну, потому что, когда изменение нарушает веб -приложение, разработчик должен знать об этом. STAGHHAND, инструмент с открытым исходным кодом BrowerBase, используйте другой подход. Кляйн отметил, что сцены был построен, чтобы быть более долговечным, чем существующие рамки, потому что он может обрабатывать такие изменения на сайте — и обрабатывать нечеткость подсказок LLM.
«В Старом мире вы можете сказать: нажмите кнопку« Вход ». Это пятая кнопка на странице. Цвет красный. В нем говорится« Войдите », — объяснил Кляйн. «В новом мире вы можете рассказать AI: Эй, я хочу нажать кнопку« Вход ». Вы выясните это для меня. И если кнопка входа в систему меняет цвет, возможно, она меняет положение, возможно, с« входа »в« Войти », вы все равно можете найти кнопку на странице, используя большие языковые модели».
Этот сдвиг раскрывает огромный потенциал, утверждает Кляйн. «В Старом мире, если вы хотите автоматизировать 100 веб -сайтов, вам нужно написать 100 сценариев. В новом мире с ИИ вы можете написать один сценарий, который может управлять сотнями, тысячами или миллионами веб -сайтов».
Создание инфраструктуры браузера для будущего ИИ
«В BrowserBase мы помогаем агентам ИИ взаимодействовать с Интернетом», — сказал Кляйн. «Таким образом, мы предоставляем инструмент браузера, который является важным инструментом, позволяющим ИИ работать от вашего имени. Когда вы думаете обо всей работе, которую мы с вами выполняем каждый день, во многом это происходит в браузере, взаимодействуя с веб -сайтами в Интернете. Поэтому, если мы хотим, чтобы это будущее, где ИИ будет помогать на нашем имени, мы должны дать инструменты, чтобы он уже работал.
Видение Кляйна простирается за пределы простого браузеров умнее. Он видит будущее, где интерфейс между людьми и программным обеспечением в корне изменяется. «Я думаю, что будущее программного обеспечения на самом деле не думаете о браузерах. Вы думаете о более мощных кнопках», — сказал он. «Когда я говорю, отправляю свои налоги, это не даст мне в формате PDF, который я распечатываю. Это просто пойдет на сайт и сделает это для меня».
Но построение этой инфраструктуры не является тривиальным. «Сам браузер не был предназначен для запуска на сервере. Безголовой всегда был как бы взломан», — признался Кляйн. Технические проблемы в создании инструмента браузера для агентов многочисленны, начиная от обработки смайликов и кодеков до управления часовыми поясами и местами в разных распределенных системах.
Что вы делаете, когда вызывает AWS?
Мы записали подкаст в тот же день AWS объявили о своем сервисе AgentCore для управления агентами искусственного интеллекта в производстве и в масштабе. Эта услуга включает в себя инструмент браузера, и, как выясняется, у Кляйн была встреча с AWS в апреле в апреле, чтобы обсудить потенциальное партнерство. В X/Twitter Кляйн был довольно откровенен о том, что он думал об этой встрече. «Мы не волнуемся. У него не хватает всего, что делает BrowserBase отличным», — написал он. «Но три месяца назад AWS устроил нас засаду на« собрание партнерства », чтобы попытаться украсть наши секреты. Мы увидели это прямо», — написал он на X.
Естественно, мы спросили его о нескольких подробностях об этой встрече.
«Я был немного разочарован тем, что увидел некоторое поведение здесь от AWS, но это наравне для курса. Это не незаконно. Знаете, это, конечно, не незаконно пытаться встретиться и спросить меня об их продукте, и, в конце концов, я рассказал им то же самое, что и то же самое, что я говорю вам сейчас: то, что делает BrowserBas Все виды ИИ, чтобы выйти и автоматизировать Интернет ».
Что касается самой встречи, то Кляйн сказал, что напомнила ему сцену в Силиконовой долине шоу «Где пидесики -пипер втягивают на встречу, и внезапно появляется доска, и они просят записать, как работает ваша архитектура».
Вы можете найти полный эпизод в нашем канале подкаста и на YouTube.
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Прежде чем присоединиться к новому стеку в качестве старшего редактора для ИИ, Фредерик был редактором предприятия в TechCrunch, где он освещал все, от роста облака и самых ранних дней Kubernetes до появления квантовых вычислений …. Подробнее от Frederic Lardinois