Что такое семантическое кэширование?

Запросы API поставщикам ИИ могут получить довольно счет. Аналитики Barclay обнаружили, что единственная подсказка на модель Ope O3 привела к плате в размере 3500 долларов сша, что потребовало 1000 токенов, чем ее предшественница, по словам Business Insider.

Большинство разработчиков знают, что такое кэширование. Но семантическое кэширование — это новая вещь для ИИ. Он станет более актуальным, поскольку затраты на искусственное интеллект обостряются, и разработчики ищут более изящные проекты, чтобы избежать пингирования серверов ИИ снова и снова для избыточных запросов.

«Все будут смотреть на свою структуру затрат на ИИ, задержку и производительность», — сказал новый стек Рэнди Реддиг, вице -президент по технологическим исследованиям и инкубации в Fastly. «Openai даже рекомендует вам выполнить какое -то кэширование на их выходе».

Преимущества ясны: исследование 2024 года показало, что кэширование семантического встраивания может значительно снизить задержку и уменьшить вызовы API до 68,8% в различных категориях запросов.

Но что такое семантическое кэширование, и как вы его реализуете? Ниже мы рассмотрим семантическое кэширование в контексте крупных языковых моделей (LLMS) и API, его преимуществ и возможных недостатков, а также того, как оно вписывается в более широкие методы развития искусственного интеллекта.

Семантическое кэширование основывается на стандартном кэшировании

Кэширование — это процесс хранения часто обратной информации, чтобы избежать медленной загрузки, сокращения запросов сервера и улучшения пользовательского опыта. Кэширование на стороне сервера и браузера является фундаментальными стратегиями при разработке веб-приложений и API.

Семантическое кэширование и ваше типичное веб -кэширование довольно похожи. Оба доступа к сохраненным данным для уменьшения ненужных вызовов. Что отличается, так это то, что семантические кэширующие магазины и извлекают подсказки и ответы на серверы искусственного интеллекта, такие как LLM от Openai, Google Gemini, Anpropic и других.

Как работает семантическое кэширование:

  • Пользователь отправляет чат в AI-агент на основе LLM.
  • Слой перехватывает запрос и выполняет семантический анализ, чтобы определить, соответствует ли запрос любые ранее сделанные подсказки.
  • Если система находит подходящую подсказку, она быстро возвращает кэшированный ответ.
  • Если аналогичная подсказка не существует, он пробуждает запрос на сервер AI для обработки.
  • В то время как поколение поиска (RAG) дополняет запросы LLM с доступом к внешним данным, семантическое кэширование является уникальным тем, что он вообще избегает дальнейших поисков, вытягивая из базы данных, которая может быть локальной или извне хранится.

    Согласно Fastly’s Reddig, семантическое кэширование не сильно отличается от того, как уже работает сеть доставки контента (CDN) или шлюз. Секретный соус находится в двигателе, который определяет семантическую сходство.

    «Многие запросы сформулированы немного по -разному, но их ответы должны быть относительно одинаковыми», — говорит Fastly’s Reddig. Например, по его словам, разные пользователи часто представляют аналогичные запросы, такие как сравнение типов кофе или просить лучших рекомендаций для хорошего автомобиля для семьи из четырех человек.

    В случае Fostly его акселератор ИИ анализирует новые запросы и сравнивает каждый с обширной векторной базой данных Fastly, размещенных в его распределенной сети с низкой задержкой. Затем он возвращает ответы с высоким уровнем доверия к аналогичным запросам, которые будут отправлены в клиентскую заявку. Непревзойденные запросы отправляются в API LLM.

    Другие платформы также решают кэширование ИИ. Например, Redis, хранилище данных в памяти и системе кэширования, недавно запустили Langcache для кэширования ответов LLM, и новый тип данных для хранения и запроса векторных встраиваний.

    Результаты: более низкая стоимость и лучшая производительность

    На сегодняшний день ИИ требует огромных объемов обработки на основе графических процессоров. По данным McKinsey & Company, ИИ может утроить глобальный спрос на пропускной способности центра обработки данных к 2030 году.

    Reddig объяснил высокие затраты неэффективным взаимодействиям с моделями ИИ. Когда LLM обрабатывает подсказку, он должен токенизировать запрос, наряду с другим контекстом, таким как подсказки проекта, файлы и данные, полученные из RAG, и отправить его в LLM для синтеза и генерации ответа. Последующие запросы затем используют этот контекст в памяти и решают его с каждым запросом.

    «Совокупная стоимость подсказки связана с количеством токенов, и обработка тех, кто последовательно снова и снова в конечном итоге потребляет», — сказал Реддиг. «Для очень длинного запроса или короткого запроса с тонной контекстом, это будет более дорогой запрос для обработки с точки зрения стоимости, процессора, власти и времени».

    Семантическое кэширование может избежать инициировать новые вызовы LLM на сервер AI, избегая тяжелых требований процессора. Призывая к более локальным данным, вы можете избежать долгих времен ожидания и сократить звонки в оба конца, улучшая пропускную способность.

    Согласно тестам Fastly, настройки семантического кэша приводят к более быстрому времени отклика сервера в 9x по сравнению с вызовами Direct Openai Server. Компания заявляет, что это также низкоэффективная миграция, требующая только того, чтобы разработчики приложений указывали на новую конечную точку на вызовы API Reroute.

    Семантическое кэширование: хорошо для агентов ИИ

    Семантическое кэширование — это новая зона, и точные варианты использования все еще исключены. Тем не менее, он работает лучше всего в использовании, которые являются разговорными или на основе быстрого.

    «Ввод естественного языка, который производит естественный язык, является отличным вариантом использования», — сказал Реддиг. Хотя тот же процесс может поддерживать другие типы контента, такие как видео и изображение, добавил он.

    Семантическое кэширование также показывает обещание в ультраспецифических доменах. «Если семантическое пространство узкое, и вы видите много общих вопросов или подсказок, вот где это может быть очень подходящим», — сказал он.

    Эти факторы подходят для запросов для пользовательских агентов искусственного интеллекта в определенных контекстах, таких как розничная торговля, обслуживание клиентов или онлайн-покупки. В этом контексте ответы в реальном времени имеют значение для качества обслуживания клиентов, что повышает потребность в качественной производительности.

    Отзывчивость также жизненно важна для агентов, работающих в контекстах предприятия. «Агенты имеют огромную зависимость от качественных данных, поэтому они могут действовать от точной, своевременной и контекстной релевантной информации», — заявил The New Stack Арчана Каннан, старший вице -президент Slack Product в Salesforce Archana Kannan. «Правильные данные и контекст являются основой для агентов, чтобы обеспечить реальную ценность для сотрудников и организаций».

    Другие повторяют, что быстрый, надежный доступ к данным является основополагающим для агента. «Агент AI требует лучшей интеграции контекста, более быстрых петлей обратной связи и масштабируемой оркестровки»,-сказал Andre Zayarni, соучредитель и генеральный директор Qdrant, векторной базы данных компании. «Агенты искусственного интеллекта попадают в узкие места, когда поиск медленных или контекста обновления за отставание за потребностями в реальном времени».

    Заярни рассматривает семантическое кэширование как тактику, чтобы уменьшить избыточные поиски: «Если аналогичный запрос уже ответил, повторно используйте его вместо пересчитывания».

    Часть более широкой стратегии оптимизации

    Дальнейшие инновации все еще должны происходить вокруг семантического кэширования. По словам Реддига, кто -то — совершенствовать модель, чтобы избежать ошибочного соединения семантически похожих подсказок. Хотя, добавил он, есть способы смягчить это с помощью быстрой инженерии и других гарантий.

    Увеличение семантического кэширования — это всего лишь один кусок головоломки — он только не решает проблемы галлюцинации и другие неэффективность. Таким образом, для оптимизации агентского ИИ потребуется город (из опытных стратегий).

    «Ключевые достижения включают в себя индексное здание с ускорением GPU для проглатывания векторов в реальном времени, семантическое кэширование, чтобы уменьшить избыточные поиски и гибридные модели поиска, которые смешивают плотные векторы, редкие термины и фильтры метаданных»,-сказал Засарни. Он также упомянул об использовании многоагентной системы для делегирования определенных обязанностей различным агентам.

    Другие согласны с тем, что для оптимизации агентского ИИ необходимы успехи в обработке данных и многоагентных подходах. «Наиболее важные достижения будут сосредоточены на улучшении интеграции данных, управления метаданными и многоагентных сотрудничества», — сказал Каннан из Salesforce.

    «Принятие многоагентического подхода может значительно улучшить оптимизацию», — добавила она. «Команды специализированных окружающих агентов могут сотрудничать за кулисами, автономно обрабатывать сложные рабочие процессы, интегрировать разрозненные системы и оптимизировать многоэтапные процессы».

    Возможно, многоагентные архитектуры очень дополняют семантическое кэширование, поскольку специальный агент может просмотреть пользовательские запросы для определения семантически похожих запросов и передавать более глубокие элементы другим агентам для обработки. Эта передача может даже вести себя в рамках интрасветной семантической сегментации, как при разрушении частей запроса пользователя и маршрутизации их отдельно.

    Наконец, существует аргумент, что LLMS станет дешевле с будущими модельными достижениями и эффективностью графических процессоров, что уменьшит необходимость экономии эффективности. Но по мере того, как затраты на законодательство Мура плато и вывод поднимаются, семантическое кэширование становится полезным методом сокращения избыточности.

    Семантическое кэширование меняет игру

    Подобно тому, как CDN стали стандартной практикой для оптимизации веб -производительности, Reddig предсказал, что кэширование слоев между клиентом и API LLM станут дефолтом для разработки новых ИИ.

    На сегодняшний день высокие вычислительные требования запрещают компаниям с небольшими и средними компаниями конкурировать на уровне игрового поля. Но он надеется, что семантическое кэширование сделает разработку ИИ более дешевым, демократизирующий доступ таким же образом, как TSMC когда -то сделал для дизайнеров чипов путем обращения с дорогостоящим производством.

    Поскольку прошлые прорывы понизили планку, семантическое кэширование может иметь сходные волновые эффекты для развивающихся рынков. Как сказал Реддиг, «использование, которое не было возможно при ранее существовавшей структуре затрат, теперь становится более возможным».

    Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Билл Доеррфельд — технический журналист и лидер API. Он является главным редактором блога Nordic APIS, глобального сообщества API, посвященного тому, чтобы сделать мир более программируемым. Он также является активным участником горстки … Подробнее о Билле Доерфельде

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *