Как Canva сохраняет свои изображения метаданные свежими

До 2020 года слово «Cottagecore» почти не существовало. Но ковидовая пандемия стимулировала многих людей, чтобы сделать свои дома намного более удобными, и, как правило, романтизируя более простую, более деревенскую жизнь. Термин процветал в Интернете, создавая изображения корзин для пикника с сушеными цветами, чугунные печи, миски, полные фруктов и тому подобного.

Для менеджеров Canva, платформы графического дизайна, не отставая от таких лингвистических тенденций, необходима для обслуживания своей пользовательской базы. Тенденции порождают бизнес, и предприятиям необходимо продвижение по службе. И как только появится новый термин, такой как Cottagecore, графические дизайнеры, маркетинговые люди и миллионы других ежемесячных пользователей будут стремиться к Canva для идеального изображения, чтобы украсить свои сети, маркетинговые и рекламные материалы.

Итак, как Canva определит, какие изображения вписываются в новую категорию, такую ​​как Cottagecore? Он управляет библиотекой с более чем 40 миллиардами изображений — либо из Stock Photo Services, либо обменивается его пользователями — и в каждый день он принимает от 50 до 100 миллионов новых изображений.

Очевидно, что отмечать их изображения вручную не масштабируется.

«Нам нужна точная маркировка в реальном времени в масштабе»,-объяснил Керри Халупка, инженер-инженер по машинному обучению CANVA, во время разговора, посвященного Scylladb Scale Monster Sampe Summit 2025, который проходил практически на прошлой неделе.

И эта система классификации может быть хитрой, чем можно представить.

За буквальным

Сделайте, например, фотографию отца, все еще в его деловом костюме, играя с тем, что кажется его маленьким сыном в гостиной, с детскими игрушками, разбросанными по полу.

Услуги изображения в тексте могут легко идентифицировать все объекты на фотографии. Но фотография также можно определить в более абстрактных категориях, таких как «баланс между работой и личной жизнью» или «связывание отца-сына» или даже, по иронии судьбы, «профессиональный родитель».

Задача заключается в том, что ни одна из этих концепций не может быть идентифицирована в самой фотографии.

«Речь идет не только о выявлении объектов, но и о понимании контекста и значения», — сказал Халупка.

И эти термины не статичны. Новые концепции всплывают каждый день. И это проблема, с которой любая отрасль, а не только графический дизайн, сталкивается при попытке использовать ИИ для любой классификационной работы.

«Концепции, которые важны для пользователей, не статичны», — объяснил Халупка. «Это движущаяся цель, когда каждый день появляются новые тенденции. Поэтому нам нужна была модель, которая могла бы обрабатывать тысячи ярлыков и легко расширяться до еще тысячи, чтобы захватить эти более глубокие концепции.

«Наша цель состоит в том, чтобы подтолкнуть машины за пределы выявления простых объектов и ближе к нюансальному пониманию человека», — сказал Халупка.

И, учитывая размер банка изображений Canva, система классификации должна быть быстро. Чрезмерно сложные модели были бы слишком дорогими для поддержания. И это должно было быть быстро, поэтому он мог приобрести новые тенденции, поскольку сами пользователи заботятся о них.

«Система экстремальной классификации»

Чтобы достичь этих целей, команда выглядела вне типичных архитектур трансформатора машинного обучения. По словам Халупки, традиционная классификационная архитектура «хуже линейно», с количеством ярлыков для классификации.

Вместо этого он приземлился на архитектуре ML-Decoder, которая возникла из Алибабы и Академии Дамо. Группа разработчиков обнаружила, что ML-декодер масштабирует «лучше линейно» с количеством концепций, введенных в систему, объяснил Халупка.

«ML-декодер предсказывает существование меток классов посредством запросов и обеспечивает лучшее использование пространственных данных по сравнению со средним глобальным пулом. Из-за перепроектирования архитектуры декодера и использования новой группы по декодированию группы ML-декодер является высокоэффективным и может хорошо масштабироваться до тысячи классов»,-объясняют оригинальные ML-Decoder.

Интерактивный трубопровод маркировки данных

Обучение до совершенно нового термина, такого как Cottagecore, требовалась обучающие образцы, и предпочтительно без маркировки тысяч изображений вручную заранее.

Таким образом, компания создала интерактивный трубопровод маркировки данных для определения новых концепций. После того, как новая концепция будет идентифицировать («Cottagecore»), трубопровод находит изображения, которые близки совпадают, используя комбинацию текстового и основанного на изображении поиска на небольшом учебном наборе. Затем весь банк изображений проверяется. Во многих случаях ранее немеченые изображения будут помечены новым термином. А в других случаях уже меченные изображения также будут подходить для нового термина.

«Это цикл обратной связи. Каждая новая концепция расширяет нашу способность более точно классифицировать изображения с течением времени», — объяснил Керри Халупка.

Чтобы помочь контекстуализировать один поисковый термин, Canva использует большую языковую модель для создания более многословных описаний из одной фразы.

‘Cottagecore », например, может появиться:

  • «Уютная фермерская кухня»
  • «Молодая женщина с полевыми цветами»
  • «Пикник в лесу»

Несмотря на то, что они менее очевидны, это все виды изображений, которые можно ожидать с лейблом «Коттейгекер», сказал Халупка.

Чтобы найти изображения, которые соответствуют этим более многословным описаниям, Canva использует CLIP (контрастный языковой предварительный подготовку), нейронной сети на основе Python, обученной поиску сопов с изображением/текстами в общем пространстве.

«Поскольку Clip понимает концепции более естественно, чем традиционное сопоставление ключевых слов, он может найти примеры, даже если они явно не помечены», — объяснил Халупка.

Таким образом, такая фраза, как «Cosy Cottage Kitchen с винтажным декором», может появиться изображения, которые соответствуют этому описанию, но ранее не были отмечены как «Cottagecore», но соответствуют этой эстетике через самые близкие векторы.

Когда новые этикетки вводятся в модель, они по -прежнему оцениваются как «низкая уверенность», поэтому визуальнократическая LLM может проверить их для дальнейшей проверки метки.

«Результатом является постоянный усовершенствовающий тренировочный набор, который в курсе развивающегося контента и словарного запаса может использоваться для обучения небольших, эффективных моделей, которые могут работать в масштабах», — сказал Халупка.

«Сила этого подхода заключается в том, что он одновременно масштабируемый и обслуживающий. Когда нам нужно добавить новые концепции, будь то Cottagecore сегодня или любая тенденция появится завтра, этот автоматизированный трубопровод может найти разнообразные, точно помеченные примеры без масштабных ручных усилий. Каждый шаг оптимизирован для качества. Мы можем поддерживать высокую точность, даже в масштабных масштабах».

Посмотреть всю презентацию здесь:

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Joab Jackson является старшим редактором нового стека, охватывающего облачные нативные вычисления и системы системы. Он сообщил об инфраструктуре и развитии IT более 25 лет, в том числе в IDG и государственных компьютерных новостях. До этого он … читал больше от Джоаба Джексона

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *