Sesame, стартап, стоящий за вирусным виртуальным помощником Maya, выпускает свою базовую модель ИИ

Sesame, компания по искусству, стоящая за впечатляюще реалистичным голосовым помощником Maya, выпустила базовую модель AI, работающую Maya, как это было недавно обещано.

Модель, которая составляет 1 миллиард параметров по размеру («параметры», относящиеся к отдельным компонентам модели), находится под лицензией Apache 2.0, что означает, что ее можно коммерчески использовать с несколькими ограничениями. Названный CSM-1B, модель генерирует «Auio-коды RVQ» из текстовых и аудио входов, согласно описанию Sesame на платформе AI Dev, обнимающего лицо.

RVQ относится к «квантованию остаточного вектора», методом кодирования звука в дискретные токены, называемые кодами. RVQ используется в ряде недавних технологий AI Audio, в том числе Google Soundstream и Meta’s Encodec.

CSM-1B использует модель из семейства LlaMa от Meta, поскольку ее костяк сочетается с аудио-компонентом «декодер». Сесам говорит, что тонкий вариант CSM Powers Maya.

«Модель с открытым исходным кодом здесь представляет собой модель базового поколения»,-пишет Sesame в репозиториях CSM-1B об объятиях и GitHub. «Он способен произвести множество голосов, но он не был настраивается на каком-либо конкретном голосе […] Модель обладает некоторой способностью для неанглийских языков из-за загрязнения данных в учебных данных, но, вероятно, не будет хорошо ».

Неясно, какой кунжут данных использовал для обучения CSM-1B. Компания не сказала.

Стоит отметить, что у модели нет реальных гарантий. Это ситуация «система чести». Sesame просто призывает разработчиков и пользователей не использовать модель, чтобы имитировать голос человека без их согласия, создавать вводящий в заблуждение контент, такой как поддельные новости, или участвовать в «вредных» или «вредных» действиях.

Я попробовал демо на обнимающем лицо, и клонирование моего голоса занял менее минуты. Оттуда было легко вызвать речь в отношении желания моего сердца, в том числе по спорным темам, таким как выборы и российская пропаганда:

Sesame, соучрединный со-создателем Oculus Бренданом Ирибе, в конце февраля стал вирусным для ее помощника технологии, которая приближается к очистке странной территории долины. Другой помощник Maya и Sesame, Miles, делает вдохи и разговаривает с недостатком, и его можно прервать во время разговора, очень похоже на режим голоса Openai.

Sesame привлек нераскрытую сумму капитала от Andreessen Horowitz, Spark Capital и Matrix Partners. В дополнение к созданию технологий голосового помощника, компания заявляет, что ее прототипирует очки искусственного интеллекта, «предназначенные для ношения весь день», которые будут оснащены его пользовательскими моделями.