Sesame, компания по искусству, стоящая за впечатляюще реалистичным голосовым помощником Maya, выпустила базовую модель AI, работающую Maya, как это было недавно обещано.
Модель, которая составляет 1 миллиард параметров по размеру («параметры», относящиеся к отдельным компонентам модели), находится под лицензией Apache 2.0, что означает, что ее можно коммерчески использовать с несколькими ограничениями. Названный CSM-1B, модель генерирует «Auio-коды RVQ» из текстовых и аудио входов, согласно описанию Sesame на платформе AI Dev, обнимающего лицо.
RVQ относится к «квантованию остаточного вектора», методом кодирования звука в дискретные токены, называемые кодами. RVQ используется в ряде недавних технологий AI Audio, в том числе Google Soundstream и Meta’s Encodec.
CSM-1B использует модель из семейства LlaMa от Meta, поскольку ее костяк сочетается с аудио-компонентом «декодер». Сесам говорит, что тонкий вариант CSM Powers Maya.
«Модель с открытым исходным кодом здесь представляет собой модель базового поколения»,-пишет Sesame в репозиториях CSM-1B об объятиях и GitHub. «Он способен произвести множество голосов, но он не был настраивается на каком-либо конкретном голосе […] Модель обладает некоторой способностью для неанглийских языков из-за загрязнения данных в учебных данных, но, вероятно, не будет хорошо ».
Неясно, какой кунжут данных использовал для обучения CSM-1B. Компания не сказала.
Стоит отметить, что у модели нет реальных гарантий. Это ситуация «система чести». Sesame просто призывает разработчиков и пользователей не использовать модель, чтобы имитировать голос человека без их согласия, создавать вводящий в заблуждение контент, такой как поддельные новости, или участвовать в «вредных» или «вредных» действиях.
Я попробовал демо на обнимающем лицо, и клонирование моего голоса занял менее минуты. Оттуда было легко вызвать речь в отношении желания моего сердца, в том числе по спорным темам, таким как выборы и российская пропаганда:
Sesame, соучрединный со-создателем Oculus Бренданом Ирибе, в конце февраля стал вирусным для ее помощника технологии, которая приближается к очистке странной территории долины. Другой помощник Maya и Sesame, Miles, делает вдохи и разговаривает с недостатком, и его можно прервать во время разговора, очень похоже на режим голоса Openai.
Sesame привлек нераскрытую сумму капитала от Andreessen Horowitz, Spark Capital и Matrix Partners. В дополнение к созданию технологий голосового помощника, компания заявляет, что ее прототипирует очки искусственного интеллекта, «предназначенные для ношения весь день», которые будут оснащены его пользовательскими моделями.