В конце марта прошлого года Openai объявила о «мелком предварительном просмотре» службы искусственного интеллекта «Голосовый двигатель», который, как утверждала компания, может клонировать голос человека всего за 15 секунд речи. Примерно год спустя инструмент остается в предварительном просмотре, и Openai не дал никаких признаков того, когда он может запустить — или он вообще запустится.
Нежелание компании широко развернуть услугу может указывать на опасения по поводу неправильного использования, но это также может отразить усилия, чтобы избежать приглашения на регулирование. Исторически OpenAI обвиняли в приоритетах «блестящие продукты» за счет безопасности и в спешных релизах, чтобы победить конкурирующих фирм на рынок.
В своем заявлении представитель Openai заявил TechCrunch, что компания продолжает тестировать голосовой двигатель с ограниченным набором «доверенных партнеров».
«[We’re] учиться на том, как [our partners are] Используя технологию, чтобы мы могли повысить полезность и безопасность модели », — сказал представитель. «Мы были взволнованы, чтобы увидеть различные способы, которыми он используется, от речевой терапии, до изучения языка, поддержки клиентов, персонажей видеоигр, до аватаров искусственного интеллекта».
Оттолкнулся
Голосовый двигатель, который приводит к тому, что голоса, доступные в API Text-To Speek Openai, а также голосовой режим Chatgpt, генерирует естественную звучащую речь, которая очень напоминает оригинальный динамик. Инструмент преобразует письменные символы в речь, ограниченные только определенными ограждениями на содержание. Но это было предметом задержек и сдвига Windows с самого начала.
Как объяснил Openai в блоге в июне 2024 года, модель голосового двигателя учится прогнозировать наиболее вероятные звуки, которые оратор сделает для данной текстовой стенограммы, принимая во внимание различные голоса, акценты и разговорные стили. После этого модель может генерировать не только разговорные версии текста, но и «разговорные высказывания», которые отражают, как разные типы динамиков будут читать текст вслух.
Первоначально OpenAI намеревалась принести голосовой двигатель, первоначально называемый Custom Voices, в свой API 7 марта 2024 года, согласно проекту сообщения в блоге, проведенном TechCrunch. План состоял в том, чтобы предоставить группе до 100 «доверенных разработчиков» доступа к более широкому дебюту, причем приоритет придавал приложения Devs, которые обеспечивали «социальную выгоду» или демонстрировали «инновационное и ответственное» использование технологии. OpenAI даже торговал и ценил его: 15 долларов за миллион персонажей за «стандартные» голоса и 30 долларов за миллион персонажей за голоса «качество HD».
Затем, в одиннадцатый час, компания отложила объявление. Openai в итоге обнародовал голосовой двигатель через несколько недель без опции регистрации. По словам Openai, доступ к инструменту останется ограниченным членом около 10 разработчиков, с которой компания начала работать в конце 2023 года.
«Мы надеемся начать диалог о ответственном развертывании синтетических голосов и о том, как общество может адаптироваться к этим новым возможностям»,-написал Openai в сообщении в блоге Voice Engine в конце марта 2024 года.
Долго в работе
Голосовый двигатель находится в работе с 2022 года, согласно Openai. Компания утверждает, что летом 2023 года она продемонстрировала инструмент для «глобальных политиков на самых высоких уровнях», чтобы продемонстрировать свой потенциал — и риски.
Сегодня несколько партнеров имеют доступ к голосовому двигателю, в том числе Startup Livox, который создает устройства, которые позволяют людям с ограниченными возможностями более естественно. Генеральный директор Карлос Перейра сказал TechCrunch, в то время как Livox в конечном итоге не смог превратить голосовой двигатель в продукт из -за онлайн -требований инструмента (у многих клиентов Livox нет интернета), он обнаружил, что технология «действительно впечатляет».
«Качество голоса и вероятность того, чтобы голоса, говорящие на разных языках, уникальны — особенно для людей с ограниченными возможностями, наших клиентов», — сказал Перейра TechCrunch по электронной почте. «Это действительно самый впечатляющий и простой в использовании [tool to] Создайте голоса, которые я видел […] Мы надеемся, что Openai скоро развивает автономную версию ».
Перейра говорит, что он не получил рекомендации от Openai при возможном запуска голосового двигателя, и при этом он не видел никаких признаков, которые компания планирует начать взимать плату за обслуживание. Пока что Livox не пришлось платить за его использование.
В этой вышеупомянутой пост в июне 2024 года Openai намекнул, что одним из его соображений в задержке голосового двигателя был потенциал для злоупотребления во время прошлогоднего избирательного цикла сша. Информированный в результате обсуждений с заинтересованными сторонами, голосовой двигатель имеет несколько мер по смягчению безопасности, в том числе водяные знаки, чтобы проследить происхождение генерируемого звука.
Разработчики должны получить «явное согласие» от оригинального динамика перед использованием голосового двигателя, согласно Openai, и они должны сделать «четкое раскрытие информации» своей аудитории, что голоса генерируются AI. Однако компания не сказала, как это обеспечивает соблюдение этой политики. Это в масштабе может оказаться чрезвычайно сложным, даже для компании с ресурсами Openai.
В своих сообщениях в блоге Openai также подразумевает, что он надеялся построить «опыт аутентификации голоса» для проверки динамиков и список «не ходить», который предотвращает создание голосов, которые звучат слишком похожи на выдающихся фигур. Оба являются технологически амбициозными проектами, и их неправильное размышление плохо отражалось на компании, которую часто обвиняют в том, что они инициативы по обеспечению безопасности.
Эффективная фильтрация и проверка удостоверения личности быстро становятся базовыми требованиями для ответственных технических выпусков клонирования голоса. Клонирование голоса ИИ было третьей наиболее быстрорастущей аферой 2024 года, согласно одному источнику. Это привело к тому, что чеки на безопасность мошенничества и банковские защиты обходится на то, чтобы законы о конфиденциальности и авторском праве борются за то, чтобы не отставать. Злоусовеченные актеры использовали голосовой клонирование, чтобы создать зажигательные глубоководства знаменитостей и политиков, и эти глубокие фарширование распространились, как лесной пожар в социальных сетях.
OpenAI может выпустить голосовой двигатель на следующей неделе — или никогда. Компания неоднократно говорила, что взвешивает, что обслуживание не имеет небольшого количества. Но одна вещь ясна: по причинам оптики, соображениям безопасности или обоим ограниченный предварительный просмотр голосового двигателя стал одним из самых длинных в истории Openai.