ElevenLabs, стартап ИИ, который только что собрал мега -раунд стоимостью 180 миллионов долларов, был в первую очередь известен своим мастерством поколения звука. Компания сделала шаг в другом технологическом направлении, запустив свою первую автономную модель речи в тексте под названием Scribe.
Стартап, оцененный в 3,3 миллиарда долларов, помог многим другим компаниям предоставлять услуги речи в тексте через свою обширную библиотеку голосов. Тем не менее, компания сейчас стремится вступить в обнаружение речи и конкурировать с такими, как Gladia, Speakmatics, Assemblyai, Deepgram и Whisper Models Openai.
Модель писца ElevenLabs поддерживает более 99 языков при запуске. Компания классифицирует более 25 языков в отличной категории точности для модели, где уровень ошибок слова составляет менее 5%. Этот список включает в себя английский (заявленный уровень точности 97%), французский, немецкий, хинди, индонезийский, японский, каннада, малаялам, польский, португальский, испанский и вьетнамский. Другие языки ранжируются в разных категориях с высокой (5-10% частотой ошибок слова), хорошей (от 10 до 20% частоты ошибок слова) и умеренной (от 25 до 50%) частоты ошибок слова.
Компания заявила, что модель превзошла Google Gemini 2.0 Flash и Whisper Light V3 на нескольких языках в Fleurs & Common Voice Tests.
ElevenLabs разработал компонент речи к тексту для своей платформы для разговорных агентов AI, которая была выпущена в прошлом году. Тем не менее, это первый раз, когда компания выпускает автономную модель обнаружения речи. В разговоре с TechCrunch в прошлом месяце генеральный директор Мати Станишевский рассказал об улучшении моделей обнаружения речи.
«Мы хотим понять, что вы говорите в разговоре лучше. Мы работаем над способами отойти от создания контента и понимания и транскрибировать речь », — сказал Станишевский в то время Станишевский. «Многие люди говорят, что речь в тексте-решаемая проблема. Но для многих языков это довольно плохо. Мы думаем, что можем создать лучшие модели обнаружения речи, потому что у нас есть внутренние команды, чтобы аннотировать данные и дать нам быстрые отзывы ».
Модель также имеет умную дневника динамика, чтобы рассказать вам, кто говорит, временная метка на уровне слов для точных субтитров, а также звуковые события с автоматическим загрязнением, такие как смех аудитории. Стартап предоставляет клиентам возможность напрямую транскрибировать видеоконтент для добавления субтитров или подписей в его студии.
В настоящее время писец работает только с предварительно записанными аудио форматами. Компания заявила, что скоро выпустит версию модели в реальном времени с низкой задержкой. Это означает, что это еще не эффективно для выполнения транскрипций или голосового примечания.
ElevenLabs — это ценовое писец по 0,40 долл. сша за час транскрибированного звука. В то время как ставка конкурентоспособна, некоторые из его конкурентов предлагают более низкую цену на аудио транскрипции на данный момент с некоторой дифференциацией функций.