ElevenLabs запускает свою собственную модель речи в тексте

ElevenLabs, стартап ИИ, который только что собрал мега -раунд стоимостью 180 миллионов долларов, был в первую очередь известен своим мастерством поколения звука. Компания сделала шаг в другом технологическом направлении, запустив свою первую автономную модель речи в тексте под названием Scribe.

Стартап, оцененный в 3,3 миллиарда долларов, помог многим другим компаниям предоставлять услуги речи в тексте через свою обширную библиотеку голосов. Тем не менее, компания сейчас стремится вступить в обнаружение речи и конкурировать с такими, как Gladia, Speakmatics, Assemblyai, Deepgram и Whisper Models Openai.

Модель писца ElevenLabs поддерживает более 99 языков при запуске. Компания классифицирует более 25 языков в отличной категории точности для модели, где уровень ошибок слова составляет менее 5%. Этот список включает в себя английский (заявленный уровень точности 97%), французский, немецкий, хинди, индонезийский, японский, каннада, малаялам, польский, португальский, испанский и вьетнамский. Другие языки ранжируются в разных категориях с высокой (5-10% частотой ошибок слова), хорошей (от 10 до 20% частоты ошибок слова) и умеренной (от 25 до 50%) частоты ошибок слова.

Компания заявила, что модель превзошла Google Gemini 2.0 Flash и Whisper Light V3 на нескольких языках в Fleurs & Common Voice Tests.

ElevenLabs разработал компонент речи к тексту для своей платформы для разговорных агентов AI, которая была выпущена в прошлом году. Тем не менее, это первый раз, когда компания выпускает автономную модель обнаружения речи. В разговоре с TechCrunch в прошлом месяце генеральный директор Мати Станишевский рассказал об улучшении моделей обнаружения речи.

«Мы хотим понять, что вы говорите в разговоре лучше. Мы работаем над способами отойти от создания контента и понимания и транскрибировать речь », — сказал Станишевский в то время Станишевский. «Многие люди говорят, что речь в тексте-решаемая проблема. Но для многих языков это довольно плохо. Мы думаем, что можем создать лучшие модели обнаружения речи, потому что у нас есть внутренние команды, чтобы аннотировать данные и дать нам быстрые отзывы ».

Модель также имеет умную дневника динамика, чтобы рассказать вам, кто говорит, временная метка на уровне слов для точных субтитров, а также звуковые события с автоматическим загрязнением, такие как смех аудитории. Стартап предоставляет клиентам возможность напрямую транскрибировать видеоконтент для добавления субтитров или подписей в его студии.

В настоящее время писец работает только с предварительно записанными аудио форматами. Компания заявила, что скоро выпустит версию модели в реальном времени с низкой задержкой. Это означает, что это еще не эффективно для выполнения транскрипций или голосового примечания.

ElevenLabs — это ценовое писец по 0,40 долл. сша за час транскрибированного звука. В то время как ставка конкурентоспособна, некоторые из его конкурентов предлагают более низкую цену на аудио транскрипции на данный момент с некоторой дифференциацией функций.

Разработка сайтов в Гомеле

Похожие записи

Google расширяет семейную ссылку на родительские управления с помощью инструментов времени экрана, утвержденных контактов и многого другого

Mozilla Patches Firefox Bug «эксплуатируется в дикой природе», аналогично атакующей ошибке Chrome

Tiktok вернулся в App Store и Play Store в США

Google Scrubs упоминает о «разнообразии» и «справедливости» от ответственной веб -страницы команды искусственного интеллекта

Google приносит функцию «Canvas» в Gemini, а также обзор аудио

База данных по производству, управляемую AI

Прочитайте, что Марк Цукерберг и Execs Facebook сказали об Instagram, прежде чем покупать его

Darwinbox, HR Upstart из Индии, собирает 140 миллионов долларов, чтобы взять на себя Deel и Rippling

Вернап пищевых продуктов, поддерживаемая YC.

Подкастическая платформа подкастика запускает модель текста в речь с более чем 450 голосами ИИ

Лоббирование Huawei осаждает его в скандале с взяточничеством с политиками ЕС

Усыновление Catgpt Skyrockets в Индии, но монетизация может быть следствием

Вам тоже может быть интересно:

Изменить агент

UREP Spotlights Инновационные исследования студентов

Нацеливаться на исследования

Изучение эпидемии рака

New York Tech празднует национальное мировое наследие месяц 2025 года

Кампус в Ванкувере отмечает 25-ю церемонию открытия

Обслуживание безопасности пищевых продуктов на летних барбекю

Здание в огненных районах

Счет шагов не составляет достаточного количества упражнений

Аспиранты кибербезопасности занимают 25 -е место в соревнованиях Miter’s ECTF 2025

Студенты узнают о технологии спектра от отраслевых экспертов

Студенты получают 411 в данных 101