cognitronn 21 мая в 16:24

ТОП-5 нейросетей для транскрибации аудио в текст (часть 2)

6 мин

1.8K

Блог компании BotHubИскусственный интеллектКонтент и копирайтинг*Будущее здесьМашинное обучение*

Обзор

В первой части мы проверили три сервиса: AssemblyAI, Riverside и Teamlogs. Все они обещали точную и быструю транскрибацию, но на деле…

Первый оказался хорош на английском, но на русском плыл. Второй выдал интересные фишки в интерфейсе, но транскрипцией не порадовал. Третий оказался самым сбалансированным, но и у него с пунктуацией и спикерами беда.

Во второй части — ещё два претендента, у которых всё ещё есть шанс: или вытащить транскрибацию на новый уровень, или окончательно доказать, что без ручной правки пока никуда.

Они пройдут те же три испытания:

Сказки на разных языках
Аудио с помехами
Особенности речи

Задача простая: найти хотя бы одну нейросеть, которой не стыдно доверить расшифровку интервью, лекции или подкаста. Пока ни одна не прошла все тесты без фейлов. Посмотрим, изменится ли что-то под финал.

Поехали!

Открывает обзор — Speechnotes

Заходим на сайт — встречает нас минималистичный дизайн. В центре экрана — 2 кнопки: одна для записи аудио, другая — для загрузки файла. Нас интересует правая кнопка — Start Transcribing.

Дальше — регистрация. Доступна только через Google-аккаунт. Проходим авторизацию — и вуаля, нам выдают 30 бесплатных кредитов.

Жмём Upload files, и появляется характерное окошко с тремя шагами:

Выбор источника загрузки
Выбор самого файла
Настройки: язык и количество спикеров. Выбор большой, я выбрал русский

Нажимаем Next, и начинается транскрибация. Процесс быстрый — секунд 30. Система списала 2 кредита за минуту аудио.

Чтобы посмотреть результат, нужно прокрутить страницу вниз. Жмём на получившийся текст — и что мы видим?

Это первая нейросеть, которая выдала мат в детской сказке. Прямо так и написала: «Б…ь». Честно, у меня была та же реакция, когда я это увидел.

Теперь к технической части:

Перевод — худший за весь сегодняшний обзор. Спикеры определены неверно, слова перепутаны, правильных знаков препинания почти нет.

Итог: это провал.

Остаётся надеяться, что английскую речь она обрабатывает получше.

Итак, кликаем на большую кнопку рядом с Transcribe New и выбираем нужный нам файл. Кстати, к загрузке доступны файлы размером не более 1 ГБ. Транскрибация одной минуты стоила 1 кредит — видимо, стоимость зависит ещё и от языка!

Что же получилось?

Аудио было расшифровано по словам верно, ошибок нет. Но вот с определением спикеров и знаками препинания — незачёт.

Выбираем его. Кстати, я посчитал количество доступных языков — всего 58.

Аудио обрабатывалось примерно около минуты — среди всех протестированных он самый долгий. Транскрибация забрала 2 кредита, как и в случае с русским языком.

Как я и предполагал, арабский она разобрала лучше, чем предыдущие два. Но всё равно — неидеально.

Во-первых, вместо «быков» нейросеть написала «крыс». Во-вторых, знаки препинания — снова мимо. Некоторые слова написаны раздельно, хотя должны быть слитно.

Вывод… Арабский тоже провал!

Полиглот из неё — никакой.

Посмотрим, как она справится со вторым заданием!

Посмотрим, как нейросеть справится со вторым заданием. В этом блоке я не буду расписывать всё в деталях. Если нейросеть не справляется с обычным переводом, то модифицированное аудио — тем более не её уровень. Поэтому просто расскажу в общих чертах.

Со всеми тестами нейросеть не справилась. Причём ошибки те же. Из любопытного: английскую версию аудио нейросеть обрабатывала дольше всех, а русскую наоборот, арабский текст просел сильнее остальных — появились странные слова, в том числе однокоренные со словом «насилие», жутковато.

Итог: полный провал.

Если предыдущие конкуренты ещё как-то вытягивали хотя бы первое задание за счёт более-менее вменяемой транскрибации, то здесь система не смогла корректно определить вообще ничего.

Время 3-го задания!

По традиции начинаем тест с аудио на русском языке.

И, как видно, нейросеть не справилась ни с одним словом, где спикер проявил особенности речи.

Скороговорку она даже не попыталась распознать. Остальные ошибки остались прежними — и с пунктуацией, и со спикерами.

Переходим к следующему тесту — речь Черчилля.

У прошлых нейросетей с ней проблем почти не было: максимум пара неточностей.

Но эта справилась хуже предшественников — ошибки в 3 словах, и это без учёта знаков препинания, которые отсутствуют или коряво расставлены.

Итог по второму тесту: даже здесь ошибок больше, чем у других сервисов.

И, наконец, проверим, как нейросеть справится с заиканием.

Результат такой же, как и в первом тесте: большинство слов с речевыми особенностями не распознаны, ошибки в протых словах и двойные пробелы.

Общий вывод после тестов: нейросеть — самая слабая в нашем топе.

Но, несмотря на это, даже за её ошибочную транскрибацию нужно платить.

Посмотрим, сколько это стоит…

Средний тариф выглядит так: 120 минут (то есть 2 часа) за 12 $. Типа “всего” по 10 центов за минуту. Мол, берите — не пожалеете. Да ещё и бонус: 12 минут в подарок на первую покупку. Щедрость уровня “попробуй разочароваться чуть дольше”.

Ладно, давайте посмотрим, что мы можем сделать с результатом.

Вы можете отредактировать текст, что тут явно пригодится, перевести его или экспортировать.

Получаем:

Загрузили аудио → получили транскрибацию → теперь Вам предлагают экспортнуть её в разных форматах. Среди них есть DOCX, Word, TXT, SRT & VTT (форматы субтитров) и PDF.

Снизу можно отметить галочками Timestamps и Speaker tags, но мы же знаем, что с определением спикеров нейросеть не дружит.

И последняя нейросеть в нашей подборке — Whisper от OpenAI

По словам разработчиков, модель v1 и v2 натренированы на 680 тысячах часов аудио из интернета, а v3 на 5 миллионов. Якобы благодаря этому она не должна спотыкаться о шум. Сегодня посмотрим, как Whisper покажет себя — будет шептать или запнётся, как модель выше.

Whisper на сайте OpenAI просто так не потыкаешь — через веб-интерфейс не дали. Однако модель доступна через API, а также может быть запущена локально на собственной видеокарте. Если вдруг захочется попробовать самую топовую — Large-v3, — готовьте как минимум 12 ГБ видеопамяти. Ну или через сторонние платформы вроде Hugging Face, куда OpenAI выложили своё детище, — мы как раз будем тестить её здесь.

Нас интересует раздел Audio file. Загружаем туда наш файл и кликаем «Исполнить».

Я сделал сразу 3 прогона и решил объединить впечатления.

Первое, что бросается в глаза, — сервис не распознаёт спикеров, вообще. Второе — скорость. Это реально самый быстрый сервис, в 1-м задании, из всех в сегодняшнем списке.

Третье — точность. Неидеальная, но достойная. Whisper сам определяет язык в аудиозаписи. Сервис уверенно распознал арабскую, английскую и русскую речь.

С транскрибацией первой и второй ошибок он не допустил. А вот с русским — не так гладко! Продублировал несколько реплик, допустил ошибки в словах, после запятых часто писал слова с заглавной буквы.

Зато — пунктуация. Здесь сервис удивил: даже в проблемной транскрибации на русском он расставил все верно. Единственное исключение — восклицательные знаки в арабской речи, с которыми он не справился, как и другие сервисы.

Теперь — 2-е задание. Проверим хвалёное «преодоление шума»!

Для меня результат получился примерно на уровне первого задания, поэтому также опишу общие впечатления.

На этот раз Whisper думал подольше. С русским языком возникли серьёзные проблемы: почти половину текста он просто не услышал. Арабский тоже подвёл — одна из фраз (اجتمع الناس لمشاهدة المباراة وأخذوا) повторяется, а начало вообще написано слитно, без пробелов. Это значит, что модель транскрибировала не словами, а, по сути, буквами, не различая интонацию и структуру фраз.

А вот к английскому — претензий нет, все идеально, еще бы спикеров определил…

Где обещанная устойчивость к шуму? В этом задании некоторые сервисы выше справились лучше.

Теперь — очередь тестирования на понимание речевых особенностей.

Начнём с картавости. На её обработку Whisper потратил около 20 секунд, хотя раньше русский распознавался почти моментально. И что я скажу?

Скороговорка — мимо. Как и другие сервисы, он так и не смог её нормально распознать. Особенно странным показался момент с фразой про Гарри Поттера: слово «Гарри» он расшифровал с буквой Р, а «Поттер» — с Л, хотя оба слова были произнесены одинаково, с отчётливой Л. Это два почти идентичных слова по структуре, но результат получился разный. Были сервисы, которые хотя бы «Гарри Поттера» расшифровали как надо.

К фразам Черчилля и заиканию претензий почти нет — всё расшифровано верно, за исключением отсутствующих знаков препинания.

Итого?

Whisper оказался быстрым, особенно в стандартных заданиях, неплохо справляется с английским. Но с русским у него всё сложно — путает звуки, теряет части фраз. Особенности речи, такие как картавость, он распознаёт нестабильно. А обещанная устойчивость к шуму осталась где-то в описании — другие сервисы справились лучше.

Резюмируя:

Что ж, часть вторая завершена. Герои побиты, запятые разбросаны, арабский снова страдает. Подведем итог!

Самое стабильное — нестабильность. Английский ещё держится, но с русским всё сложно: знаки препинания гуляют, спикеры теряются.

Вывод один: нейросети — пока просто помощники. Хорошие, быстрые, но требующие ручек и головы. Да, сэкономят время. Нет, не сделают всё за вас.

А пока — тестируйте любимые нейросети в BotHub. Регистрируйтесь по специальной ссылке и забирайте 100 000 токенов для доступа к любым моделям, включая AssemblyAI, без ВПН.

Ну а Вам спасибо за внимание! Будет интересно услышать о вашем опыте работы с нейросетями для транскрибации аудио в текст. Возможно, у вас есть любимый сервис? Поделитесь своими впечатлениями!

Хабы: