
В первой части мы проверили три сервиса: AssemblyAI, Riverside и Teamlogs. Все они обещали точную и быструю транскрибацию, но на деле…
Первый оказался хорош на английском, но на русском плыл. Второй выдал интересные фишки в интерфейсе, но транскрипцией не порадовал. Третий оказался самым сбалансированным, но и у него с пунктуацией и спикерами беда.
Во второй части — ещё два претендента, у которых всё ещё есть шанс: или вытащить транскрибацию на новый уровень, или окончательно доказать, что без ручной правки пока никуда.
Они пройдут те же три испытания:
Сказки на разных языках
Аудио с помехами
Особенности речи
Задача простая: найти хотя бы одну нейросеть, которой не стыдно доверить расшифровку интервью, лекции или подкаста. Пока ни одна не прошла все тесты без фейлов. Посмотрим, изменится ли что-то под финал.
Поехали!
Открывает обзор — Speechnotes
Заходим на сайт — встречает нас минималистичный дизайн. В центре экрана — 2 кнопки: одна для записи аудио, другая — для загрузки файла. Нас интересует правая кнопка — Start Transcribing.

Дальше — регистрация. Доступна только через Google-аккаунт. Проходим авторизацию — и вуаля, нам выдают 30 бесплатных кредитов.

Жмём Upload files, и появляется характерное окошко с тремя шагами:
Выбор источника загрузки
Выбор самого файла
Настройки: язык и количество спикеров. Выбор большой, я выбрал русский

Нажимаем Next, и начинается транскрибация. Процесс быстрый — секунд 30. Система списала 2 кредита за минуту аудио.
Чтобы посмотреть результат, нужно прокрутить страницу вниз. Жмём на получившийся текст — и что мы видим?

Это первая нейросеть, которая выдала мат в детской сказке. Прямо так и написала: «Б…ь». Честно, у меня была та же реакция, когда я это увидел.
Теперь к технической части:
Перевод — худший за весь сегодняшний обзор. Спикеры определены неверно, слова перепутаны, правильных знаков препинания почти нет.
Итог: это провал.
Остаётся надеяться, что английскую речь она обрабатывает получше.
Итак, кликаем на большую кнопку рядом с Transcribe New и выбираем нужный нам файл. Кстати, к загрузке доступны файлы размером не более 1 ГБ. Транскрибация одной минуты стоила 1 кредит — видимо, стоимость зависит ещё и от языка!
Что же получилось?
Аудио было расшифровано по словам верно, ошибок нет. Но вот с определением спикеров и знаками препинания — незачёт.
Выбираем его. Кстати, я посчитал количество доступных языков — всего 58.
Аудио обрабатывалось примерно около минуты — среди всех протестированных он самый долгий. Транскрибация забрала 2 кредита, как и в случае с русским языком.

Как я и предполагал, арабский она разобрала лучше, чем предыдущие два. Но всё равно — неидеально.
Во-первых, вместо «быков» нейросеть написала «крыс». Во-вторых, знаки препинания — снова мимо. Некоторые слова написаны раздельно, хотя должны быть слитно.
Вывод… Арабский тоже провал!
Полиглот из неё — никакой.
Посмотрим, как она справится со вторым заданием!
Посмотрим, как нейросеть справится со вторым заданием. В этом блоке я не буду расписывать всё в деталях. Если нейросеть не справляется с обычным переводом, то модифицированное аудио — тем более не её уровень. Поэтому просто расскажу в общих чертах.



Со всеми тестами нейросеть не справилась. Причём ошибки те же. Из любопытного: английскую версию аудио нейросеть обрабатывала дольше всех, а русскую наоборот, арабский текст просел сильнее остальных — появились странные слова, в том числе однокоренные со словом «насилие», жутковато.
Итог: полный провал.
Если предыдущие конкуренты ещё как-то вытягивали хотя бы первое задание за счёт более-менее вменяемой транскрибации, то здесь система не смогла корректно определить вообще ничего.
Время 3-го задания!
По традиции начинаем тест с аудио на русском языке.

И, как видно, нейросеть не справилась ни с одним словом, где спикер проявил особенности речи.
Скороговорку она даже не попыталась распознать. Остальные ошибки остались прежними — и с пунктуацией, и со спикерами.
Переходим к следующему тесту — речь Черчилля.
У прошлых нейросетей с ней проблем почти не было: максимум пара неточностей.

Но эта справилась хуже предшественников — ошибки в 3 словах, и это без учёта знаков препинания, которые отсутствуют или коряво расставлены.
Итог по второму тесту: даже здесь ошибок больше, чем у других сервисов.
И, наконец, проверим, как нейросеть справится с заиканием.

Результат такой же, как и в первом тесте: большинство слов с речевыми особенностями не распознаны, ошибки в протых словах и двойные пробелы.
Общий вывод после тестов: нейросеть — самая слабая в нашем топе.
Но, несмотря на это, даже за её ошибочную транскрибацию нужно платить.
Посмотрим, сколько это стоит…

Средний тариф выглядит так: 120 минут (то есть 2 часа) за 12 $. Типа “всего” по 10 центов за минуту. Мол, берите — не пожалеете. Да ещё и бонус: 12 минут в подарок на первую покупку. Щедрость уровня “попробуй разочароваться чуть дольше”.
Ладно, давайте посмотрим, что мы можем сделать с результатом.
Вы можете отредактировать текст, что тут явно пригодится, перевести его или экспортировать.

Получаем:
Загрузили аудио → получили транскрибацию → теперь Вам предлагают экспортнуть её в разных форматах. Среди них есть DOCX, Word, TXT, SRT & VTT (форматы субтитров) и PDF.
Снизу можно отметить галочками Timestamps и Speaker tags, но мы же знаем, что с определением спикеров нейросеть не дружит.
И последняя нейросеть в нашей подборке — Whisper от OpenAI
По словам разработчиков, модель v1 и v2 натренированы на 680 тысячах часов аудио из интернета, а v3 на 5 миллионов. Якобы благодаря этому она не должна спотыкаться о шум. Сегодня посмотрим, как Whisper покажет себя — будет шептать или запнётся, как модель выше.
Whisper на сайте OpenAI просто так не потыкаешь — через веб-интерфейс не дали. Однако модель доступна через API, а также может быть запущена локально на собственной видеокарте. Если вдруг захочется попробовать самую топовую — Large-v3, — готовьте как минимум 12 ГБ видеопамяти. Ну или через сторонние платформы вроде Hugging Face, куда OpenAI выложили своё детище, — мы как раз будем тестить её здесь.
Нас интересует раздел Audio file. Загружаем туда наш файл и кликаем «Исполнить».
Я сделал сразу 3 прогона и решил объединить впечатления.



Первое, что бросается в глаза, — сервис не распознаёт спикеров, вообще. Второе — скорость. Это реально самый быстрый сервис, в 1-м задании, из всех в сегодняшнем списке.
Третье — точность. Неидеальная, но достойная. Whisper сам определяет язык в аудиозаписи. Сервис уверенно распознал арабскую, английскую и русскую речь.
С транскрибацией первой и второй ошибок он не допустил. А вот с русским — не так гладко! Продублировал несколько реплик, допустил ошибки в словах, после запятых часто писал слова с заглавной буквы.
Зато — пунктуация. Здесь сервис удивил: даже в проблемной транскрибации на русском он расставил все верно. Единственное исключение — восклицательные знаки в арабской речи, с которыми он не справился, как и другие сервисы.
Теперь — 2-е задание. Проверим хвалёное «преодоление шума»!
Для меня результат получился примерно на уровне первого задания, поэтому также опишу общие впечатления.



На этот раз Whisper думал подольше. С русским языком возникли серьёзные проблемы: почти половину текста он просто не услышал. Арабский тоже подвёл — одна из фраз (اجتمع الناس لمشاهدة المباراة وأخذوا) повторяется, а начало вообще написано слитно, без пробелов. Это значит, что модель транскрибировала не словами, а, по сути, буквами, не различая интонацию и структуру фраз.
А вот к английскому — претензий нет, все идеально, еще бы спикеров определил…
Где обещанная устойчивость к шуму? В этом задании некоторые сервисы выше справились лучше.
Теперь — очередь тестирования на понимание речевых особенностей.
Начнём с картавости. На её обработку Whisper потратил около 20 секунд, хотя раньше русский распознавался почти моментально. И что я скажу?

Скороговорка — мимо. Как и другие сервисы, он так и не смог её нормально распознать. Особенно странным показался момент с фразой про Гарри Поттера: слово «Гарри» он расшифровал с буквой Р, а «Поттер» — с Л, хотя оба слова были произнесены одинаково, с отчётливой Л. Это два почти идентичных слова по структуре, но результат получился разный. Были сервисы, которые хотя бы «Гарри Поттера» расшифровали как надо.


К фразам Черчилля и заиканию претензий почти нет — всё расшифровано верно, за исключением отсутствующих знаков препинания.
Итого?
Whisper оказался быстрым, особенно в стандартных заданиях, неплохо справляется с английским. Но с русским у него всё сложно — путает звуки, теряет части фраз. Особенности речи, такие как картавость, он распознаёт нестабильно. А обещанная устойчивость к шуму осталась где-то в описании — другие сервисы справились лучше.
Резюмируя:
Что ж, часть вторая завершена. Герои побиты, запятые разбросаны, арабский снова страдает. Подведем итог!
Самое стабильное — нестабильность. Английский ещё держится, но с русским всё сложно: знаки препинания гуляют, спикеры теряются.
Вывод один: нейросети — пока просто помощники. Хорошие, быстрые, но требующие ручек и головы. Да, сэкономят время. Нет, не сделают всё за вас.
А пока — тестируйте любимые нейросети в BotHub. Регистрируйтесь по специальной ссылке и забирайте 100 000 токенов для доступа к любым моделям, включая AssemblyAI, без ВПН.
Ну а Вам спасибо за внимание! Будет интересно услышать о вашем опыте работы с нейросетями для транскрибации аудио в текст. Возможно, у вас есть любимый сервис? Поделитесь своими впечатлениями!