
Нас давно не удивишь тем, что нейросеть за пару секунд расшифровывает двухчасовую лекцию или превращает аудиозаметку в аккуратный текст с заголовками и абзацами. Мы живём в эпоху, где слова больше не нужно набирать вручную. Их достаточно просто произнести, а остальное за алгоритмами.
Сегодня мы решили проверить, как работают пять популярных нейросетевых помощников для перевода аудио в текст. И сделаем это необычным способом — через сказки!
Заинтересовали? Тогда давайте расшифровывать, сравнивать и делиться впечатлениями вместе.
Да, у сервисов нашего топа есть платные подписки, но сегодня разбираем только то, что работает бесплатно и не просит привязать карту «просто на всякий случай».
Приятного прочтения!
Как будем тестировать?
Загрузим нейросетям сказки, но не одну и не на одном языке. Так мы проверим, насколько хорошо искусственный интеллект справляется с многоязычностью. А заодно, умеет ли он отличать одного спикера от другого. Давайте слушать!
Русский язык — сказка про трёх медведей:
Расшифровка
Нарратор: Сейчас мы расскажем о том, что произошло однажды с непослушной девочкой Варварушкой.
Варварушка: Пусти меня, бабушка, погулять в лесу. Я грибочков, бабушка, белых принесу!
Бабушка: Не ходи, Варварушка, — попадёшь в беду. Лучше ты, Варварушка, поиграй в саду.
Варварушка (капризно): Ну, какая бабушка может быть беда?
Бабушка (вздыхая): Ох, смотри, Варварушка…
Варварушка: Ладно.
Нарратор: Не послушалась девочка — и пошла в лес.
Варварушка (весело напевает): Сидит ворон на дубу, не велит расти грибу. Ты, грибочек, вырасти, колодочки вырасти!
Нарратор: А в том лесу жили три медведя…
Медведи (вместе, с рычанием): О‑ооо!
Английский язык — «Красная Шапочка»:
Расшифровка
Нарратор: This is the story of Little Red Riding Hood. She»s got a red coat with a hood. She loves the coat. She wears it every day. She»s very happy today — it»s her birthday.
Нарратор: Little Red Riding Hood»s father is a woodcutter. He works in the forest every day. A lot of animals live in the forest, and a wolf lives there too.
Нарратор: Little Red Riding Hood»s mother says...
Мама: Grandmother is ill in bed. Go to her house, take her some bread and jam, but be careful — a wolf lives in the forest.
Красная Шапочка: Yes, Mother.
Нарратор: ...says Little Red Riding Hood. Little Red Riding Hood.
Нарратор: Little Red Riding Hood loves Grandmother. She is happy. She wants to see her.
С заданиями разобрались, теперь можно переходить к тестированию!
Первый в обзоре — BotHub

Тут доступна нейросеть AssemblyAI. Разработчики заявляют, что она умеет превращать аудио в текст с точностью 92,5% и поддерживает 99 языков. Но упор больше сделан на английский. Помимо самой расшифровки, нейросеть умеет делать авторазметку спикеров, извлекать ключевые темы, определять эмоции в голосе, автоматически убирать маты и шумы, а также делать саммари. Видео длиной в 1 час обрабатывается за 2–3 минуты.
Если регистрироваться по реферальной ссылке, вам сразу накидывают 100 000 капсов.
Транскрибация 1 минуты аудио обходится примерно в 36 000 штук. То есть бонуса хватает на 2,5 минуты расшифровки. Забираем и начинаем работать!
Тестируем!
(Русский язык)

Транскрибация выполнена с ошибками, как лексическими, так и грамматическими. Они допущены в пяти словах, и еще одно слово пропущено совсем. Спикеры определены неверно: их как минимум 3, а нейросеть распознала только двух (А и В). Знаки препинания расставлены некорректно. Некоторые союзы и слова пишутся с заглавной буквы без точки перед ними.
(Английский язык)

Тут нейросеть справилась лучше, чем с русским, пусть и незначительно. Транскрибация по словам точна, к ним вопросов нет. Но снова проблемы с определением спикеров и пунктуацией.
Следующий сервис — Riverside

Сервис основан на технологии OpenAI Whisper. А разработчики заявляют о точности до 99 %, распознавании более ста языков и даже понимании региональных акцентов. Готовый текст можно скачать в виде обычного TXT-файла с разметкой по спикерам или в формате SRT, который подойдёт для субтитров.
Riverside умеет различать до семи участников диалога (количество указывается до начала работы), каждому назначается своя метка. Но в случае одновременной речи будет нужна ручная корректировка!
Также есть редактор, где можно редактировать текст, а заодно и само аудио или видео. Например, вы можете удалить ненужную фразу из транскрипта, и она автоматически исчезнет из записи.
Платформа поддерживает загрузку и транскрибацию не только собственных записей, но и сторонних файлов — MP3, WAV, MP4, MOV. Всё работает в браузере, а также через мобильное приложение, не требуя установки софта.
Тестируем!
(Русский язык)
Чтобы нейросеть могла разбирать русскую речь, нужно перейти в настройки и сменить язык, затем нужно выбрать количество спикеров.
Её она транскрибировала примерно минуту. Увы, но со спикерами нейросеть напутала, также есть символы пробела, которые она не распознала. Много слов расшифрованы неправильно, особенно песенка девочки.
«Скопирую и покажу вам», — думал я, но нейросеть запрещает копирование. Скачивание и копирование результата доступны только на платной основе!
(Английский язык)
Перед этим в настройках выбираем English. Ставим 3 спикеров и загружаем «Красную Шапочку».

Спикеров она снова распределила неправильно. Тогда меняем их количество на один, чтобы текст был более собран, и оцениваем корректность расшифровки.
Кстати, кривая линия на дорожке означает любую смену громкости. Это могут быть слова, удары топора по дереву или банальное «хм».

Итак, распознал всё идеально! Знаки препинания на месте, посторонние звуки определены, паузы отмечены. Если не брать в счет спикеров, то это зачёт.
Встречаем третий сервис — Teamlogs

При переходе на сайт нас встречает интерфейс на русском языке. Загружаем файл и сервис моментально определяет длительность аудио. Можно выбрать язык (русский и английский закреплены в быстром доступе), а также включить определение спикеров.
После прохождения регистрации вам начислят 15 минут бесплатной транскрибации аудио. Сервис поддерживает загрузку файлов форматов MP3, WAV, MP4, MOV, M4A, MKV, AVI и OGG.
Текстовая вариант включает автоматическое добавление знаков препинания, тайм‑штампов, и разделение речи по спикерам. Встроенный редактор позволяет слушать исходные файлы, исправлять ошибки, выделять текст маркерами, задавать стили (жирный, курсив) и экспортировать результат в форматах DOCX, XLSX, SRT.
Самый приятный момент: в этом сервисе можно копировать текст прямо из транскрибации — и это бесплатно =)
Тестируем!
(Русский язык)

Спикеров сервис определил лучше, чем предыдущий, но всё же не смог отличить бабушку от внучки в середине аудио. Есть проблемы с пунктуацией и лексикой. Особенно с дефисами и окончаниями слов. В нескольких местах сервис даже перепутал их.
(Английский язык)

Что могу сказать? Определение спикеров снова подкачало. Сервис их вообще не распознал. Но вот с транскрибацией всё гораздо лучше. Почти идеальная расшифровка, за исключением пары мелких ошибок со знаками препинания.
Предпоследний сервис — Speechnotes

Основная версия работает в браузере Chrome, есть также Android‑приложение. Под капотом движки распознавания Google и Microsoft. После прохождения регистрации нам выдают 30 бесплатных кредитов. Этого хватит для расшифровки 15-минутного аудио на русском (всего языков 58), а сам процесс занимает около 30 секунд.
Ещё немного остановимся на стоимости. Транскрибация одной минуты на английском стоит 1 кредит, а на русском придётся заплатить 2 кредита. Она зависит от языка!
Можно загружать аудио и видео (форматы: MP3, WAV, MP4, MOV, OGG) или ссылку/YouTube. Кстати, к загрузке доступны файлы размером не более 1 ГБ.
Сервис выдаёт транскрипт со тайм‑штампами, диаризацией спикеров (на английском) и экспортом SRT для субтитров. Также доступны интеграции через API, webhooks и Zapier. Есть отметки Timestamps и Speaker tags, но СПОЙЛЕР — с определением спикеров нейросеть не дружит.
Тестируем!
(Русский язык)

Это первая нейросеть, которая выдала мат в детской сказке...
Прямо так и написала: «Б…ь». Честно, у меня была та же реакция, когда я это увидел.
Теперь к технической части. Перевод — худший за весь сегодняшний обзор. Спикеры определены неверно, слова перепутаны, правильных знаков препинания почти нет.
(Английский язык)
Аудио было расшифровано по словам верно, ошибок нет. Но вот с определением спикеров и знаками препинания — полный незачёт.
И последняя нейросеть — Whisper

По словам разработчиков, модель v1 и v2 натренированы на 680 тысячах часов аудио из интернета, а v3 на 5 миллионов.
Whisper на сайте OpenAI просто так не потыкаешь. Однако модель доступна через API, а также может быть запущена локально на собственной видеокарте. Если вдруг захочется попробовать самую топовую — Large-v3, — готовьте как минимум 12 ГБ видеопамяти. Ну или через сторонние платформы вроде Hugging Face, куда OpenAI выложили своё детище. Мы как раз будем тестить её здесь.
Тестируем!
Я сделал сразу 2 прогона и решил объединить впечатления.
(Русский язык)

(Английский язык)

Первое, что бросается в глаза, сервис не распознаёт спикеров, вообще. Второе — скорость. Это реально самый быстрый сервис из всех в сегодняшнем списке. Третье — точность. Whisper сам определяет язык в аудиозаписи и распознает ее неплохо.
С транскрибацией английской речи ошибок он не допустил. А вот с русским — не так гладко! Продублировал несколько реплик, допустил ошибки в словах, после запятых часто писал слова с заглавной буквы.
Зато — пунктуация. Здесь сервис удивил. Даже в проблемной транскрибации на русском он расставил все верно.
Резюмируя
Название сервиса | Поддержка языков | Бесплатный лимит | Возможности редактирования | Поддерживаемые форматы |
AssemblyAI | Более 100 языков | Около 2,5 минут (бонусы) | Авторазметка, темы, эмоции, шумы, саммари | МP3, WAV, MP4, MOV |
Riverside | Более 100 языков | 15 минут | Редактор текста, редактирование аудио и видео | МP3, WAV, MP4, MOV, M4A, MKV, AVI, OGG |
Teamlogs | Более 50 языков | 15 минут | Тайм‑штампы, разделение по спикерам, экспорт | МP3, WAV, MP4, MOV, M4A, MKV, AVI, OGG |
Speechnotes | Более 50 языков | 15 мин для русского, 30 для английского | Ограничено, без встроенного редактора | МP3, WAV, MP4, MOV, OGG |
Whisper | Около 100 языков | Бесплатно, с открытым исходным кодом | Нет, требует сторонних решений | OGG, WAV, MP3 |
Мы протестировали разные сервисы и в итоге возникает стойкое ощущение того, что самое стабильное — это нестабильность. Английский ещё держится, но с русским всё сложновато. Знаки препинания гуляют, спикеры теряются, а где-то встречаются матерные слова.
Поэтому да, нейросети отличные помощники. Но без человека — никак. Именно вы показываете ей, что важно, где ошибка, а где мысль. Всегда нужно проверять и использовать ручную корректировку.
Так что, нейросети — в помощь, а не вместо. Карандаш и блокнот пока не откладываем в дальний ящик, а только подключаем.
Спасибо за внимание! Будет интересно услышать о вашем опыте работы с нейросетями для транскрибации. Возможно, у вас уже есть любимый сервис? Поделитесь своими впечатлениями и результатами, мы будем ждать!