cognitronn 30 июл в 12:30

Топ-5 бесплатных нейросетей для транскрибации: лучшие сервисы для перевода аудио в текст

Простой

7 мин

12K

Блог компании BotHubИскусственный интеллектМашинное обучение * Научно-популярноеКонтент и копирайтинг *

Обзор

+34

Комментарии 21

rPman 30 июл в 12:40

не 'нейросетей' а 'сервисов'

pol_pot 30 июл в 13:09

https://www.youtube.com/watch?v=R9TnCP2D8HQ

Gemini 2.5 flash (prompt = "Listen carefully to the following audio file. Provide a transcript. Fix errors, make a fine text with good looking paragraphs, without time stamps and diarization (speaker separation). This audio file is a cutted fragment with +5 extra seconds in both directions.") По мне так топ, но есть ИИшные заморочки, размер ответа не больше 30т русских символов, цензура может заблокировать запрос, может зависнуть и вернуть повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы...

Ведьмаку заплатите
Чеканной монетой,
Чеканной монетой.
О-о.
Ведьмаку заплатите,
Зачтётся всё это.
Вау.

Он хоть на край земли отправится готов,
Сразить всех чудовищ, убить всех врагов.

Он эльфов всех прогнал за дальний перевал,
Высокие горы, на дальний привал.

Он бьёт не в бровь, а в глаз,
Был ранен много раз.
Он людям товарищ,
Всегда он за нас.

К чему эта вражда,
Никак я не пойму.
Он нас защищает,
Так налетите ж ему!

Ведьмаку заплатите
Чеканной монетой,
Чеканной монетой.
О-о.
Ведьмаку заплатите,
Зачтётся всё это.
Вау.

Whisper(whisper-large-v3-turbo) короткие записи хорошо понимает, в длинных склонен глотать целые абзацы

Ведьмаку заплатите Он эльфов всех прогнал за дальний перевал Высокие горы на дальний привал Он бьет не вброд, а в глаз, был ранен много раз Он людям товарищ, всегда он за нас Ведьмаку заплатите, зачтется все это Ведьмаку заплатите чеканной монетой Ведьмаку заплатите, зачтется все это вам Ведьмаку заплатите чеканной монетой Чиканым монетой Ведь могу заплатить Зачтется все это

Voxtral новая модель от мистраля (такое же недоразумение как и все их модели)

Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Он хоть на край земли, отправится готов, сразить всех чудовищ, убить всех врагов. Он эльфов всех прогнал за дальний перевал, высокие горы на дальний привал. Он бьет не впродь, а в глаз, был ранен много раз. Он людям товарищ, всегда он за нас. Чему эта вражда, никак я не пойму. Он нас защищает, так налетишь ему. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это.

Deepgram хороший коммерческий вариант, принимает файлы любого размера и типа без заморочек, выдает хороший результат с огромной скоростью

неправильно распознал язык, обычные записи он хорошо распознает

Assemblyai (большая модель) примерно такой же как deepgram, без заморочек но за деньги

Ведьмаку заплатите чеканной монетой, чеканной монетой. Ведьмаку заплатите, зачтется всё это вам. Он ходит на край земли, отправиться готов. Сразить всех чудовищ, убить всех врагов. Эльфов всех прогнал за дальний перевал, Высокие горы на дальний прибал. Он бьёт не в брод, а в глаз, Был ранен много раз. Он людям товарищ, Всегда он за нас. Чему эта вражда, Никак я не пойму, Он нас защищает, Так налетишь ему. Ведьмаку заплатите Чеканной монетой, Чеканной монетой, о-о-о Ведьмаку заплатите Зачтется всё это вам Ведьмаку заплатите Чеканной монетой, Чеканной монетой, о-о-о Ведь могу заплатите, зачтется все это. Ведь могу заплатите, чеканы монетой, чеканы монетой. Ведь могу заплатите, зачтется все это.

pol_pot 30 июл в 13:25

-- Как понять что статья написана тупым роботом?

-- Он не умеет считать.

rPman 2 авг в 06:03

а может он как раз верно написал (рекламируя снабдили бота верной инфрмацией) а на сайте брешут?)

Biga 30 июл в 16:34

А где gigaam и t-one?

kat_astropha 30 июл в 20:13

Еще хороший ИИ https://wisprflow.ai/ - распознает даже тип текста (список дел, стихи и пр).

Pilotv 31 июл в 06:00

У меня стояла задача - работа с результатами мутнейших двухчасовых созвонов которые я слушая в пол уха но надо быть в курсе и контролировать что там кто кому наобещал . Решил следующим образом - оформил подписку на replicate.co. Там доступна для запуска дотренированная и. дообученная модель whisper с разделением спикеров и прочими плюшками . Через Claude написал на питоне web приложение которое взаимодействует с этой моделью через стандартный api replicate. Приложение закинул на домашний сервер в докер. Все проблема решена. Совещания пишу в файл результаты скидываю в свое приложение , расшифровка занимает пару минут. Количество спикеров до 15 человек , учитывая специфическую терминологию и то что все говорят одновременно , качество отличное . Текстовый файл с расшифровкой кидаю нейросетке и прошу сделать максимально подробный разбор совещания с отсылками на прямую речь участников , для контроля нейросети . Получается очень продуктивно и стоимость расшифровки одного совещания буквально 5 - 10 центов выходит

pol_pot 31 июл в 07:03

Главное не проверять что там этот виспер нарасшифровывал Ж)

mk015 7 авг в 20:18

Интересный кейс. Подскажите, пожалуйста, модель, которую используете

Pilotv вчера в 07:10

Вот эту https://replicate.com/thomasmol/whisper-diarization

Pilotv 31 июл в 12:40

проверял неоднократно все корректно отсебятины нет , максимум неправильно имена и узко отраслевые термины и англицизмы. Но это из контекста и так понятно

Wundarshular 31 июл в 13:18

По личному опыту конкретный вариант Whisper - https://huggingface.co/spaces/sanchit-gandhi/whisper-jax - прекрасно справлялся с транскрипцией интервью и совещаний от 5 до 60 минут с разным уровнем качества речи (в пустой студии, на улице, в шумной переговоке). Преобразовывал довольно шустро, а главное - бесплатно. Сейчас не работает, т.к. какие-то проблемы с доступом к серверам Amazon.

Devastator82 1 авг в 13:01

Whisper запускаю локально. Модель large работает на мобильной 3070 8gb терпимо. Транскрибация правда довольно медленная получается, примерно 1 к 1 по времени. Т.е. час видео транскрибируется час реального времени. Зато бесплатно)

pol_pot 1 авг в 13:34

Тут дают 20 часов в сутки на аккаунта виспер https://console.groq.com/settings/limits

Скорость x240.

Куски только резать надо по 25мб. И нет временных меток.

Бесплатно

sergeyssv 1 авг в 18:17

у меня почему-то так

{"error":{"message":"Not Found"}}

Devastator82 1 авг в 19:53

Посмотрю, большое спасибо!

Shannon 2 авг в 00:22

Модель large работает на мобильной 3070 8gb терпимо. Транскрибация правда довольно медленная получается, примерно 1 к 1 по времени. Т.е. час видео

Попробуйте whisper.cpp, должно быть быстрее на 3070. Модели в формате ggml (по сути тоже самое, что gguf) лежат тут: https://huggingface.co/ggerganov/whisper.cpp. У whisper ещё вышла модель whisper-large-v3-turbo, она быстрее и легче чем просто large-v3.

На 4060ti часовая лекция разбирается:
– за 7 минут на large-v3 неквантованная, 4гб vram
– за 5.1 минуты на large-v3 в кванте q5_0, 2.5гб vram
– за 2.3 минуты на large-v3-turbo в кванте q8_0, 1.6гб vram.

4060ti, Andrei1980/whisper-large-rus-ggml неквантованная large v3, транскрипция часовой лекции за 7 минут

Есть файнтюны для русского языка, но тоже не идеальные:
– для large-v3: Andrei1980/whisper-large-rus-ggml (обучена лучше)
– для large-v3-turbo: dvislobokov/whisper-large-v3-turbo-russian (обучена хуже, путает слова)

Пример как выше с песней, модель Andrei1980/whisper-large-rus-ggml

Для английского есть модели получше чем whisper, рейтинг тут: https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
Для русского ещё есть модели: vosk, GigaAM и T-one.

CodeDict 2 авг в 05:11

«Скопирую и покажу вам», — думал я, но нейросеть запрещает копирование. Скачивание и копирование результата доступны только на платной основе!

Всё, что отображается — можно скопировать. DevTools открываете, копируете innerHTML и ловите кайф.

И ещё. Нейросеть запретить копирование никак не может. Ну вот вообще никак.

GaiusJulius_media 4 авг в 05:15

Запилил с командой Aiesa.ru бесплатный и безлимитный транскрибатор - @media_to_textbot

Бот может переводить аудио/видео файлы в текст, с которым можно после поработать в нейросетях!

Поддерживает ссылки с Яндекс и Google диск-ов, пересланные сообщения в Telegram и прямую загрузку файлов, скоро еще добавим возможность кидать ссылки с Youtube и других видеохостингов!

Попробуй сам и поделись с другом)

pol_pot 4 авг в 06:17

Похоже на ошибку, должно же быть одно сообщение с меняющимся статусом?

GaiusJulius_media 4 авг в 06:23

поправим, спасибо за ос!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий