Комментарии 21
не 'нейросетей' а 'сервисов'
https://www.youtube.com/watch?v=R9TnCP2D8HQ
Gemini 2.5 flash (prompt = "Listen carefully to the following audio file. Provide a transcript. Fix errors, make a fine text with good looking paragraphs, without time stamps and diarization (speaker separation). This audio file is a cutted fragment with +5 extra seconds in both directions.") По мне так топ, но есть ИИшные заморочки, размер ответа не больше 30т русских символов, цензура может заблокировать запрос, может зависнуть и вернуть повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы...
Ведьмаку заплатите
Чеканной монетой,
Чеканной монетой.
О-о.
Ведьмаку заплатите,
Зачтётся всё это.
Вау.
Он хоть на край земли отправится готов,
Сразить всех чудовищ, убить всех врагов.
Он эльфов всех прогнал за дальний перевал,
Высокие горы, на дальний привал.
Он бьёт не в бровь, а в глаз,
Был ранен много раз.
Он людям товарищ,
Всегда он за нас.
К чему эта вражда,
Никак я не пойму.
Он нас защищает,
Так налетите ж ему!
Ведьмаку заплатите
Чеканной монетой,
Чеканной монетой.
О-о.
Ведьмаку заплатите,
Зачтётся всё это.
Вау.
Ведьмаку заплатите
Чеканной монетой,
Чеканной монетой.
О-о.
Ведьмаку заплатите,
Зачтётся всё это.
Вау.
Ведьмаку заплатите
Чеканной монетой,
Чеканной монетой.
О-о.
Ведьмаку заплатите,
Зачтётся всё это.
Вау.
Whisper(whisper-large-v3-turbo) короткие записи хорошо понимает, в длинных склонен глотать целые абзацы
Ведьмаку заплатите Он эльфов всех прогнал за дальний перевал Высокие горы на дальний привал Он бьет не вброд, а в глаз, был ранен много раз Он людям товарищ, всегда он за нас Ведьмаку заплатите, зачтется все это Ведьмаку заплатите чеканной монетой Ведьмаку заплатите, зачтется все это вам Ведьмаку заплатите чеканной монетой Чиканым монетой Ведь могу заплатить Зачтется все это
Voxtral новая модель от мистраля (такое же недоразумение как и все их модели)
Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Он хоть на край земли, отправится готов, сразить всех чудовищ, убить всех врагов. Он эльфов всех прогнал за дальний перевал, высокие горы на дальний привал. Он бьет не впродь, а в глаз, был ранен много раз. Он людям товарищ, всегда он за нас. Чему эта вражда, никак я не пойму. Он нас защищает, так налетишь ему. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это.
Deepgram хороший коммерческий вариант, принимает файлы любого размера и типа без заморочек, выдает хороший результат с огромной скоростью
неправильно распознал язык, обычные записи он хорошо распознает
Assemblyai (большая модель) примерно такой же как deepgram, без заморочек но за деньги
Ведьмаку заплатите чеканной монетой, чеканной монетой. Ведьмаку заплатите, зачтется всё это вам. Он ходит на край земли, отправиться готов. Сразить всех чудовищ, убить всех врагов. Эльфов всех прогнал за дальний перевал, Высокие горы на дальний прибал. Он бьёт не в брод, а в глаз, Был ранен много раз. Он людям товарищ, Всегда он за нас. Чему эта вражда, Никак я не пойму, Он нас защищает, Так налетишь ему. Ведьмаку заплатите Чеканной монетой, Чеканной монетой, о-о-о Ведьмаку заплатите Зачтется всё это вам Ведьмаку заплатите Чеканной монетой, Чеканной монетой, о-о-о Ведь могу заплатите, зачтется все это. Ведь могу заплатите, чеканы монетой, чеканы монетой. Ведь могу заплатите, зачтется все это.



-- Как понять что статья написана тупым роботом?
-- Он не умеет считать.
А где gigaam и t-one?
Еще хороший ИИ https://wisprflow.ai/ - распознает даже тип текста (список дел, стихи и пр).
У меня стояла задача - работа с результатами мутнейших двухчасовых созвонов которые я слушая в пол уха но надо быть в курсе и контролировать что там кто кому наобещал . Решил следующим образом - оформил подписку на replicate.co. Там доступна для запуска дотренированная и. дообученная модель whisper с разделением спикеров и прочими плюшками . Через Claude написал на питоне web приложение которое взаимодействует с этой моделью через стандартный api replicate. Приложение закинул на домашний сервер в докер. Все проблема решена. Совещания пишу в файл результаты скидываю в свое приложение , расшифровка занимает пару минут. Количество спикеров до 15 человек , учитывая специфическую терминологию и то что все говорят одновременно , качество отличное . Текстовый файл с расшифровкой кидаю нейросетке и прошу сделать максимально подробный разбор совещания с отсылками на прямую речь участников , для контроля нейросети . Получается очень продуктивно и стоимость расшифровки одного совещания буквально 5 - 10 центов выходит
проверял неоднократно все корректно отсебятины нет , максимум неправильно имена и узко отраслевые термины и англицизмы. Но это из контекста и так понятно
По личному опыту конкретный вариант Whisper - https://huggingface.co/spaces/sanchit-gandhi/whisper-jax - прекрасно справлялся с транскрипцией интервью и совещаний от 5 до 60 минут с разным уровнем качества речи (в пустой студии, на улице, в шумной переговоке). Преобразовывал довольно шустро, а главное - бесплатно. Сейчас не работает, т.к. какие-то проблемы с доступом к серверам Amazon.
Whisper запускаю локально. Модель large работает на мобильной 3070 8gb терпимо. Транскрибация правда довольно медленная получается, примерно 1 к 1 по времени. Т.е. час видео транскрибируется час реального времени. Зато бесплатно)
Тут дают 20 часов в сутки на аккаунта виспер https://console.groq.com/settings/limits
Скорость x240.
Куски только резать надо по 25мб. И нет временных меток.
Бесплатно
Модель large работает на мобильной 3070 8gb терпимо. Транскрибация правда довольно медленная получается, примерно 1 к 1 по времени. Т.е. час видео
Попробуйте whisper.cpp, должно быть быстрее на 3070. Модели в формате ggml (по сути тоже самое, что gguf) лежат тут: https://huggingface.co/ggerganov/whisper.cpp. У whisper ещё вышла модель whisper-large-v3-turbo, она быстрее и легче чем просто large-v3.
На 4060ti часовая лекция разбирается:
– за 7 минут на large-v3 неквантованная, 4гб vram
– за 5.1 минуты на large-v3 в кванте q5_0, 2.5гб vram
– за 2.3 минуты на large-v3-turbo в кванте q8_0, 1.6гб vram.

Есть файнтюны для русского языка, но тоже не идеальные:
– для large-v3: Andrei1980/whisper-large-rus-ggml (обучена лучше)
– для large-v3-turbo: dvislobokov/whisper-large-v3-turbo-russian (обучена хуже, путает слова)

Для английского есть модели получше чем whisper, рейтинг тут: https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
Для русского ещё есть модели: vosk, GigaAM и T-one.
«Скопирую и покажу вам», — думал я, но нейросеть запрещает копирование. Скачивание и копирование результата доступны только на платной основе!
Всё, что отображается — можно скопировать. DevTools открываете, копируете innerHTML и ловите кайф.
И ещё. Нейросеть запретить копирование никак не может. Ну вот вообще никак.
Запилил с командой Aiesa.ru бесплатный и безлимитный транскрибатор - @media_to_textbot
Бот может переводить аудио/видео файлы в текст, с которым можно после поработать в нейросетях!
Поддерживает ссылки с Яндекс и Google диск-ов, пересланные сообщения в Telegram и прямую загрузку файлов, скоро еще добавим возможность кидать ссылки с Youtube и других видеохостингов!
Попробуй сам и поделись с другом)
Топ-5 бесплатных нейросетей для транскрибации: лучшие сервисы для перевода аудио в текст