empenoso Sep 2 at 00:23

Как локально и бесплатно распознать текст лекции или совещания и делать это регулярно

Easy

6 min

12K

Open source * Configuring Linux * Smart HousePython *

Case

+21

Comments 12

granv1 Sep 2 at 01:29

а в docker не хотелось собирать?

empenoso Sep 2 at 02:09

Docker - хороший вариант для удобного развёртывания. Но в статье я специально показал самый простой путь для любого новичка.

P.S. Контейнер соберу позже.

PopovPS Sep 2 at 02:40

А как решаете вопрос со специализированными терминами? Мы пробовали такой подход на лекциях медицинской тематики. Оказалось что с терминологией whisper работает, прямо скажем, не очень хорошо. А поскольку нам это нужно было для дальнейшего перевода лекций на язык студентов, это оказалось серьезной проблемой.

LittleMeN Sep 2 at 02:52

Попробуйте постобработкой с локальной llm. В промпт зашиваете специфические термины, и просьбу исправить после whisper который ошибся при распознавании.

Если все равно плохо выходит — увы только дообучать whisper под свою терминологию

LittleMeN Sep 2 at 03:59

Кстати в whisper.cpp можно задать инициирующий промпт с терминологией:

./main -m models/ggml-large-v3.bin -f lecture.wav --language en --temperature 0 --beam-size 5 --initial-prompt "Today we discuss cardiology: myocarditis, troponin, echocardiography, ACE inhibitors, beta-blockers, atrial fibrillation, heparin, warfarin, NOACs..."

PopovPS Sep 2 at 04:06

Как вариант для английского хорошо. Но с русским языком работает через раз.

Gar02b Sep 2 at 06:26

А может ли ИИ делать де-диареизацию (она же - "горловое пение докладчика")? Это когда "Наша а-а-а-а команда разработала а-а-а-а решение а-а-а-а, которое м-м-м...".

Актуально, к сожалению, везде: и на совещаниях, и на вебинарах.

sneg2015 Sep 2 at 12:55

Я использую приложение чатГПТ на маке. Оно позволяет записывать аудио и отправлять его Чат гпт, который потом его расшифровывает и анализирует. Думаю ещё можно нуотбукЛМ для этих целей использовать. Но о приватности тут конечно речи не идёт.

Ralory Sep 7 at 04:47

Я использовал гемини для транскрипции стримов, тк там контекстное окно позволяет загружать аудио до 9 часов (если только аудио, проста расходует токены). Но работает не всегда хорошо

astenix Sep 2 at 18:01

Мои скрипты скриптее ваших! Транскрибирование через Whisper на bash https://github.com/testitquickly/bystro.whisper

Там тоже всё запускается через питоновский venv, и недавно добавил дополнительную обработку текста через sentence-transformer, который работает на Pythong, поэтому «чистый bash» отпадает.

И описание проекта будет сделано только в финале — еще надо развести настройки на две ветви, чтобы поменьше что-то переписывать, если для работы доступен только CPU. А и когда есть GPU, надо тонко балансировать нагрузку на CPU, бо Whisper начинает активно жарить только одно ядро, даже если их множество.

И с качеством итоговых текстов ещё получается криво, даже при запуске на самой старшей модели. Без сохранения исходного звука и субтитров к нему в файле vtt автору бывает сложно понять, о чем автор говорил, глядя в транскрибированный текст. Раньше это частично решалось тем, что транскрибаторы иногда что-то переписывали «на понятный язык», а сейчас куда всё подевалось…

empenoso Sep 3 at 01:19

Хорошо

meeshanya Sep 2 at 19:03

Совершенно не волнуюсь о приватности не грею свое железо - гоняю с таким же успехом гугловские машины на колабе, часовая лекция на модели large транскрибируется минут за 10.