Comments 12
а в docker не хотелось собирать?
А как решаете вопрос со специализированными терминами? Мы пробовали такой подход на лекциях медицинской тематики. Оказалось что с терминологией whisper работает, прямо скажем, не очень хорошо. А поскольку нам это нужно было для дальнейшего перевода лекций на язык студентов, это оказалось серьезной проблемой.
Попробуйте постобработкой с локальной llm. В промпт зашиваете специфические термины, и просьбу исправить после whisper который ошибся при распознавании.
Если все равно плохо выходит — увы только дообучать whisper под свою терминологию
Кстати в whisper.cpp можно задать инициирующий промпт с терминологией:
./main -m models/ggml-large-v3.bin -f lecture.wav
--language en --temperature 0 --beam-size 5
--initial-prompt "Today we discuss cardiology: myocarditis, troponin, echocardiography, ACE inhibitors, beta-blockers, atrial fibrillation, heparin, warfarin, NOACs..."
А может ли ИИ делать де-диареизацию (она же - "горловое пение докладчика")? Это когда "Наша а-а-а-а команда разработала а-а-а-а решение а-а-а-а, которое м-м-м...".
Актуально, к сожалению, везде: и на совещаниях, и на вебинарах.
Я использую приложение чатГПТ на маке. Оно позволяет записывать аудио и отправлять его Чат гпт, который потом его расшифровывает и анализирует. Думаю ещё можно нуотбукЛМ для этих целей использовать. Но о приватности тут конечно речи не идёт.
Мои скрипты скриптее ваших! Транскрибирование через Whisper на bash https://github.com/testitquickly/bystro.whisper
Там тоже всё запускается через питоновский venv, и недавно добавил дополнительную обработку текста через sentence-transformer, который работает на Pythong, поэтому «чистый bash» отпадает.
И описание проекта будет сделано только в финале — еще надо развести настройки на две ветви, чтобы поменьше что-то переписывать, если для работы доступен только CPU. А и когда есть GPU, надо тонко балансировать нагрузку на CPU, бо Whisper начинает активно жарить только одно ядро, даже если их множество.
И с качеством итоговых текстов ещё получается криво, даже при запуске на самой старшей модели. Без сохранения исходного звука и субтитров к нему в файле vtt автору бывает сложно понять, о чем автор говорил, глядя в транскрибированный текст. Раньше это частично решалось тем, что транскрибаторы иногда что-то переписывали «на понятный язык», а сейчас куда всё подевалось…
Совершенно не волнуюсь о приватности не грею свое железо - гоняю с таким же успехом гугловские машины на колабе, часовая лекция на модели large транскрибируется минут за 10.
Как локально и бесплатно распознать текст лекции или совещания и делать это регулярно