Comments 10
Проект: github.com/Chashchin-Dmitry/meeting-llm
Ссылка не открывается -- 404. Может репозиторий приватный?
Попиарюсь - сделал недавно на основе whisper, pyannote, runpod своего бота для транскрибации видео и звонков) Разделяет на спикеров, расставляет пунктуацию, час распознает за 5 минут. Живет в телеге - @slovami_4erez_bot
Спасибо за идею с альтернативными моделями! Тоже делаю себе такое, но как мобильное приложение на телефон, осталось прикрутить разделение на спикеров.
На пк делал как в комментарии выше через v3 turbo и pyannote - работает очень хорошо.
Во всех этих историях мне пока совершенно не понятно, как поселить такого слушателя во встрече в teams, в условиях перехода на on prem
Интересный проект, респект автору!
Что можно улучшить: Обязательно добавьте разделение на спикеров (диаризацию). Для обработки встреч и совещаний это категорически важно, иначе качество самари сильно падает.
Убедился в этом на собственном опыте разработки voice2doc.com
без определения голосов практическая польза от расшифровки митингов падает в разы.
Благодарю за коммент! Да, прикручу в следующей версии, если время в новогодние будет!) Вы pyannote community для диаризации делали?)
да, pyannote/speaker-diarization-community-1
в идеале при ее использовании нужно указывать сколько спикеров учувствует на встрече
иначе она одного и того же спикера может воспринимать как двух разных.
Meeting-LLM: Транскрипция + ИИ-анализ совещаний в одном окне своими руками (T-One + GPT-OSS-20B)