Комментарии 14
Проект: github.com/Chashchin-Dmitry/meeting-llm
Ссылка не открывается -- 404. Может репозиторий приватный?
Попиарюсь - сделал недавно на основе whisper, pyannote, runpod своего бота для транскрибации видео и звонков) Разделяет на спикеров, расставляет пунктуацию, час распознает за 5 минут. Живет в телеге - @slovami_4erez_bot
Спасибо за идею с альтернативными моделями! Тоже делаю себе такое, но как мобильное приложение на телефон, осталось прикрутить разделение на спикеров.
На пк делал как в комментарии выше через v3 turbo и pyannote - работает очень хорошо.
Во всех этих историях мне пока совершенно не понятно, как поселить такого слушателя во встрече в teams, в условиях перехода на on prem
Интересный проект, респект автору!
Что можно улучшить: Обязательно добавьте разделение на спикеров (диаризацию). Для обработки встреч и совещаний это категорически важно, иначе качество самари сильно падает.
Убедился в этом на собственном опыте разработки voice2doc.com
без определения голосов практическая польза от расшифровки митингов падает в разы.
Благодарю за коммент! Да, прикручу в следующей версии, если время в новогодние будет!) Вы pyannote community для диаризации делали?)
да, pyannote/speaker-diarization-community-1
в идеале при ее использовании нужно указывать сколько спикеров учувствует на встрече
иначе она одного и того же спикера может воспринимать как двух разных.
llm ставлю , но контейнер падает. по логам не хватает памяти на карте. делал квантизацию, тоже контейнер падает. как думаете, в чем может быть дело?
4060 ti 16 gb
Я проверил все комбинации на vLLM (2048–8192, gpu_utilization до 0.95) – после загрузки весов KV-cache остаётся отрицательным и движок не стартует. Подскажи, пожалуйста, на каком именно движке и с какими параметрами у тебя получилось запустить gpt-oss-20b на 16 GB.
На каком движке у вас реально запускался gpt-oss-20b?
vLLM или llama.cpp (или другой)?Если vLLM – какие параметры вы использовали?
max_model_lengpu_memory_utilizationdtype
была ли квантизация (AWQ/GPTQ)
использовали ли
--kv-cache-dtype fp8
Подтвердите конфигурацию GPU:
точная модель видеокарты
объём VRAM
Windows/Linux
WDDM или TCC (если Windows)
Есть ли у вас лог строки
Available KV cache memoryпри старте?
Интересует конкретное значение.Использовался ли CPU / RAM offload или multi-GPU?
Контекст при котором модель стартовала стабильно?
2048 / 4096 / другое

Meeting-LLM: Транскрипция + ИИ-анализ совещаний в одном окне своими руками (T-One + GPT-OSS-20B)