Dmitrii-Chashchin Dec 29 2025 at 06:00

Meeting-LLM: Транскрипция + ИИ-анализ совещаний в одном окне своими руками (T-One + GPT-OSS-20B)

Easy

5 min

5.7K

Machine learning * Artificial IntelligenceProduct Management * Sales management * Personnel Management *

Case

AI in developers season

Comments 14

holgw Dec 29 2025 at 06:55

Проект: github.com/Chashchin-Dmitry/meeting-llm

Ссылка не открывается -- 404. Может репозиторий приватный?

Dmitrii-Chashchin Dec 29 2025 at 07:00

Сори, открыл, не заметил) ПОпробуйте сейчас

scythargon Dec 29 2025 at 07:27

Попиарюсь - сделал недавно на основе whisper, pyannote, runpod своего бота для транскрибации видео и звонков) Разделяет на спикеров, расставляет пунктуацию, час распознает за 5 минут. Живет в телеге - @slovami_4erez_bot

hitmany Dec 29 2025 at 15:38

Можете тоже исходниками поделиться как автор?

scythargon Jan 1 at 08:17

Здравствуйте, не могу, это коммерческий проект. А вам для чего? Могу вам доступ по АПИ сделать зато, если хотите.

leon_sergey Dec 29 2025 at 20:09

Спасибо за идею с альтернативными моделями! Тоже делаю себе такое, но как мобильное приложение на телефон, осталось прикрутить разделение на спикеров.

На пк делал как в комментарии выше через v3 turbo и pyannote - работает очень хорошо.

Во всех этих историях мне пока совершенно не понятно, как поселить такого слушателя во встрече в teams, в условиях перехода на on prem

Dmitrii-Chashchin Dec 30 2025 at 04:41

Класс! Недавно делал проект - локальное ллм на айфон, можете тоже для интереса прочитать!)

axilab Dec 30 2025 at 02:47

Интересный проект, респект автору!

Что можно улучшить: Обязательно добавьте разделение на спикеров (диаризацию). Для обработки встреч и совещаний это категорически важно, иначе качество самари сильно падает.

Убедился в этом на собственном опыте разработки voice2doc.com
без определения голосов практическая польза от расшифровки митингов падает в разы.

Dmitrii-Chashchin Dec 30 2025 at 04:40

Благодарю за коммент! Да, прикручу в следующей версии, если время в новогодние будет!) Вы pyannote community для диаризации делали?)

axilab Dec 30 2025 at 05:03

да, pyannote/speaker-diarization-community-1
в идеале при ее использовании нужно указывать сколько спикеров учувствует на встрече
иначе она одного и того же спикера может воспринимать как двух разных.

Restocrat Jan 7 at 06:58

llm ставлю , но контейнер падает. по логам не хватает памяти на карте. делал квантизацию, тоже контейнер падает. как думаете, в чем может быть дело?
4060 ti 16 gb

Dmitrii-Chashchin Jan 7 at 09:41

T-one запустите на cpu, а ллм на gpu. 16гб как раз впритык должно хватать для gptoss20b. А на каком движк напускаете - vllm/llama.cpp? Попробуйте еще уменьшить max_context или gpu_utilization

Restocrat Jan 7 at 11:10

Я проверил все комбинации на vLLM (2048–8192, gpu_utilization до 0.95) – после загрузки весов KV-cache остаётся отрицательным и движок не стартует. Подскажи, пожалуйста, на каком именно движке и с какими параметрами у тебя получилось запустить gpt-oss-20b на 16 GB.

На каком движке у вас реально запускался gpt-oss-20b?
vLLM или llama.cpp (или другой)?
Если vLLM – какие параметры вы использовали?

max_model_len
gpu_memory_utilization
dtype
была ли квантизация (AWQ/GPTQ)
использовали ли --kv-cache-dtype fp8

Подтвердите конфигурацию GPU:

точная модель видеокарты
объём VRAM
Windows/Linux
WDDM или TCC (если Windows)

Есть ли у вас лог строки Available KV cache memory при старте?
Интересует конкретное значение.
Использовался ли CPU / RAM offload или multi-GPU?
Контекст при котором модель стартовала стабильно?
2048 / 4096 / другое

Restocrat Jan 7 at 11:43

Обновление!

запустил.
ключ к успеху.

- Минимальный контекст (1024)

- Отключенный prefix caching

- Уменьшенный prefill batch

- Оптимизированный gpu-memory-utilization (0.92)

бэкенд не работает тока...) разбираюсь в этим