Обновить

Meeting-LLM: Транскрипция + ИИ-анализ совещаний в одном окне своими руками (T-One + GPT-OSS-20B)

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели5.5K
Всего голосов 4: ↑3 и ↓1+2
Комментарии14

Комментарии 14

Сори, открыл, не заметил) ПОпробуйте сейчас

Попиарюсь - сделал недавно на основе whisper, pyannote, runpod своего бота для транскрибации видео и звонков) Разделяет на спикеров, расставляет пунктуацию, час распознает за 5 минут. Живет в телеге - @slovami_4erez_bot

Можете тоже исходниками поделиться как автор?

Здравствуйте, не могу, это коммерческий проект. А вам для чего? Могу вам доступ по АПИ сделать зато, если хотите.

Спасибо за идею с альтернативными моделями! Тоже делаю себе такое, но как мобильное приложение на телефон, осталось прикрутить разделение на спикеров.

На пк делал как в комментарии выше через v3 turbo и pyannote - работает очень хорошо.

Во всех этих историях мне пока совершенно не понятно, как поселить такого слушателя во встрече в teams, в условиях перехода на on prem

Класс! Недавно делал проект - локальное ллм на айфон, можете тоже для интереса прочитать!)

Интересный проект, респект автору!

Что можно улучшить: Обязательно добавьте разделение на спикеров (диаризацию). Для обработки встреч и совещаний это категорически важно, иначе качество самари сильно падает.

Убедился в этом на собственном опыте разработки voice2doc.com
без определения голосов практическая польза от расшифровки митингов падает в разы.

Благодарю за коммент! Да, прикручу в следующей версии, если время в новогодние будет!) Вы pyannote community для диаризации делали?)

да, pyannote/speaker-diarization-community-1
в идеале при ее использовании нужно указывать сколько спикеров учувствует на встрече
иначе она одного и того же спикера может воспринимать как двух разных.

llm ставлю , но контейнер падает. по логам не хватает памяти на карте. делал квантизацию, тоже контейнер падает. как думаете, в чем может быть дело?
4060 ti 16 gb

T-one запустите на cpu, а ллм на gpu. 16гб как раз впритык должно хватать для gptoss20b. А на каком движк напускаете - vllm/llama.cpp? Попробуйте еще уменьшить max_context или gpu_utilization

Я проверил все комбинации на vLLM (2048–8192, gpu_utilization до 0.95) – после загрузки весов KV-cache остаётся отрицательным и движок не стартует. Подскажи, пожалуйста, на каком именно движке и с какими параметрами у тебя получилось запустить gpt-oss-20b на 16 GB.


  1. На каком движке у вас реально запускался gpt-oss-20b?
    vLLM или llama.cpp (или другой)?

  2. Если vLLM – какие параметры вы использовали?

  • max_model_len

  • gpu_memory_utilization

  • dtype

  • была ли квантизация (AWQ/GPTQ)

  • использовали ли --kv-cache-dtype fp8

  1. Подтвердите конфигурацию GPU:

  • точная модель видеокарты

  • объём VRAM

  • Windows/Linux

  • WDDM или TCC (если Windows)

  1. Есть ли у вас лог строки Available KV cache memory при старте?
    Интересует конкретное значение.

  2. Использовался ли CPU / RAM offload или multi-GPU?

  3. Контекст при котором модель стартовала стабильно?
    2048 / 4096 / другое

Обновление!

запустил.
ключ к успеху.

- Минимальный контекст (1024)

- Отключенный prefix caching

- Уменьшенный prefill batch

- Оптимизированный gpu-memory-utilization (0.92)


бэкенд не работает тока...) разбираюсь в этим

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации