Пост @Ata_Akhunzhanov — Искусственный интеллект

5 фев в 07:354K

Искусственный интеллектГолосовые интерфейсы *

Транскрибатор встреч с ИИ-ассистентом. И Самые популярные локальные модели Speech-to-Text

Сидел тут на днях и хотел решить задачу с записью и транскрибацией встреч. Вроде бы есть куча решений: Fireflies, Otter AI, MyMeet и другие. Казалось бы, зачем изобретать велосипед.

Но моя главная боль: "сидеть конспектировать"
Стартапы вроде бы что-то делают, но не решают мою проблему. Настроить интеграции и автоматизацию практически невозможно.
А я хочу, чтоб после каждой встречи в телегу и на почту получал договоренности и саммари встречи.

Проблема есть, а решение навайбкодил себе.
Агент записывает все встречи, транскрибирует локально, потом делает саммари через DeepSeek (тоже локально крутится). После этого автоматом присылает саммари в Telegram, и на почту, если нужно забивает задачи в Jira и сохраняет всё в память.
Теперь пишу агенту: "Что обсуждали с Ивановым?" он сразу отвечает. Или "Какие задачи взял Петров?" находит и выдаёт.

Архитектура чуть глубже: там сохранение, индексация, поиск и т.д. На выходных как-нибудь напишу как строить deep knowledge base agent.

Кстати, речь то вообще не об агентах сегодня, а о решениях как транскрибировать.Но вообще я хотел с вами сегодня поделиться локальными STT, которые на русском хорошо работают, и достаточно легковесные.

Что за модели, и когда какую использовать

🔹 GigaAM-v3 (https://huggingface.co/ai-sage/GigaAM-v3?utm_source=chatgpt.com) – Если у вас русскоязычные без техничских терминов встречи, разговорная речь, шум, разные микрофоны, и хочется качество ближе к “топу”, это один из первых кандидатов для теста. Хорош для батча, для “встречи и заметки”.

🔹 NVIDIA NeMo stt_ru_fastconformer_hybrid_large_pc (https://huggingface.co/nvidia/stt_ru_fastconformer_hybrid_large_pc) – Когда важна скорость и стабильность, и хотите быстро прогнать много часов встреч локально. В общем я использовал для КЦ чтобы прогнать 80-90 часов бесед

🔹NVIDIA Canary-1b-v2 (https://huggingface.co/nvidia/canary-1b-v2)– Когда на встречах мешаются языки, английские термины, и нужен мультиязычный вариант.

🔹 Voxtral Mini 3B (Mistral AI) (https://huggingface.co/mistralai/Voxtral-Mini-3B-2507) – Когда нужен не только транскрипт, но и понимание аудио, вопросы-ответы по встрече, умные итоги. Можно просить сразу саммари на выходе. Есть 2 модели.

🔹 Vosk (https://github.com/alphacep/vosk-api) – Когда нужно супер-легко и офлайн, без тяжелого стека, качество “достаточно”, и быстро поднять.

🔹 whisper.cpp (https://github.com/ggml-org/whisper.cpp) – Если вы будете запускать на ноуте без Python, на CPU, и легко встроить в приложение. (Я кстати использую его)

🔹 WhisperX (https://github.com/m-bain/whisperX)– А это уже более сложный вариант и уже практически упакованный для встреч: таймкоды по словам, иногда спикеры, и потом проще искать, где что сказали. Это обвязка вокруг Whisper, а не отдельная модель.

Дополнительные инструменты:

⚡️ Silero VAD (https://github.com/snakers4/silero-vad)– Это “детектор речи”. Он режет тишину и паузы, ускоряет pапись на длинных встречах, и часто повышает качество, потому что модель меньше путается на тишине.

⚡️ pyannote.audio (https://github.com/pyannote/pyannote-audio) – Если вам важно делить дорожки по спикерам и различать “кто, и когда говорил”, то есть диаризация. Если на встрече больше 3 человек это must-have.

Еще оставлю вам ссылку где собраны все модели: удобно тестировать https://istupakov-onnx-asr.hf.space/.