Comments / Profile of lynikol / Habr

Николай Луняка@lynikol

Системный аналитик

ProfileArticles1PostsNewsComments27

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

@lynikol May 19 at 17:31

Спасибо, очень интересно!) 🙌🏽

У меня пока без WS - просто подача готовых файлов через transcribe().

Стримингом не занимался, но то, что Whisper сам закрывает соединение - интересно, и реально выглядит неудобно 🤔

Буду изучать в этом направлении, если прям «пальцем в небо», то может попробовать отправлять нулевые байты вместо тишины, чтобы Whisper не считал, что поток оборвался

Но если найдете стабильное решение, то обязательно поделитесь, будет полезно!)

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

@lynikol May 19 at 17:06

Спасибо за вопрос)

На пк действительно куда проще, ведь есть плагины для записи звука вкладки, расширения и даже ffmpeg

На Android сложнее… Я не копал в эту сторону, думаю что будут нужны root права или какие либо сторонние приложения (надо поискать на форумах)

Из рабочих вариантов, которые мне видятся:

Использовать внешнюю запись микрофона (например, через диктофон)
Или подключать Android к пк и писать через OBS/ffmpeg уже с десктопа

Если найдёте обход, то поделитесь, очень интересно будет глянуть!)

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

@lynikol May 19 at 15:45

Спасибо большое за обратную связь 🙌🏽

Рад, что статья помогла)

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

@lynikol May 19 at 15:44

Логика понятная, но, к сожалению, не все площадки дают такие данные - у многих закрытые API или вообще нет экспорта говорящих.

А если запись пришла с телефона, диктофона или оффлайн-платформы - отследить, кто говорил, уже не получится

Диаризация по голосу универсальна, она по сути работает с любым аудиофайлом, независимо от источника.

Но идея про комбинирование с визуальными индикаторами - интересная, можно докрутить!)

Спасибо! 🙌🏽

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

@lynikol May 19 at 14:54

Спасибо большое!) 🙌

Обязательно попробуйте, буду рад услышать, что все получилось)

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

@lynikol May 19 at 14:44

Я запускал у себя на Ryzen 7 PRO 2700 + RTX 3060 (12GB).

Если кратко по устройствам, то я думаю, что
Athlon 220GE - потянет Whisper моедли tiny, может и base. С NeMo тоже справится, но медленно. Саммари LLM вряд ли уже получится

i5 gen10 - вполне можно делать транскрибацию и диаризацию, LLM — только небольшие, можно рассмотреть такую как - Mistral 7B q4

Xeon 2640 хороший CPU, NeMo и Whisper точно потянут, а вот Ollama + Gemma 27B, то только при наличии мощной видеокарты (12GB минимум).

Для саммари советую попробовать Llama3 8B или Mistral 7B . Они на CPU ещё кое-как идут

Так что вполне можно пройтись по всему флоу, но с меньшими моделями 🙌

А так можно заглянуть на оф репы, ссылки приложены в статье. Там есть таблицы по совместимости и размеру моделей

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

@lynikol May 19 at 14:24

Спасибо! 🙌

Да, платная версия ChatGPT — мощный инструмент, сам пользовался, особенно для саммари. Но это деньги и безопасность...

Ну а про ИБ — прямо в точку)) Это была одна из главных причин собрать всё локально.

Information

Specialization