Pull to refresh
19
0
Николай Луняка@lynikol

Системный аналитик

Send message

Спасибо, очень интересно!) 🙌🏽

У меня пока без WS - просто подача готовых файлов через transcribe().

Стримингом не занимался, но то, что Whisper сам закрывает соединение - интересно, и реально выглядит неудобно 🤔

Буду изучать в этом направлении, если прям «пальцем в небо», то может попробовать отправлять нулевые байты вместо тишины, чтобы Whisper не считал, что поток оборвался

Но если найдете стабильное решение, то обязательно поделитесь, будет полезно!)

Спасибо за вопрос) 

На пк действительно куда проще, ведь есть плагины для записи звука вкладки, расширения и даже ffmpeg

На Android сложнее… Я не копал в эту сторону, думаю что будут нужны root права или какие либо сторонние приложения (надо поискать на форумах) 

Из рабочих вариантов, которые мне видятся:

  • Использовать внешнюю запись микрофона (например, через диктофон)

  • Или подключать Android к пк и писать через OBS/ffmpeg уже с десктопа

Если найдёте обход, то поделитесь, очень интересно будет глянуть!)

Спасибо большое за обратную связь 🙌🏽

Рад, что статья помогла)

Логика понятная, но, к сожалению, не все площадки дают такие данные - у многих закрытые API или вообще нет экспорта говорящих.

А если запись пришла с телефона, диктофона или оффлайн-платформы - отследить, кто говорил, уже не получится

Диаризация по голосу универсальна, она по сути работает с любым аудиофайлом, независимо от источника.

Но идея про комбинирование с визуальными индикаторами - интересная, можно докрутить!)

Спасибо! 🙌🏽

Спасибо большое!) 🙌

Обязательно попробуйте, буду рад услышать, что все получилось)

Я запускал у себя на Ryzen 7 PRO 2700 + RTX 3060 (12GB).

Если кратко по устройствам, то я думаю, что
Athlon 220GE - потянет Whisper моедли tiny, может и base. С NeMo тоже справится, но медленно. Саммари LLM вряд ли уже получится

i5 gen10 - вполне можно делать транскрибацию и диаризацию, LLM — только небольшие, можно рассмотреть такую как - Mistral 7B q4

Xeon 2640 хороший CPU, NeMo и Whisper точно потянут, а вот Ollama + Gemma 27B, то только при наличии мощной видеокарты (12GB минимум).

Для саммари советую попробовать Llama3 8B или Mistral 7B . Они на CPU ещё кое-как идут

Так что вполне можно пройтись по всему флоу, но с меньшими моделями 🙌

А так можно заглянуть на оф репы, ссылки приложены в статье. Там есть таблицы по совместимости и размеру моделей

Спасибо! 🙌

Да, платная версия ChatGPT — мощный инструмент, сам пользовался, особенно для саммари. Но это деньги и безопасность...

Ну а про ИБ — прямо в точку)) Это была одна из главных причин собрать всё локально.

2

Information

Rating
Does not participate
Location
Краснодар, Краснодарский край, Россия
Date of birth
Registered
Activity

Specialization

Системный аналитик
Ведущий
SQL
Python
UML
BPMN
Анализ требований
Системная аналитика
Техническая документация