Comments / Profile of Mind08 / Habr

Казаков Денис@Mind08

Data scientist

Subscribers

ProfileArticles2PostsNewsComments17

Мы опубликовали современный Voice Activity Detector и не только

Mind08 Jul 21 2025 at 14:04

Можно еще на Hugging Face покопать. Возможно, именно для этой задачи подойдет что-то другое.

Мы опубликовали современный Voice Activity Detector и не только

Mind08 Jul 21 2025 at 08:21

Только реагировать или нужно дальше расшифровывать речь? Если расшифровывать, то можно попробовать Whisper. Или Faster Whisper - в него встроен VAD. Вместе, возможно, будет работать лучше.

Асинхронный python без головной боли (часть 1)

Mind08 May 30 2025 at 10:10

Спасибо за хорошую статью! Просто и понятно.
Если говорить о жаргоне, можно добавить, что конкурентность - тоже жаргон.
В русском конкурентный - соперничающий (в ангш. competing).
Concurrency - одновременное выполнение.

Сравнение Vosk и Whisper

Mind08 May 25 2024 at 10:06

Любой виспер, любые условия, правда всё на пайтоне. Конкретнее:
1. Локально (или в гугл-колаб, или на сервере) устанавливаем библиотеку, скачиваем любоую из моделей от tiny до large и расшифровываем аудио и видео (https://github.com/openai/whisper). Если есть видеокарта с ГПУ и памяти хватает на выбранную модель, то работает гораздо быстрее.
2. Через запросы в openai (python или командная строка). Нужен аккаунт, впн из РФ и платить за токены. Вот тут есть ограничение 25 Мб, но это сильно больше 30 сек.

Это основные варианты. Есть еще возможность бесплатно запускать модели на Hugging Face и, наверное, еще где-то.

Сравнение Vosk и Whisper

Mind08 May 23 2024 at 08:47

У Whisper продолжительность записи не ограничена 30 секундами!!! Лекции продолжительностью час спокойно расшифровывал.

Мы опубликовали современный Voice Activity Detector и не только

Mind08 Mar 13 2024 at 16:02

Преобразовал в тензор. Вроде работает. Спасибо!

Мы опубликовали современный Voice Activity Detector и не только

Mind08 Mar 13 2024 at 15:59

А дальше преобразовать в тензор или оставить список?
Со списком работают get_speech_timestamps и vad_iterator.
Команда collect_chunks(speech_timestamps, sound_scaled) выдает ошибку "TypeError: expected Tensor as element 0 in argument 0, but got list"
model(chunk, SAMPLING_RATE) выдает ошибку "forward() Expected a value of type 'Tensor' for argument 'x' but instead found type 'list'."

Мы опубликовали современный Voice Activity Detector и не только

Mind08 Mar 13 2024 at 15:11

День добрый! Если я получаю данные с микрофона в виде последовательности целых чисел (pvrecorder), как их лучше обрабатывать перед подачей в Silero VAD?

Патч от Intel для ускорения алгоритмов библиотеки scikit-learn

Mind08 Mar 27 2023 at 14:49

Да, пригодилось бы. Про эту заплатку я случайно узнал при переустановке.

Патч от Intel для ускорения алгоритмов библиотеки scikit-learn

Mind08 Mar 26 2023 at 16:50

Пишут, что поддерживает все процессоры с архитектурой x86. Не обязательно интел, но с интел результаты лучше.

Патч от Intel для ускорения алгоритмов библиотеки scikit-learn

Mind08 Mar 26 2023 at 08:04

Я пока не замечал, но только начал использовать. Можно еще проверить требования к алгоритмам (не все значени гиперпараметров допустимы) и к системе: "ARM* architecture is not supported."

Optuna. Подбор гиперпараметров для вашей модели

Mind08 Mar 12 2023 at 14:21

Спасибо!

Экспериментировал немного. Заметил, что распределение важности гиперпараметров нестабильно, сильно меняется при повторных запусках (продолжение обучения), небольшом изменении поиска.

HalvingSearch: ускорение поиска по сетке (grid search). Библиотека sklearn

Mind08 Mar 9 2023 at 09:21

Спасибо! Скоро нарисую

HalvingSearch: ускорение поиска по сетке (grid search). Библиотека sklearn

Mind08 Mar 8 2023 at 18:49

Ок, добавлю

Про правильный кокс, ИТ и эксперименты с ним

Mind08 Sep 20 2022 at 09:32

Логично.

Говорили, что даже группу набираете, но, видимо, неточная информация.

В любом случае подписался, т.к. интересно ML в промышленности.

Про правильный кокс, ИТ и эксперименты с ним