Как стать автором
Поиск
Написать публикацию
Обновить
3
0
Казаков Денис @Mind08

Data scientist

Отправить сообщение

Можно еще на Hugging Face покопать. Возможно, именно для этой задачи подойдет что-то другое.

Только реагировать или нужно дальше расшифровывать речь? Если расшифровывать, то можно попробовать Whisper. Или Faster Whisper - в него встроен VAD. Вместе, возможно, будет работать лучше.

Спасибо за хорошую статью! Просто и понятно.
Если говорить о жаргоне, можно добавить, что конкурентность - тоже жаргон.
В русском конкурентный - соперничающий (в ангш. competing).
Concurrency - одновременное выполнение.

Любой виспер, любые условия, правда всё на пайтоне. Конкретнее:
1. Локально (или в гугл-колаб, или на сервере) устанавливаем библиотеку, скачиваем любоую из моделей от tiny до large и расшифровываем аудио и видео (https://github.com/openai/whisper). Если есть видеокарта с ГПУ и памяти хватает на выбранную модель, то работает гораздо быстрее.
2. Через запросы в openai (python или командная строка). Нужен аккаунт, впн из РФ и платить за токены. Вот тут есть ограничение 25 Мб, но это сильно больше 30 сек.

Это основные варианты. Есть еще возможность бесплатно запускать модели на Hugging Face и, наверное, еще где-то.

У Whisper продолжительность записи не ограничена 30 секундами!!! Лекции продолжительностью час спокойно расшифровывал.

Преобразовал в тензор. Вроде работает. Спасибо!

А дальше преобразовать в тензор или оставить список?
Со списком работают get_speech_timestamps и vad_iterator.
Команда collect_chunks(speech_timestamps, sound_scaled) выдает ошибку "TypeError: expected Tensor as element 0 in argument 0, but got list"
model(chunk, SAMPLING_RATE) выдает ошибку "forward() Expected a value of type 'Tensor' for argument 'x' but instead found type 'list'."

День добрый! Если я получаю данные с микрофона в виде последовательности целых чисел (pvrecorder), как их лучше обрабатывать перед подачей в Silero VAD?

Да, пригодилось бы. Про эту заплатку я случайно узнал при переустановке.

Пишут, что поддерживает все процессоры с архитектурой x86. Не обязательно интел, но с интел результаты лучше.

Я пока не замечал, но только начал использовать. Можно еще проверить требования к алгоритмам (не все значени гиперпараметров допустимы) и к системе: "ARM* architecture is not supported."

Спасибо!

Экспериментировал немного. Заметил, что распределение важности гиперпараметров нестабильно, сильно меняется при повторных запусках (продолжение обучения), небольшом изменении поиска.

Логично.

Говорили, что даже группу набираете, но, видимо, неточная информация.

В любом случае подписался, т.к. интересно ML в промышленности.

Понятно. Слышал, что на НЛМК вроде R собирались внедрять.

Добрый день! Какой язык Вы используете на этом проекте?

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Аналитик по данным, Ученый по данным
От 120 000 ₽
Машинное обучение
Python
Keras
Pandas
R
Математическая статистика
Анализ данных
SQL
Git
Английский язык