All streams
Search
Write a publication
Pull to refresh
3
0
Казаков Денис @Mind08

Data scientist

Send message

Можно еще на Hugging Face покопать. Возможно, именно для этой задачи подойдет что-то другое.

Только реагировать или нужно дальше расшифровывать речь? Если расшифровывать, то можно попробовать Whisper. Или Faster Whisper - в него встроен VAD. Вместе, возможно, будет работать лучше.

Спасибо за хорошую статью! Просто и понятно.
Если говорить о жаргоне, можно добавить, что конкурентность - тоже жаргон.
В русском конкурентный - соперничающий (в ангш. competing).
Concurrency - одновременное выполнение.

Любой виспер, любые условия, правда всё на пайтоне. Конкретнее:
1. Локально (или в гугл-колаб, или на сервере) устанавливаем библиотеку, скачиваем любоую из моделей от tiny до large и расшифровываем аудио и видео (https://github.com/openai/whisper). Если есть видеокарта с ГПУ и памяти хватает на выбранную модель, то работает гораздо быстрее.
2. Через запросы в openai (python или командная строка). Нужен аккаунт, впн из РФ и платить за токены. Вот тут есть ограничение 25 Мб, но это сильно больше 30 сек.

Это основные варианты. Есть еще возможность бесплатно запускать модели на Hugging Face и, наверное, еще где-то.

У Whisper продолжительность записи не ограничена 30 секундами!!! Лекции продолжительностью час спокойно расшифровывал.

Преобразовал в тензор. Вроде работает. Спасибо!

А дальше преобразовать в тензор или оставить список?
Со списком работают get_speech_timestamps и vad_iterator.
Команда collect_chunks(speech_timestamps, sound_scaled) выдает ошибку "TypeError: expected Tensor as element 0 in argument 0, but got list"
model(chunk, SAMPLING_RATE) выдает ошибку "forward() Expected a value of type 'Tensor' for argument 'x' but instead found type 'list'."

День добрый! Если я получаю данные с микрофона в виде последовательности целых чисел (pvrecorder), как их лучше обрабатывать перед подачей в Silero VAD?

Да, пригодилось бы. Про эту заплатку я случайно узнал при переустановке.

Пишут, что поддерживает все процессоры с архитектурой x86. Не обязательно интел, но с интел результаты лучше.

Я пока не замечал, но только начал использовать. Можно еще проверить требования к алгоритмам (не все значени гиперпараметров допустимы) и к системе: "ARM* architecture is not supported."

Спасибо!

Экспериментировал немного. Заметил, что распределение важности гиперпараметров нестабильно, сильно меняется при повторных запусках (продолжение обучения), небольшом изменении поиска.

Логично.

Говорили, что даже группу набираете, но, видимо, неточная информация.

В любом случае подписался, т.к. интересно ML в промышленности.

Понятно. Слышал, что на НЛМК вроде R собирались внедрять.

Добрый день! Какой язык Вы используете на этом проекте?

Information

Rating
Does not participate
Registered
Activity

Specialization

Data Analyst, Data Scientist
From 120,000 ₽
Machine learning
Python
Keras
Pandas
R
Math statistics
Data Analysis
SQL
Git
English