adamnsandle10 дек 2021 в 12:32

А ты используешь VAD? Что это такое и зачем он нужен

5 мин

26K

Python * Голосовые интерфейсы * Искусственный интеллектМашинное обучение *

+22

Комментарии 6

LuchS-lynx 10 дек 2021 в 12:51

я не программист, но всегда интересовал момент распознавания человеческой речи с целью ввода текста или хотя бы прогонки аудиоподкаста с целью получения портянки текста, т.к. читаю лично я много быстрее чем диктор читает текст/собеседник озвучивает мысли. Есть ли приложение для ПК в которое можно было нажав на кнопку на выходе получить текстовый файл? Или пока такие вещи недоступны обычному юзеру?

snakers4 10 дек 2021 в 13:29

Насчет чисто приложений для ПК — есть миллион инвестиционных стартапов из США на эту тему, но там приложение это как правило тонкий клиент.

Мы делали что-то подобное, но на минималках для длинных файлов для обычных граждан — https://habr.com/ru/post/587512/

nixtonixto 11 дек 2021 в 12:00

В Виндовс 11 есть встроенный голосовой ввод, с поддержкой русского языка.

snakers4 10 дек 2021 в 14:25

Да, в статье наверное стоило еще показать пример того, что генерирует пример в колабе на базе своего голоса (это микрофон в ноутбуке, он шакальный)

vasilievsky 14 дек 2021 в 12:56

pi-null-mezon 14 дек 2021 в 12:56

Очень полезный инструмент. Спасибо огромное авторам, что выложили в открытый доступ - ребят, вы лучшие

Зарегистрируйтесь на Хабре, чтобы оставить комментарий