Комментарии 6
я не программист, но всегда интересовал момент распознавания человеческой речи с целью ввода текста или хотя бы прогонки аудиоподкаста с целью получения портянки текста, т.к. читаю лично я много быстрее чем диктор читает текст/собеседник озвучивает мысли. Есть ли приложение для ПК в которое можно было нажав на кнопку на выходе получить текстовый файл? Или пока такие вещи недоступны обычному юзеру?
Насчет чисто приложений для ПК — есть миллион инвестиционных стартапов из США на эту тему, но там приложение это как правило тонкий клиент.
Мы делали что-то подобное, но на минималках для длинных файлов для обычных граждан — https://habr.com/ru/post/587512/
Да, в статье наверное стоило еще показать пример того, что генерирует пример в колабе на базе своего голоса (это микрофон в ноутбуке, он шакальный)
Очень полезный инструмент. Спасибо огромное авторам, что выложили в открытый доступ - ребят, вы лучшие
А ты используешь VAD? Что это такое и зачем он нужен