Как стать автором
Поиск
Написать публикацию
Обновить

Создание приложения для распознавания текста с изображений и аудиофайлов

Уровень сложностиСложный
Время на прочтение29 мин
Количество просмотров11K
Всего голосов 9: ↑9 и ↓0+9
Комментарии2

Комментарии 2

Супер, доходчиво расписан весь стек и приемы. Уверен что это станет хорошим примером для построения собственных сервисов. Лоскутная автоматизация в web-обертке становится намного ближе к пользователю, чем классические "батники" на файловых серверах, делающие то же самое.

Tesseract c версии 5 сделал мощный рывок по качеству распознавания и однозначно он сейчас лучший в СПО/OSS в части текстов "офисного" содержания и ксерографической размазанности.

С распознаванием речи - SpeechRecognizer, имхо, все же уступает более тяжелым решениям от Vosk и Whisper в точности. Эти либы также доступны в Python.

НЛО прилетело и опубликовало эту надпись здесь
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации