Создание приложения для распознавания текста с изображений и аудиофайлов / Комментарии / Хабр

economist75 6 сен 2023 в 08:57

Супер, доходчиво расписан весь стек и приемы. Уверен что это станет хорошим примером для построения собственных сервисов. Лоскутная автоматизация в web-обертке становится намного ближе к пользователю, чем классические "батники" на файловых серверах, делающие то же самое.

Tesseract c версии 5 сделал мощный рывок по качеству распознавания и однозначно он сейчас лучший в СПО/OSS в части текстов "офисного" содержания и ксерографической размазанности.

С распознаванием речи - SpeechRecognizer, имхо, все же уступает более тяжелым решениям от Vosk и Whisper в точности. Эти либы также доступны в Python.

Создание приложения для распознавания текста с изображений и аудиофайлов

Комментарии 2

Публикации