Pull to refresh

Scribd бесплатно отсканирует ваши документы

Reading time 1 min
Views 798
Lumber room
Стартап Scribd, который специализируется на публикации документов через флэш-виджеты, вчера объявил о старте беспрецедентной программы Scribd iPaper. Чтобы привлечь на свой хостинг побольше файлов, они решили делать бесплатное сканирование и OCR всех документов и книг, которые пришлют им по почте. Это действительно уникальное предложение, потому что у нас цены на сканирование и распознавание текстов начинаются примерно от $0,17 за страницу, а здесь всё бесплатно.


Читать дальше →
Total votes 24: ↑23 and ↓1 +22
Comments 26

Методы распознавания текстов

Reading time 6 min
Views 57K
Algorithms *
Sandbox
Несмотря на то, что в настоящее время большинство документов составляется на компьютерах, задача создания полностью электронного документооборота ещё далека до полной реализации. Как правило, существующие системы охватывают деятельность отдельных организаций, а обмен данными между организациями осуществляется с помощью традиционных бумажных документов.
Читать дальше →
Total votes 85: ↑73 and ↓12 +61
Comments 59

Распознавание изображений документов с использованием алгоритма «рулетки»

Reading time 7 min
Views 11K
Cognitive Technologies corporate blog Algorithms *
В.А. Малых, Д.Л. Шоломов, В.В. Арлазаров


Для достижения хорошего качества распознавания критически важных полей на формах необходимо использовать дополнительную информацию. Зачастую для этого в формат распознаваемого поля специально вводится проверочный разряд или иная избыточная информация.

В данной статье предложен универсальный алгоритм «рулетки» для распознавания полей с проверочной функцией.
В статье также приведены результаты практической апробации предложенного алгоритма и, кроме того, дана общая классификация проверочных алгоритмов.

Читать дальше →
Total votes 14: ↑11 and ↓3 +8
Comments 6

Как машинное обучение помогает открыть мир Древней Японии

Reading time 10 min
Views 3K
SkillFactory corporate blog Image processing *Machine learning *Reading room Popular science
Translation


Богатая история человечества оставила после себя огромное количество исторических документов и артефактов. Однако практически все документы, содержащие рассказы и записанный опыт, имеющие существенное значение для нашего культурного наследия, понятны только специалистам по причине языковых и письменных изменений, происходящими со временем. Специально к старту нового потока курса по Машинному Обучению делимся статьёй Алекса Лэмба – аспиранта Монреальского университета и Монреальского института алгоритмов обучения (MILA), посвящённой использованию ML для распознавания древних рукописных текстов.
Приятного чтения!
Total votes 8: ↑8 and ↓0 +8
Comments 3