Как стать автором
Обновить

Комментарии 35

Далеко не первый подобный сервис, но… Замечательно, что тут еще можно сказать :) Ждем для русского.
Странно, что не перечислен русский язык… у меня распозналось всё.
русский не распознаёт, но из ocr слоя из pdf достаёт свободно — да. :)
Черт, неужели появится альтернатива ужасным и платным файнридерам! Ура.

Кстати, вопрос в тему, есть сейчас нормальный руссифицированный OCR, чтобы бесплатно?
CuneiForm
Совсем русский и совсем бесплатный. И под Линукс тоже.
Использовал под Вин, отказался в пользу ФайнРидера. Неудобная разметка текстовых блоков и качество распознавания хуже чем у ФайнРидера.
Модуль распознавания файнридера есть и под никсы, но полноценного энд-юзерского пакета нет.
>> неужели появится альтернатива ужасным и платным файнридерам

Чем это он так ужасен? Вроде отличная удобная программа.
да не, очень неплохая, просто за неё бабло платить надо, а это не всегда удобно. Особенно, когда OCR тебе нужен раз в год.
у них есть бесплатный онлайн-сервис с ограниченным количеством распознаваний в день.
Да, как раз два дня назад пытался воспользоваться. На отсканированную страничку (одну) он мне заявил, что там 19 листов и отказался что-либо делать, т.к. бесплатный лимит — 10.
Через анонимайзер можно вволю юзать? :)
там кажись регистрация нужна, так что если не лень будет регистрироваться на каждую партия… ) Но точно, не помню — у меня запросы маленькие и в основном хватает какого-то там допотопного файнридера, который шёл на диске со сканером.
Насчёт «ужасный». Сам в данный момент FineReader-ом не пользуюсь, но в теме одного крупного форума, посвящённого данному продукту, тусуюсь. Так вот, мнение большинства тамошних пользователей: последние версии (9, 10) хуже предыдущих (7, 8). И по удобству использования, и по уровню глючности

Возможно говоря «ужасный» люди подразумевают именно новые версии
www.cuneiform.ru/ Насколько я помню эта программа бесплатна и знает русский.
ага, уже иду узнавать, что это такое
finereader.abbyyonline.com плох?
Кто-нибудь уже тестировал? Насколько сильно портится форматирование?
Тестировал — портится. Сильно.
Ага, читаю: «The feature has been released last year as an experiment, so Google had enough time to improve the accuracy of the results.»
То есть фишка уже год работала точно, непонятно только была ли эта галочка в Google Docs.
Напишу как лицо заинтересованное в том, чтобы опорочить конкурентов :-)

Попробовал загрузить туда пару картинок и посмотреть на качество распознавания. Для документов с простым форматированием (одна колонка, контрастный текст на светлом фоне) качество распознавания довольно хорошее. Но если документ содержит более сложное ворматирование, например, несколько колонок, таблицы, неконтрастный текст, то качество распознавания существенно хуже файнридера.

Надо будет ещё сделать дополнительные тесты, но по ощущениям там внутри находится движок OCRopus/tesseract. Для простых документов пойдёт, для сложных лучше всё-таки пользоваться коммерческим OCR.
Да, ещё в качестве входного формата предпочитает pdf. jpg, из которого делается pdf, не воспринимает. Думаю, что это в ближайшее время полечат.
Это лучшая новость за сегодня, развития проекту!
Сильно портит таблицы в простом pdf.
А сырцы? Т.е. это всё хорошо, но было бы очень мило, если бы гугль «показал личико».
Не всё ещё в этом мире стало OpenSource )
Гугль открывает их только если приобретённый проект уже был лицензирован под свободной лицензией, либо если Гуглю это выгодно. В данном случае вряд ли это выгодно Гуглю.
А какое расширение будет в документах «формата Google». Или они вообще без расширения? Или они вообще не файлы :)
самое интересное — что это никому не нужно
потому что качество подобного распознавания в современных ocr годится только для малолетних детей
Кхм, это 99.9% правильно распознанного текста того же файнридера вы считаете годным только для малолеток?
что-то я сомневаюсь что цифра равна 99,9 процентов
Ну так вы сначала с калькулятором посчитайте итог на практическом примере, а потом сомневайтесь сколько душе угодно :)

Между прочим, цифра не такая уж и фантастическая, как вам кажется. 99.9% — это несколько неправильно распознанных букв/слов на странице.

Разумеется, речь сейчас идёт о качественных сканах и фото. Размазанная картинка естественно будет распознано плохо, кто бы сомневался
Надеюсь что API будет.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации