CuneiForm
Совсем русский и совсем бесплатный. И под Линукс тоже.
Использовал под Вин, отказался в пользу ФайнРидера. Неудобная разметка текстовых блоков и качество распознавания хуже чем у ФайнРидера.
Да, как раз два дня назад пытался воспользоваться. На отсканированную страничку (одну) он мне заявил, что там 19 листов и отказался что-либо делать, т.к. бесплатный лимит — 10.
там кажись регистрация нужна, так что если не лень будет регистрироваться на каждую партия… ) Но точно, не помню — у меня запросы маленькие и в основном хватает какого-то там допотопного файнридера, который шёл на диске со сканером.
Насчёт «ужасный». Сам в данный момент FineReader-ом не пользуюсь, но в теме одного крупного форума, посвящённого данному продукту, тусуюсь. Так вот, мнение большинства тамошних пользователей: последние версии (9, 10) хуже предыдущих (7, 8). И по удобству использования, и по уровню глючности
Возможно говоря «ужасный» люди подразумевают именно новые версии
Ага, читаю: «The feature has been released last year as an experiment, so Google had enough time to improve the accuracy of the results.»
То есть фишка уже год работала точно, непонятно только была ли эта галочка в Google Docs.
Напишу как лицо заинтересованное в том, чтобы опорочить конкурентов :-)
Попробовал загрузить туда пару картинок и посмотреть на качество распознавания. Для документов с простым форматированием (одна колонка, контрастный текст на светлом фоне) качество распознавания довольно хорошее. Но если документ содержит более сложное ворматирование, например, несколько колонок, таблицы, неконтрастный текст, то качество распознавания существенно хуже файнридера.
Надо будет ещё сделать дополнительные тесты, но по ощущениям там внутри находится движок OCRopus/tesseract. Для простых документов пойдёт, для сложных лучше всё-таки пользоваться коммерческим OCR.
Гугль открывает их только если приобретённый проект уже был лицензирован под свободной лицензией, либо если Гуглю это выгодно. В данном случае вряд ли это выгодно Гуглю.
В Google Docs появилось OCR