aleksandrit 23 июн 2010 в 05:33

В Google Docs появилось OCR

1 мин

13K

IT-компании

+94

Комментарии 35

fenrirgray 23 июн 2010 в 08:28

Далеко не первый подобный сервис, но… Замечательно, что тут еще можно сказать :) Ждем для русского.

MaxSergeev 23 июн 2010 в 15:18

Странно, что не перечислен русский язык… у меня распозналось всё.

Guria 24 июн 2010 в 08:30

русский не распознаёт, но из ocr слоя из pdf достаёт свободно — да. :)

Nurked 23 июн 2010 в 08:30

Черт, неужели появится альтернатива ужасным и платным файнридерам! Ура.

Кстати, вопрос в тему, есть сейчас нормальный руссифицированный OCR, чтобы бесплатно?

+12

Oldron 23 июн 2010 в 08:45

CuneiForm
Совсем русский и совсем бесплатный. И под Линукс тоже.
Использовал под Вин, отказался в пользу ФайнРидера. Неудобная разметка текстовых блоков и качество распознавания хуже чем у ФайнРидера.

shoguevara 24 июн 2010 в 01:18

Модуль распознавания файнридера есть и под никсы, но полноценного энд-юзерского пакета нет.

gorenski 23 июн 2010 в 08:46

>> неужели появится альтернатива ужасным и платным файнридерам

Чем это он так ужасен? Вроде отличная удобная программа.

Nurked 23 июн 2010 в 08:47

да не, очень неплохая, просто за неё бабло платить надо, а это не всегда удобно. Особенно, когда OCR тебе нужен раз в год.

Dreammaker 23 июн 2010 в 08:51

у них есть бесплатный онлайн-сервис с ограниченным количеством распознаваний в день.

konkere 23 июн 2010 в 09:16

Да, как раз два дня назад пытался воспользоваться. На отсканированную страничку (одну) он мне заявил, что там 19 листов и отказался что-либо делать, т.к. бесплатный лимит — 10.

gorenski 23 июн 2010 в 09:30

Через анонимайзер можно вволю юзать? :)

Dreammaker 23 июн 2010 в 10:34

там кажись регистрация нужна, так что если не лень будет регистрироваться на каждую партия… ) Но точно, не помню — у меня запросы маленькие и в основном хватает какого-то там допотопного файнридера, который шёл на диске со сканером.

AndrewTishkin 24 июн 2010 в 00:46

Насчёт «ужасный». Сам в данный момент FineReader-ом не пользуюсь, но в теме одного крупного форума, посвящённого данному продукту, тусуюсь. Так вот, мнение большинства тамошних пользователей: последние версии (9, 10) хуже предыдущих (7, 8). И по удобству использования, и по уровню глючности

Возможно говоря «ужасный» люди подразумевают именно новые версии

Shens 23 июн 2010 в 08:47

www.cuneiform.ru/ Насколько я помню эта программа бесплатна и знает русский.

Cannoneer 23 июн 2010 в 08:49

FineReader Online?

Nurked 23 июн 2010 в 08:52

ага, уже иду узнавать, что это такое

und 23 июн 2010 в 11:40

finereader.abbyyonline.com плох?

RussianNeuroMancer 23 июн 2010 в 08:57

Кто-нибудь уже тестировал? Насколько сильно портится форматирование?

vpanferov 23 июн 2010 в 09:56

Тестировал — портится. Сильно.

Zhilinsky 23 июн 2010 в 09:49

А это точно этого года новость?

googlesystem.blogspot.com/2009/09/google-docs-ocr.html

vpanferov 23 июн 2010 в 09:55

Вот эта новость:
googlesystem.blogspot.com/2010/06/google-adds-ocr-for-pdf-files-and.html

Zhilinsky 23 июн 2010 в 10:05

Ага, читаю: «The feature has been released last year as an experiment, so Google had enough time to improve the accuracy of the results.»
То есть фишка уже год работала точно, непонятно только была ли эта галочка в Google Docs.

vpanferov 23 июн 2010 в 09:54

Напишу как лицо заинтересованное в том, чтобы опорочить конкурентов :-)

Попробовал загрузить туда пару картинок и посмотреть на качество распознавания. Для документов с простым форматированием (одна колонка, контрастный текст на светлом фоне) качество распознавания довольно хорошее. Но если документ содержит более сложное ворматирование, например, несколько колонок, таблицы, неконтрастный текст, то качество распознавания существенно хуже файнридера.

Надо будет ещё сделать дополнительные тесты, но по ощущениям там внутри находится движок OCRopus/tesseract. Для простых документов пойдёт, для сложных лучше всё-таки пользоваться коммерческим OCR.

vpanferov 23 июн 2010 в 09:58

Да, ещё в качестве входного формата предпочитает pdf. jpg, из которого делается pdf, не воспринимает. Думаю, что это в ближайшее время полечат.

iRobot 23 июн 2010 в 10:12

Это лучшая новость за сегодня, развития проекту!

AlborTholus 23 июн 2010 в 11:24

Сильно портит таблицы в простом pdf.

amarao 23 июн 2010 в 12:11

А сырцы? Т.е. это всё хорошо, но было бы очень мило, если бы гугль «показал личико».

-4

AndrewTishkin 24 июн 2010 в 00:47

Не всё ещё в этом мире стало OpenSource )

RussianNeuroMancer 24 июн 2010 в 02:23

Гугль открывает их только если приобретённый проект уже был лицензирован под свободной лицензией, либо если Гуглю это выгодно. В данном случае вряд ли это выгодно Гуглю.

Neofant 23 июн 2010 в 20:49

А какое расширение будет в документах «формата Google». Или они вообще без расширения? Или они вообще не файлы :)

stas_agarkov 23 июн 2010 в 22:16

самое интересное — что это никому не нужно
потому что качество подобного распознавания в современных ocr годится только для малолетних детей

AndrewTishkin 24 июн 2010 в 00:49

Кхм, это 99.9% правильно распознанного текста того же файнридера вы считаете годным только для малолеток?

stas_agarkov 24 июн 2010 в 10:07

что-то я сомневаюсь что цифра равна 99,9 процентов

AndrewTishkin 24 июн 2010 в 13:30

Ну так вы сначала с калькулятором посчитайте итог на практическом примере, а потом сомневайтесь сколько душе угодно :)

Между прочим, цифра не такая уж и фантастическая, как вам кажется. 99.9% — это несколько неправильно распознанных букв/слов на странице.

Разумеется, речь сейчас идёт о качественных сканах и фото. Размазанная картинка естественно будет распознано плохо, кто бы сомневался

Seigmen 23 июн 2010 в 22:48

Надеюсь что API будет.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

В Google Docs появилось OCR

Комментарии 35

Публикации

Истории