aleksandrit Jun 23 2010 at 01:33

В Google Docs появилось OCR

1 min

13K

IT-companies

+94

Comments 35

fenrirgray Jun 23 2010 at 04:28

Далеко не первый подобный сервис, но… Замечательно, что тут еще можно сказать :) Ждем для русского.

MaxSergeev Jun 23 2010 at 11:18

Странно, что не перечислен русский язык… у меня распозналось всё.

Guria Jun 24 2010 at 04:30

русский не распознаёт, но из ocr слоя из pdf достаёт свободно — да. :)

Nurked Jun 23 2010 at 04:30

Черт, неужели появится альтернатива ужасным и платным файнридерам! Ура.

Кстати, вопрос в тему, есть сейчас нормальный руссифицированный OCR, чтобы бесплатно?

Oldron Jun 23 2010 at 04:45

CuneiForm
Совсем русский и совсем бесплатный. И под Линукс тоже.
Использовал под Вин, отказался в пользу ФайнРидера. Неудобная разметка текстовых блоков и качество распознавания хуже чем у ФайнРидера.

shoguevara Jun 23 2010 at 21:18

Модуль распознавания файнридера есть и под никсы, но полноценного энд-юзерского пакета нет.

gorenski Jun 23 2010 at 04:46

>> неужели появится альтернатива ужасным и платным файнридерам

Чем это он так ужасен? Вроде отличная удобная программа.

Nurked Jun 23 2010 at 04:47

да не, очень неплохая, просто за неё бабло платить надо, а это не всегда удобно. Особенно, когда OCR тебе нужен раз в год.

Dreammaker Jun 23 2010 at 04:51

у них есть бесплатный онлайн-сервис с ограниченным количеством распознаваний в день.

konkere Jun 23 2010 at 05:16

Да, как раз два дня назад пытался воспользоваться. На отсканированную страничку (одну) он мне заявил, что там 19 листов и отказался что-либо делать, т.к. бесплатный лимит — 10.

gorenski Jun 23 2010 at 05:30

Через анонимайзер можно вволю юзать? :)

Dreammaker Jun 23 2010 at 06:34

там кажись регистрация нужна, так что если не лень будет регистрироваться на каждую партия… ) Но точно, не помню — у меня запросы маленькие и в основном хватает какого-то там допотопного файнридера, который шёл на диске со сканером.

AndrewTishkin Jun 23 2010 at 20:46

Насчёт «ужасный». Сам в данный момент FineReader-ом не пользуюсь, но в теме одного крупного форума, посвящённого данному продукту, тусуюсь. Так вот, мнение большинства тамошних пользователей: последние версии (9, 10) хуже предыдущих (7, 8). И по удобству использования, и по уровню глючности

Возможно говоря «ужасный» люди подразумевают именно новые версии

Shens Jun 23 2010 at 04:47

www.cuneiform.ru/ Насколько я помню эта программа бесплатна и знает русский.

Cannoneer Jun 23 2010 at 04:49

FineReader Online?

Nurked Jun 23 2010 at 04:52

ага, уже иду узнавать, что это такое

und Jun 23 2010 at 07:40

finereader.abbyyonline.com плох?

RussianNeuroMancer Jun 23 2010 at 04:57

Кто-нибудь уже тестировал? Насколько сильно портится форматирование?

vpanferov Jun 23 2010 at 05:56

Тестировал — портится. Сильно.

Zhilinsky Jun 23 2010 at 05:49

А это точно этого года новость?

googlesystem.blogspot.com/2009/09/google-docs-ocr.html

vpanferov Jun 23 2010 at 05:55

Вот эта новость:
googlesystem.blogspot.com/2010/06/google-adds-ocr-for-pdf-files-and.html

Zhilinsky Jun 23 2010 at 06:05

Ага, читаю: «The feature has been released last year as an experiment, so Google had enough time to improve the accuracy of the results.»
То есть фишка уже год работала точно, непонятно только была ли эта галочка в Google Docs.

vpanferov Jun 23 2010 at 05:54

Напишу как лицо заинтересованное в том, чтобы опорочить конкурентов :-)

Попробовал загрузить туда пару картинок и посмотреть на качество распознавания. Для документов с простым форматированием (одна колонка, контрастный текст на светлом фоне) качество распознавания довольно хорошее. Но если документ содержит более сложное ворматирование, например, несколько колонок, таблицы, неконтрастный текст, то качество распознавания существенно хуже файнридера.

Надо будет ещё сделать дополнительные тесты, но по ощущениям там внутри находится движок OCRopus/tesseract. Для простых документов пойдёт, для сложных лучше всё-таки пользоваться коммерческим OCR.

vpanferov Jun 23 2010 at 05:58

Да, ещё в качестве входного формата предпочитает pdf. jpg, из которого делается pdf, не воспринимает. Думаю, что это в ближайшее время полечат.

iRobot Jun 23 2010 at 06:12

Это лучшая новость за сегодня, развития проекту!

AlborTholus Jun 23 2010 at 07:24

Сильно портит таблицы в простом pdf.

amarao Jun 23 2010 at 08:11

А сырцы? Т.е. это всё хорошо, но было бы очень мило, если бы гугль «показал личико».

AndrewTishkin Jun 23 2010 at 20:47

Не всё ещё в этом мире стало OpenSource )

RussianNeuroMancer Jun 23 2010 at 22:23

Гугль открывает их только если приобретённый проект уже был лицензирован под свободной лицензией, либо если Гуглю это выгодно. В данном случае вряд ли это выгодно Гуглю.

Neofant Jun 23 2010 at 16:49

А какое расширение будет в документах «формата Google». Или они вообще без расширения? Или они вообще не файлы :)

stas_agarkov Jun 23 2010 at 18:16

самое интересное — что это никому не нужно
потому что качество подобного распознавания в современных ocr годится только для малолетних детей

AndrewTishkin Jun 23 2010 at 20:49

Кхм, это 99.9% правильно распознанного текста того же файнридера вы считаете годным только для малолеток?

stas_agarkov Jun 24 2010 at 06:07

что-то я сомневаюсь что цифра равна 99,9 процентов

AndrewTishkin Jun 24 2010 at 09:30

Ну так вы сначала с калькулятором посчитайте итог на практическом примере, а потом сомневайтесь сколько душе угодно :)

Между прочим, цифра не такая уж и фантастическая, как вам кажется. 99.9% — это несколько неправильно распознанных букв/слов на странице.

Разумеется, речь сейчас идёт о качественных сканах и фото. Размазанная картинка естественно будет распознано плохо, кто бы сомневался

Seigmen Jun 23 2010 at 18:48

Надеюсь что API будет.