Google подключил OCR-движок для индексации PDF

    Google сделал значительный шаг на пути к индексированию так называемой Невидимой сети, то есть той львиной части сетевого контента, которая до сих пор не поддаётся роботам поисковых систем. Это, в основном, запароленые сайты и различные базы данных, а также огромные массивы отсканированных документов в формате PDF.

    И Google, и многие другие поисковики без проблем индексируют PDF, если в нём есть текстовый слой (он хранится в стандартном текстовом формате в контейнере файла). Но подобных «правильных» PDF на самом деле довольно мало. Гораздо больше документов представляют собой обычные отсканированные копии в графическом формате, просто сохранённые в PDF. Поэтому для их индексации Google сейчас подключил OCR-движок. Теперь в индекс попадут миллионы недоступных ранее государственных отчётов, судебных решений и академических исследований. Вот некоторые примеры работы нового движка.

    Нужно напомнить, что в апреле Google научился обрабатывать выпадающие меню и другие HTML-формы в различных интерфейсах баз данных, это тоже важная технология по индексации Невидимой сети.
    Поддержать автора
    Поделиться публикацией

    Похожие публикации

    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 32

      0
      Тут соображение — а какого рода информация хранится в таких pdf? Так ли она будет полезна, или будет наоборот забивать шумом ту, что ищется?

      И второе: pdf — хорошо, а djvu и прочие.
        +1
        по поводу забивать шумом — что такое шум?
        если вы имеете ввиду полезность информации, то html формате тоже много вского разного есть, и для кого то поезное и бесполезно для другого, и копи-паст и куча всего еще…

        наверное зная цели Googleз зачем все это. Google работает в сторону глобального поиска, поэтому и идут разработки в сторону индексации всего что есть в цифровом формате

        а уже дело второе — полезная информация или нет.
        решать конечному пользователю.
        это мое мнение.
          +7
          Мне кажется, что в PDF-ах уж наверняка больше полезной информации, чем в бесконечных HTML-ных блогах, форумах и т.д. Обычно это оцифрованные книги, часто специализированные, поиск по ним не может не радовать
          • НЛО прилетело и опубликовало эту надпись здесь
              0
              Имхо отсеивать «шум» Google и так уже научились. Среди простого HTML контента его тоже было полно.
              +1
              Ждем ответа от Яндекса!
                +10
                Яндекс тока график отключения горячей воды может сделать, какое там распознование
              • НЛО прилетело и опубликовало эту надпись здесь
                  0
                  Даже если такие PDF будут индексироваться намного реже обычного контента, всё равно хорошо. «Картинковые» PDF, как правило, редко обновляются.
                  Надеюсь, русские символы распознает. Пока ничего действительно нового найти не получилось :(
                    +1
                    Их есть у него.
                    0
                    ну вот, теперь различный уникальный материал, который брали с этих PDF-ок для создания контента на сайт, станет не уникальным…
                      0
                      вот бы они еще обучили свой ОЦР движок, да выложили бы еще в открытый доступ…
                        +1
                        code.google.com/p/ocropus/

                        и вот что первое попалось на хабре

                        habrahabr.ru/blogs/google/15409/
                          0
                          Думаю, скорее добавят в гугл докс и файнридер станет ненужным.
                            0
                            Скорей бы уже :)
                              0
                              не знаю, как сейчас, а пару лет назад это совершенный отстой был. Распознавал только в plain text (хотя, кончено, Google больше и не надо), ошибок было немеряно и глюков. Что, впрочем, и не удивительно, софтину изначально разрабатывало HP, еще чуть ли не в 80е годы.
                              Впрочем, может, они его и допилили до юзабельного состояния. А может, Cunei Form взяли, оно ведь под GPL cейчас
                            0
                            Лафа вебмастерам, можно забыть про долгие ночи пыхтенья с файнридером и правкой бесконечных ошибок после распознания. Гуглу респект!
                              0
                              А как скоро он будет надписи в фотографиях искать?
                                +3
                                в дальнейших планах поиск по изоображениям с веб-камер =)
                                  +2
                                  Я просто мечтаю о поиске по DjVu — моём любимом формате :)
                                  Эх, скорее бы сделали бы…
                                    0
                                    До сих пор не пойму чем DjVu лучше PDF? :)
                                      0
                                      требует значительно меньше ресурсов для просмотра.
                                        0
                                        тормозит меньше и размер файла меньше в разы.
                                          0
                                          Для меня он лучше тем, что это скан с живой книги, выглядит, как реальная книга.
                                          А на e-ink-ебуке выглядит просто потрясающе
                                            +1
                                            Размер меньше :) На самом деле если сделали нормальное распознание изображений, то дописать его под различные контейнеры труда не составит — хоть PDF, хоть DJVu, хоть BMP.
                                              0
                                              просто по моему опыту работы с djvu — они занимали больше места чем аналоги в pgf. При этом нормальные «текстовые» djvu книги встречались мне чертовски редко — львиная доля была из плохо или вообще нераспознанных сканов страниц — и весили чертовски много. У pdf — полностью наоборот :)

                                              Возможно в Сети еще очень мало валидных djvu книг
                                                0
                                                Кстати, какой djvu reader можете посоветовать (желательно под Ubuntu) — а то те что я находил отличались изощренным убожеством
                                                  0
                                                  Под убунту, честно говоря, даже не знаю. На десктопе пользуюсь DjVuReader, на КПК — PocketDjVu.
                                          0
                                          Неплохо было бы отделить это от основных результатов, как картинки и результаты англоязычных сайтов.
                                            0
                                            PDF-результаты и так помечаются отдельно.
                                          • НЛО прилетело и опубликовало эту надпись здесь

                                            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                            Самое читаемое