Инфракрасная подсветка для OCR

    Как известно, Google поставила перед собой отсканировать, распознать и проиндексировать все бумажные книги в мире, то есть всё знание человечества. Однако в реальности этот процесс продвигается не так быстро, как хотелось бы. Самый трудный этап — нормальное распознавание текста. Для программы OCR нужно чёткое изображение страницы без искажений. Все строчки на странице должны быть идеально ровными. На практике же книгу невозможно прижать к сканеру (во многих случаях страницы книги вообще нельзя трогать). Как бы то ни было, возникают характерные искривления по краям страниц. С ними борются программными методами, с разной степенью успешности.

    Однако, компания Google придумала, как можно аппаратным способом помочь в решении этой проблемы. На прошлой неделе они получили патент на применение инфракрасных сенсоров при сканировании книг (патент США № 7508978). Суть идеи в том, что инфракрасная сетка позволяет составить трёхмерную модель искривления страницы, так что программа для выравнивания изображения получает чёткие координаты, как нужно преобразовать картинку.



    New Scientist
    Поделиться публикацией
    Комментарии 34
      –10
      >> На практике же книгу невозможно прижать к сканеру

      Интересно — а фотографировать страницы не пробовали?
        +3
        Имеется в виду, что книжный разворот у более-менее толстой книги в ровную плоскость (без порчи книги) превратить практически нереально. Фотографированием эту проблему не исправить.
          –1
          Я имел ввиду, конечно, не целиком разворот снимать, а по одной странице, для этого книгу надо раскрыть только на 90 градусов а не 180, что еще безопаснее для книги.
            0
            если сканить только по половине книги — то кол-во работы тупо удвоится ты об этом думал?
              0
              а что делать? не все книжки создавались для ocr'а =)

              есть даже сканер, предназначенный для толстых книг / книг с хреновым переплетом — plustek opticbook 3600
                +1
                Подумал. Лечится установкой двух фотоаппаратов под углом 90 градусов. Один снимает одну страницу, другой — другую :)

            +1
            Как специалист по оцифровке редких книг говорю — есть специальные сканеры. Без стекла, с десятками приспособлений для комфортного размещения книги под объективом (принцип работы планарных сканеров очень похож на фотографирование) и для получения максимально лучшего изображения. Но! Никакие программные средства не позволяют удалить искажения изгибов страниц (от них даже механически избавиться зачастую нельзя — книгу невозможно выровнять. Часто приходится расшивать их постранично). При фотографировании сверху на форматах от А3 возникают искажения перспективного типа, и до сих пор нормального метода с ними бороться не придумано. Хоть вы десять фотоаппаратов разместите — не забудьте потом совместить картинку с них воедино!

            Что касается темы — получение модели искривления страницы это, несомненно, плюс. НО! При работе с редкими книгами зачастую запрещается попадание на них инфракрасного или ультрафиолетовго излучения. Зато технология может помочь с более новыми книгами.
            –5
            Пусть ещё научатся в моск заливать инфу как в матрице:
            — Танк, Войну и мир, все тома. И так глазками заморгал-заморгал.
            • НЛО прилетело и опубликовало эту надпись здесь
                0
                Как вариант, для определения уникальности текстов на сайтах. Все сателлиты и говносайты, основанные на отсканированном варианте они смогут отбросить в один момент. Апдейт — 90% сателлитов в бане :)
                • НЛО прилетело и опубликовало эту надпись здесь
                    0
                    А кто сказал о всем тексте? Цитат тоже беспредельно вставлять нельзя, есть порог, после которого чрезмерное цитирование законодательно признается плагиатом. Но что очень много сайтов содержит полные версии или куски статей и книг — это даже сомнению не подлежит. Зайдите в форум на searchengines.ru, там для сканерщиков целые топики есть. И рерайтеры там тусят по полной. И сто пудов — на Западе уже давно и биржи и вообще, как направление бизнеса, это существует. Если учесть тот факт, что Гугл во всех странах кроме России и Китая — самая популярная поисковая система — линкоторговцы под нее явно не бедствуют и спрос рождает весьма неплохое предложение. Так что помощь в сохранении шедевров книгопечатания, помогающая убить кучу линкоферм, основанных на ворованном контенте — это весьма и весьма успешный выстрел по двум зайцам. А «депломы» — да, надо писать самому. 5% цитирования — это на самом деле очень даже немало… И если товарищ студент соизволит прочитать 10-20 книг по теме — думаю гугл будет не против.
                  0
                  боюсь, что не все книги можно выкладывать в открый доступ, ввиду авторских прав и т.д.
                  Можно конечно подумать о том, чтобы за счет рекламы делать отчисления авторам.
                  • НЛО прилетело и опубликовало эту надпись здесь
                      0
                      кстати говоря у ластфм все не так хорошо с финансами, как хотелось бы
                    0
                    хочешь, читаешь, бля!
                      0
                        0
                        оффтоп — Вбейте «Достоевский» и посмотрите Идиота. Где они нашли такое издание?! Может это сценарий фильма?

                        по теме — Существует (имхо) прекрасный вакуумный сканер для книг, в т.ч. и старых фолиантов. ScanBot.

                        www.youtube.com/watch?v=y16rNqnxj0U

                        и не нужно тут больше ничего придумывать.
                        Другое дело, что гугль захотел «собственное» изобретение в портфель крутости, что вовсе не говорит, чем они будут сканировать книги. :)
                      0
                      Можно было б не до конца листочки переворачивать. Т.е. два листа, которые фотографируются, преподымаются и становятся под углом 45 градусов к друг другу. Снизу их поодерживают ровные пластинки. Только у каждого листочка тогда своя камера, так же под углами расставленные. Всё же копьютерная обработка ровно сфотографированного листа не всегда заменит.
                      0
                      Если будет все больше и больше безработных, то гугл наймет их для перепечатки книг — так дешевле будет :)
                        0
                        удивляет то, что гугл до сих пор не сделал свою recaptcha.net/
                        Хотя может придет время и они их просто купят.
                        +4
                        Патенты — зло. Патентуют очевидные идеи. Проецирование сетки применяется регулярно, ничего нового они не придумали. Надеюсь, что патентом закрыта именно IR сетка и именно для ocr. А, скажем, лазерные остались открытыми.
                          0
                          лазерные не так удобны, т.к. цвет лазерной сетки может совпасть с цветом фрагментов изображения на странице. тут патентуется идея использования разных диапазонов электромагнитных волн для распознавания изображения и для распознавания сетки.

                          интересно, догадались ли они запатентовать, наоборот, инфракрасный диапазон для распознавания текста и обычный — для распознавания сетки.
                            +2
                            Иногда очевидные вещи патентуют как раз для того, чтобы не запатентовали другие умники, которые сами идеей не пользуются, а просто требуют баснословные деньги за лицензию.
                            +6
                            >Google поставила перед собой отсканировать, распознать и проиндексировать все бумажные книги в мире

                            — И что в этом плохого?
                            — Они хотят собрать всю информацию во вселенной и хранить её в сфере.
                            — Значит они стремятся к знаниям?
                            — Да.
                            — Подонки!

                            (С) Футурама, сезон 5, серия 8
                              +4
                              — Они считают, что должны знать всё. Скоро так и будет.
                              — Я зол как никогда!
                              — Как только они заполучат всю информацию, то захотят сделать так, чтобы новые данные не появлялись и уничтожат всю вселенную!

                              :)
                              +1
                              "...Google поставила перед собой отсканировать..." — мне кажется, тут пропущено слово «задачу» :)
                              • НЛО прилетело и опубликовало эту надпись здесь
                              • НЛО прилетело и опубликовало эту надпись здесь
                                  0
                                  Этому методу в принципе черт знает сколько лет. И пользуются им для своих нужд все подряд. Похоже в США надо патентовать не только идеи, но и отдельно идеи относительно каждого из возможных применений.
                                  0
                                  Было бы круто, если бы они придумали как отсканировать книгу, не открывая ее вообще )
                                  • НЛО прилетело и опубликовало эту надпись здесь
                                      0
                                      «Не открывая вообще»-сканер существует. И находится он в Александрийской библиотеке. Работает по принципу рентгена или томографа, применяется для книге, которые нельзя открывать. Сканирует книгу насквозь, послойно — и вуаля, после доработки манускрипт можно увидеть и полистать на сенсорном мониторе.

                                      Но сколько он стоит — я представить боюсь. Ибо на оцифровке книг у нас в России пытаются зарабатывать просто _нереальные_ деньги, при этом ничего не делая. Система практически не развита, оборудование и ПО стоит дорого, очень дорого. И при этом зачастую такого качества, что я каждый раз благодарю небеса, что это не медецинское оборудование, и передо мной лишь книга, а не умирающий человек.

                                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                  Самое читаемое