по поводу забивать шумом — что такое шум?
если вы имеете ввиду полезность информации, то html формате тоже много вского разного есть, и для кого то поезное и бесполезно для другого, и копи-паст и куча всего еще…
наверное зная цели Googleз зачем все это. Google работает в сторону глобального поиска, поэтому и идут разработки в сторону индексации всего что есть в цифровом формате
а уже дело второе — полезная информация или нет.
решать конечному пользователю.
это мое мнение.
Мне кажется, что в PDF-ах уж наверняка больше полезной информации, чем в бесконечных HTML-ных блогах, форумах и т.д. Обычно это оцифрованные книги, часто специализированные, поиск по ним не может не радовать
Даже если такие PDF будут индексироваться намного реже обычного контента, всё равно хорошо. «Картинковые» PDF, как правило, редко обновляются.
Надеюсь, русские символы распознает. Пока ничего действительно нового найти не получилось :(
не знаю, как сейчас, а пару лет назад это совершенный отстой был. Распознавал только в plain text (хотя, кончено, Google больше и не надо), ошибок было немеряно и глюков. Что, впрочем, и не удивительно, софтину изначально разрабатывало HP, еще чуть ли не в 80е годы.
Впрочем, может, они его и допилили до юзабельного состояния. А может, Cunei Form взяли, оно ведь под GPL cейчас
Размер меньше :) На самом деле если сделали нормальное распознание изображений, то дописать его под различные контейнеры труда не составит — хоть PDF, хоть DJVu, хоть BMP.
просто по моему опыту работы с djvu — они занимали больше места чем аналоги в pgf. При этом нормальные «текстовые» djvu книги встречались мне чертовски редко — львиная доля была из плохо или вообще нераспознанных сканов страниц — и весили чертовски много. У pdf — полностью наоборот :)
Google подключил OCR-движок для индексации PDF