Pull to refresh

Comments 25

Finereader когда-то хвастался, что использует текстовый слой для подсказок при распознавании и ускорения. Возможно проводит ускоренную валидацию пред принятием решения об OCR
Текст этой статьи тоже через OCR прогоняли?
Я вот натыкался на текст научной статьи, где копирование разрешено, но получается мусор. Похоже на результат вот этого: www.vintasoft.com/blog/prevent-text-extraction-from-pdf-document-by-obfuscating-text-in-vintasoft-pdf-editor-demo

Для издателей, которые выкладывают такие pdf, в аду должно быть специальное место.

"Успехи физических наук" этим грешат, в частности в переводах Нобелевских лекций на русский.

Та же проблема с пособиями Столярова. В итоге затруднено не только копирование содержимого, но поиск по тексту, что еще обиднее.
Интересно, что с анализом такого текста с точки зрения статистики. Это же перестановочный шифр. Обычный перестановочный шифр относительно легко вскрывается, если есть пару абзацев для анализа.

Здесь проблема в том, что один и тот же видимый символ кодируется разными значениями.

Хотя, по идее, можно поочередно объединять символы с разными кодами до тех пор, пока от такого объединения «улучшаются» статистические показатели текста.
Даже статистический анализ не нужен, в случае с PDF есть «розеттский камень».
но не вручную же…

Зачем вручную? Честно пройти всю цепочку и в конце будет глиф. Его даже распознать недорого. Если по другому не получается понять что это за буква.

А если такой файл напечатать в pdf?

скорее перевести в картинку, потом распечатать в pdf, а потом распознать.

Я зачастую сталкиваюсь с корявыми кодировками при копипасте из научных статей. В том же РИНЦ, например.

Это заговор академиков. Вот скопированный текст из файла, опубликованного в 2007 году Институтом астрономии АН РФ.
ÐÎÑÑÈÉÑÊÀß ÀÊÀÄÅÌÈß ÍÀÓÊ
ÈÍÑÒÈÒÓÒ ÀÑÒÐÎÍÎÌÈÈ
Àëëà Ãåíðèõîâíà Ìàñåâè÷
Çâåçäû è ñïóòíèêè
â ìîåé æèçíè

В 2017 году я увидел эту книгу в новой редакции, из которой текст нормально копируется, но в Word вставляются все буквы через пробел, в комментарии хабра пробелы исчезают:
Звезды и спутники в жизни
А.Г. Масевич

Эти две научные страсти – звезды и спутники, проходят через
всю жизнь А.Г. Масевич. Она родилась 9 октября 1918 г. в горо-
де Тбилиси.

Первый вариант всего-лишь кодировка Windows -1251 (а я милую узнаю по походке...)


ОССИЙСКАЯ АКАДЕМИЯ НАУК
ИНСТИТУТ АСТ ОНОМИИ
Алла Ген иховна Масевич
Звезды и спутники
в моей жизни

P.S. Что-то буква "Р" не подцепилась..

Не помню, что там еще было, но Штирлиц это не брал.

Зашел посмотреть, как фразу "PDF поддерживает векторную графику" можно развезти на здоровенное полотенце.

PDF — старый формат, который много лет (десятилетий) дорабатывается новыми фичами. Из-за этого там 1000 и 1 способ вывести текст на страницу, которыми все пользуются в меру своего понимания.
Да старый, но проблема не в этом, а в том что это формат для печати, а никак для чтения, которое уже потом прикрутили.
Был бы форматом для чтения, не было у него тогда жесткой разметки.

Вообще-то нет, не для печати, а именно для кроссплатформенного отображения. Для печати исходно предназначен язык PostScript, на котором PDF отчасти базируется, но сам формат PDF — нет.

Тогда бы сделали динамическую разметку, как в HTML и его производных.

Его суть в статической разметке. Если задана страница А4, то она и должна быть A4 на любом девайсе плюс-минус зум и прочий скэйлинг

А как читать на маленьком дисплее? Когда абзац с нормальным шрифтом не помещается даже.
pdf не для маленьких дисплеев. Он чтобы документ выглядел одинаково всегда и везде.

Брать дисплей размером не меньше чем размер страницы в pdf файле или быть готовым к тому, что читать будет сложно. Вы же не спрашиваете как читать на бумаге документ формата А4, распечатанный на принтере для этикеток?

Если в PDF используются шрифты для представления текста, а не всё представлено векторной или растровой картинкой, то в принципе большой проблемы (нерешаемой без OCR) в извлечении текста нет. Можно всё же задать соответствия кодовых позиций или имён глифов конкретного шрифта символам юникода, и это помогает от путаницы cp1251/1252 или просто мены одного символа другим и подобного (утилитка tet из PDFlib на это вроде способна). Только вот как делать это всегда на автомате я не знаю (хотя Гугл вроде это пытается делать и делает почти правильно) приходится разбираться с каждым PDF'ом отдельно, а это занимает время.
Sign up to leave a comment.

Articles