@SLY_G Oct 13 2020 at 12:29

Почему так сложно извлекать текст из PDF?

7 min

31K

PDFProgramming *

Translation

+43

Comments 25

@remzalp Oct 13 2020 at 12:35

Finereader когда-то хвастался, что использует текстовый слой для подсказок при распознавании и ускорения. Возможно проводит ускоренную валидацию пред принятием решения об OCR

@hd_keeper Oct 13 2020 at 12:43

Текст этой статьи тоже через OCR прогоняли?

@medvedd Oct 13 2020 at 12:55

Я вот натыкался на текст научной статьи, где копирование разрешено, но получается мусор. Похоже на результат вот этого: www.vintasoft.com/blog/prevent-text-extraction-from-pdf-document-by-obfuscating-text-in-vintasoft-pdf-editor-demo

Для издателей, которые выкладывают такие pdf, в аду должно быть специальное место.

@qbertych Oct 13 2020 at 13:27

"Успехи физических наук" этим грешат, в частности в переводах Нобелевских лекций на русский.

@FedorWK Oct 13 2020 at 13:54

Та же проблема с пособиями Столярова. В итоге затруднено не только копирование содержимого, но поиск по тексту, что еще обиднее.

@4eyes Oct 13 2020 at 14:03

Интересно, что с анализом такого текста с точки зрения статистики. Это же перестановочный шифр. Обычный перестановочный шифр относительно легко вскрывается, если есть пару абзацев для анализа.

Здесь проблема в том, что один и тот же видимый символ кодируется разными значениями.

Хотя, по идее, можно поочередно объединять символы с разными кодами до тех пор, пока от такого объединения «улучшаются» статистические показатели текста.

@hd_keeper Oct 13 2020 at 14:08

Даже статистический анализ не нужен, в случае с PDF есть «розеттский камень».

@4eyes Oct 13 2020 at 14:21

но не вручную же…

@BugM Oct 13 2020 at 21:58

Зачем вручную? Честно пройти всю цепочку и в конце будет глиф. Его даже распознать недорого. Если по другому не получается понять что это за буква.

@aamonster Oct 13 2020 at 18:35

А если такой файл напечатать в pdf?

@LAG_LAGbI4 Oct 15 2020 at 05:37

скорее перевести в картинку, потом распечатать в pdf, а потом распознать.

@Zhuravell Oct 13 2020 at 13:33

Я зачастую сталкиваюсь с корявыми кодировками при копипасте из научных статей. В том же РИНЦ, например.

@Javian Oct 13 2020 at 16:35

Это заговор академиков. Вот скопированный текст из файла, опубликованного в 2007 году Институтом астрономии АН РФ.

ÐÎÑÑÈÉÑÊÀß ÀÊÀÄÅÌÈß ÍÀÓÊ
ÈÍÑÒÈÒÓÒ ÀÑÒÐÎÍÎÌÈÈ
Àëëà Ãåíðèõîâíà Ìàñåâè÷
Çâåçäû è ñïóòíèêè
â ìîåé æèçíè

В 2017 году я увидел эту книгу в новой редакции, из которой текст нормально копируется, но в Word вставляются все буквы через пробел, в комментарии хабра пробелы исчезают:

Звезды и спутники в жизни
А.Г. Масевич

Эти две научные страсти – звезды и спутники, проходят через
всю жизнь А.Г. Масевич. Она родилась 9 октября 1918 г. в горо-
де Тбилиси.

@VolCh Oct 14 2020 at 13:46

Первый вариант всего-лишь кодировка Windows -1251 (а я милую узнаю по походке...)

ОССИЙСКАЯ АКАДЕМИЯ НАУК
ИНСТИТУТ АСТ ОНОМИИ
Алла Ген иховна Масевич
Звезды и спутники
в моей жизни

P.S. Что-то буква "Р" не подцепилась..

@Javian Oct 14 2020 at 13:51

Не помню, что там еще было, но Штирлиц это не брал.

@justhabrauser Oct 13 2020 at 14:44

Зашел посмотреть, как фразу "PDF поддерживает векторную графику" можно развезти на здоровенное полотенце.

@kryvichh Oct 14 2020 at 09:29

PDF — старый формат, который много лет (десятилетий) дорабатывается новыми фичами. Из-за этого там 1000 и 1 способ вывести текст на страницу, которыми все пользуются в меру своего понимания.

@Vitalley Oct 14 2020 at 11:30

Да старый, но проблема не в этом, а в том что это формат для печати, а никак для чтения, которое уже потом прикрутили.
Был бы форматом для чтения, не было у него тогда жесткой разметки.

@ildarz Oct 14 2020 at 11:48

Вообще-то нет, не для печати, а именно для кроссплатформенного отображения. Для печати исходно предназначен язык PostScript, на котором PDF отчасти базируется, но сам формат PDF — нет.

@Vitalley Oct 21 2020 at 11:03

Тогда бы сделали динамическую разметку, как в HTML и его производных.

@VolCh Oct 21 2020 at 16:28

Его суть в статической разметке. Если задана страница А4, то она и должна быть A4 на любом девайсе плюс-минус зум и прочий скэйлинг

@Vitalley Oct 21 2020 at 22:10

А как читать на маленьком дисплее? Когда абзац с нормальным шрифтом не помещается даже.

@BugM Oct 22 2020 at 00:06

pdf не для маленьких дисплеев. Он чтобы документ выглядел одинаково всегда и везде.

@VolCh Oct 22 2020 at 07:38

Брать дисплей размером не меньше чем размер страницы в pdf файле или быть готовым к тому, что читать будет сложно. Вы же не спрашиваете как читать на бумаге документ формата А4, распечатанный на принтере для этикеток?

@roqin Oct 15 2020 at 10:25

Если в PDF используются шрифты для представления текста, а не всё представлено векторной или растровой картинкой, то в принципе большой проблемы (нерешаемой без OCR) в извлечении текста нет. Можно всё же задать соответствия кодовых позиций или имён глифов конкретного шрифта символам юникода, и это помогает от путаницы cp1251/1252 или просто мены одного символа другим и подобного (утилитка tet из PDFlib на это вроде способна). Только вот как делать это всегда на автомате я не знаю (хотя Гугл вроде это пытается делать и делает почти правильно) приходится разбираться с каждым PDF'ом отдельно, а это занимает время.