
Комментарии 25
Для издателей, которые выкладывают такие pdf, в аду должно быть специальное место.
"Успехи физических наук" этим грешат, в частности в переводах Нобелевских лекций на русский.
Здесь проблема в том, что один и тот же видимый символ кодируется разными значениями.
Хотя, по идее, можно поочередно объединять символы с разными кодами до тех пор, пока от такого объединения «улучшаются» статистические показатели текста.
А если такой файл напечатать в pdf?
Я зачастую сталкиваюсь с корявыми кодировками при копипасте из научных статей. В том же РИНЦ, например.
ÐÎÑÑÈÉÑÊÀß ÀÊÀÄÅÌÈß ÍÀÓÊ
ÈÍÑÒÈÒÓÒ ÀÑÒÐÎÍÎÌÈÈ
Àëëà Ãåíðèõîâíà Ìàñåâè÷
Çâåçäû è ñïóòíèêè
â ìîåé æèçíè
В 2017 году я увидел эту книгу в новой редакции, из которой текст нормально копируется, но в Word вставляются все буквы через пробел, в комментарии хабра пробелы исчезают:
Звезды и спутники в жизни
А.Г. Масевич
Эти две научные страсти – звезды и спутники, проходят через
всю жизнь А.Г. Масевич. Она родилась 9 октября 1918 г. в горо-
де Тбилиси.
Зашел посмотреть, как фразу "PDF поддерживает векторную графику" можно развезти на здоровенное полотенце.
Был бы форматом для чтения, не было у него тогда жесткой разметки.
Вообще-то нет, не для печати, а именно для кроссплатформенного отображения. Для печати исходно предназначен язык PostScript, на котором PDF отчасти базируется, но сам формат PDF — нет.
Его суть в статической разметке. Если задана страница А4, то она и должна быть A4 на любом девайсе плюс-минус зум и прочий скэйлинг
Брать дисплей размером не меньше чем размер страницы в pdf файле или быть готовым к тому, что читать будет сложно. Вы же не спрашиваете как читать на бумаге документ формата А4, распечатанный на принтере для этикеток?
Почему так сложно извлекать текст из PDF?