empenoso15 мар 2023 в 00:07

Как сканировать многостраничные двухсторонние документы, если под рукой только обычный сканер с автоподачей

Простой

5 мин

47K

Open source * PDFСофтЛайфхаки для гиков

Туториал

+26

Комментарии 31

sevmax 15 мар 2023 в 01:42

Спасибо! Сканирую редко, но этот подход реально может сэкономить время!

empenoso 15 мар 2023 в 02:18

Да, пришлось разбираться и мне тоже было очень странно почему такие гиганты как тот же акробат не умеют постранично объединять два файла.

ts347 15 мар 2023 в 04:05

Задумался, а нет ли в моей любимой программе PDF24 такой функции. Посмотрел — конечно, есть. Модуль "Объединить PDF", метод — "Сопоставить".

Всем настоятельно рекомендую эту бесплатную и невероятно мощную программу. Всё, что мне до сих пор приходило в голову делать с PDF — она может.

Dakar 15 мар 2023 в 04:14

Поддерживаю. Очень удобная программа. Еще бы нумерацию страниц могла проставлять - было б вообще супер. Ради простановки страниц однажды я и познакомился с PDFtk, если память не измееяет.

ts347 15 мар 2023 в 04:19

В текущей версии умеет.
У них некоторое время назад произошло мощное обновление, в результате которого количество функций выросло раза в три.

empenoso 15 мар 2023 в 05:07

Adobe Acrobat DC и PDF-Xchange почему-то такого функционала не имеют ?‍♂️

IDDQDesnik 15 мар 2023 в 08:50

В качестве альтернативы так же есть бесплатный опенсорсный PDFSAM Basic.

Javian 15 мар 2023 в 05:05

off А чем можно "ремонтировать" PDF? Для файлов, которые "Файл поврежден и не может быть восстановлен."

empenoso 15 мар 2023 в 05:30

Не сталкивался с этим. Возможно поможет резервная копия, если она есть?

Javian 15 мар 2023 в 07:09

Иногда МФУ портит файлы при сохранении результата по сети.

aborouhin 15 мар 2023 в 09:44

Я использую PDF X-Change, но она платная :(

При открытии битого файла сразу предлагает сохранить исправленную копию. Рутинное действие для квитанций об отправке электронного заказного письма Почтой России, которые всегда скачиваются с их сайта битыми (не знаю, что они там напортачили).

tkl 20 мар 2023 в 09:06

можно попробовать cpdf или ghostscript

https://www.coherentpdf.com/cpdfmanual/cpdfmanualch1.html#x5-350001.13

когда-то давно помогло починить побитые какой-то питоновской либой файлы

valeriyvan 15 мар 2023 в 05:29

На macOS невозможно установить при помощи brew:

brew install pdftk
Running `brew update --auto-update`...
==> Auto-updated Homebrew!
Updated 4 taps (homebrew/bundle, homebrew/services, homebrew/core, and homebrew/cask).
==> New Formulae
aztfy
==> New Casks
irpf2021                irpf2022                keyfinder               scansion
Warning: Calling plist_options is deprecated! Use service.require_root instead.
Please report this issue to the appveyor/brew tap (not Homebrew/brew or Homebrew/homebrew-core), or even better, submit a PR to fix it:
  /opt/homebrew/Library/Taps/appveyor/homebrew-brew/Formula/appveyor-server.rb:33


You have 39 outdated formulae and 3 outdated casks installed.
You can upgrade them with brew upgrade
or list them with brew outdated.

Warning: No available formula with the name "pdftk". Did you mean pdftoipe?
==> Searching for similarly named formulae and casks...
==> Formulae
pdftk-java                                      pdftoipe

To install pdftk-java, run:
  brew install pdftk-java

empenoso 15 мар 2023 в 06:05

К сожалению лично у меня нет macOS - может быть кто-то из пользователей подскажет.

aik 15 мар 2023 в 05:57

Подсказал бы кто программу, которая страницы при сканировании переворачивать будет… :)

empenoso 15 мар 2023 в 06:07

Вообще это она - у лицевой пачки прямой порядок страниц, а у оборотной обратный. Один раз только перевернуть без автоматизации ?

aik 15 мар 2023 в 06:09

Я про сканирование книг. Ну и вообще тех документов, которые расшить нельзя.

empenoso 15 мар 2023 в 06:40

Вроде специальные сканеры есть. Не сталкивался

aik 15 мар 2023 в 06:50

Потому и хочется программку поставить, чтобы обычный планшетный сканер сам страницы листал. :)

Alexufo 15 мар 2023 в 06:49

Irfan view даж без пережатия может вращать jpg

aborouhin 15 мар 2023 в 09:46

Способ хороший, но для большинства пользователей, сканирующих документы, что-то запустить из командной строки - недостижимые высоты мастерства :) (работаю с юристами)

Благо, сканирование в 90% случаев предполагает и OCR сразу, а FineReader так делать тоже умеет из коробки.

empenoso 15 мар 2023 в 10:06

Думаю, что согласен на счёт недостижимых высот мастерства :) правда это печально.
У меня например для этих больших документов OCR не предполагался - там всякие сертификаты в основном.

aborouhin 15 мар 2023 в 10:11

Ну в FineReader можно, в принципе, и без OCR это сделать, раз уж он ради OCR куплен и установлен. Но у OCR, даже если не текстовый слой сам особо не нужен, ещё плюс в том, что листы автоматически поворачивает в зависимости от содержимого (когда в середине документа листов на 300 три широких таблички по 10 листов каждая в альбомной ориентации - бесит). Хотя для простых случаев, согласен, из командной строки мне самому было бы проще.

vassabi 15 мар 2023 в 10:33

эх! а я писал скрипт на питоне

from PyPDF2 import PdfFileWriter, PdfFileReader
from PIL import Image
### и там далее:
### читаем из pdf страницы как картинки,
### делаем что угодно с картинками,
### сохраняем картинки как страницы в pdf

empenoso 16 мар 2023 в 06:11

Сила ?

falconandy 15 мар 2023 в 14:31

Для манипуляций с PDF есть еще такая утилита pdfcpu. Написана на Go, может использоваться как библиотека из своих go-программ.

empenoso 16 мар 2023 в 06:12

Спасибо ?

theGrove 16 мар 2023 в 12:23

Профит! Спасибо)

imageman 18 мар 2023 в 18:40

Есть еще вариант. Сканируем все (пусть даже) в pdf. Из pdf делаем одностраничные pdf (в Акробате extract pages). Получаем набор pdf, который нужно правильно переименовать. Для этого в Total Commander (или любой другой программе для переименования) вызываем Multi-rename tool. И делаем шаблон с [C] в одном случае start - 1; step - 2, а в другом start - 2; step - 2 (digits - 4). Т.е. любым доступным способом делаем так, что бы при сортировке по алфавиту номера страниц были правильные. После этого объединяем получившиеся pdf в один (можно через Акробат).

empenoso 20 мар 2023 в 09:07

Но мой вариант кажется проще :)

imageman 20 мар 2023 в 09:15

PDFtk "инструмент командной строки" - эти три слова многих современных специалистов (не говоря уже о пользователях) вгоняют в скуку и депрессию :-) Поэтому альтернативный вариант кому-то может оказаться проще - нужно всего-то разбить документы постранично, правильно переименовать файлы и собрать обратно все файлы в один документ.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий