Комментарии 10
В Вашем случае пустая PDF страница весит меньше 70 кБ. Но это же не константа - для разных документов этот размер может различаться, намёк на это был в тексте. Как узнать эту величину заранее или её необходимо подбирать эмпирическим методом?
Вы абсолютно правы. Перед тем как задать эту цифру я вручную разобрал несколько файлов при помощи команды pdftk "$file" burst
и посмотрел сколько лично в моём случае составляет размер пустой страницы.
И на старуху бывает проруха ) Я бы не удалял, а просто перекладывал файлы в отдельную папку, чтобы потом быстро пролистать содержимое по превьюшкам, ну а дальше можно и удалить, если не затесался какой нибудь лист с одной строчкой.
я в свое время, когда встал вопрос автоматического редактирования PDF (надо было границы подправить и еще что-то поменять, потом напечатать, фокус был в том, что напрямую на принтер мимо редактирования программно было нельзя по требованиям безопасности), написал макрос на VBA, который открывает PDF Word'ом, делает что надо, печатает и обратно сохраняет. Для PDF, где одни картинки и нет текстового слоя, это может быть даже и проще.
Делал на python вот алгоритм
img = img.resize((50,50))
width, height = img.size
r_total = 0
g_total = 0
b_total = 0
count = 0
for x in range(0, width):
for y in range(0, height):
r, g, b = img.getpixel((x,y))
r_total += r
g_total += g
b_total += b
count += 1
далее пример получаем на выходе:
r_total/count = 251,4864
g_total/count = 249,6232
b_total/count = 252,5612
251,4864 + 249,6232 + 252,5612 = 753,6708 / 3 = 251,2235
251,2236 больше 250 значить лист белый
Как убрать пустые оборотные страницы из PDF после двухстороннего сканирования