Как стать автором
Обновить

Комментарии 10

В Вашем случае пустая PDF страница весит меньше 70 кБ. Но это же не константа - для разных документов этот размер может различаться, намёк на это был в тексте. Как узнать эту величину заранее или её необходимо подбирать эмпирическим методом?

Вы абсолютно правы. Перед тем как задать эту цифру я вручную разобрал несколько файлов при помощи команды pdftk "$file" burst и посмотрел сколько лично в моём случае составляет размер пустой страницы.

И на старуху бывает проруха ) Я бы не удалял, а просто перекладывал файлы в отдельную папку, чтобы потом быстро пролистать содержимое по превьюшкам, ну а дальше можно и удалить, если не затесался какой нибудь лист с одной строчкой.

Спасибо

Подумал ровно об этом же, когда читал статью - складывать в файл и потом пролистать. Но, ведь, если пустых страниц будет много, то, листая, можно что-то, да пропустить. Тут нужно что-то ещё придумать. Но это, все же, хоть какой-то контроль.

Переделал в статье:
mv "$page" "removed/"

я в свое время, когда встал вопрос автоматического редактирования PDF (надо было границы подправить и еще что-то поменять, потом напечатать, фокус был в том, что напрямую на принтер мимо редактирования программно было нельзя по требованиям безопасности), написал макрос на VBA, который открывает PDF Word'ом, делает что надо, печатает и обратно сохраняет. Для PDF, где одни картинки и нет текстового слоя, это может быть даже и проще.

Делал на python вот алгоритм

img = img.resize((50,50))
width, height = img.size

r_total = 0
g_total = 0
b_total = 0

count = 0
for x in range(0, width):
    for y in range(0, height):
        r, g, b = img.getpixel((x,y))
        r_total += r
        g_total += g
        b_total += b
        count += 1

далее пример получаем на выходе:

r_total/count = 251,4864
g_total/count = 249,6232
b_total/count = 252,5612

251,4864 + 249,6232 + 252,5612 = 753,6708 / 3 = 251,2235
251,2236 больше 250 значить лист белый

А если сканы отверстий под перешивку например есть?

Ну если скинешь пример я проверю результат, у меня попадают в этот фильтр страницы которые с мусором типа полоска от печати принтера или если поставили штамп и он один на белом листе бледный

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории