S_A Aug 1 2020 at 06:51

Как сделать поиск по файлоболотам в 104 строки кода на python

4 min

8.6K

Data Mining*Natural Language Processing*

+15

Comments 5

azxc Aug 2 2020 at 01:43

в функции processor:

try:
...
except Exception as exception:

не позволил вам найти опечатку в строчке

with pdfplumber.open(path) as pfd:

тут явная опечатка pfd должно быть pdf. ну и, кмк if len(pdf.pages): можно заменить было бы на if pdf.pages:.

А еще там же, можно было бы написать

from pathlib import Path

ext = Path(path).suffix.lower()

и дальше сравнивать if ext == '.pdf':, и не повторять кучу раз код. Да, три лишние строчки добавится, но код станет читабельнее.

S_A Aug 2 2020 at 01:51

Огонь, спасибо за ценное замечание и внимательность! Опечатку поправлю как доберусь до десктопа.

Изначально при отладке в except стоял print(exception) и он был выпилен. with появился чуть позже. Спасибо еще раз.

S_A Aug 2 2020 at 02:39

Исправил опечатку и проверил что работает с PDF нормально. Про пути оставил из соображений сохранения оригинального кода. Но впредь обещаю себе больше не заниматься оптимизациями количества строк.

azxc Aug 2 2020 at 03:37

кмк, лучше переписать список ожидаемых exceptions, чем Exception. Но это дело вкуса.

я в последнее время очень полюбил модуль pathlib (раньше использовал py.path), и всем советую его. но если не хочется, всегда можно сделать os.path.splitext(filename)[1]. собственно идея комментария была в том, что бы не делать path.lower() несколько раз в коде + сделать аккуратнее логику с .jpg/jpeg.

а вообще спасибо за статью — мне было интересно почитать и кое-что новое узнал. когда-нибудь пригодится :)

caxap1 Aug 3 2020 at 01:11

Очень интересно, так как ежедневно работаю с большим количеством pdf файлов, в том числе с поиском по тексту файлов с помощью гугл диска.
На самом деле, как оказалось, на рынке практически отсутствуют вменяемые решения каталогизации и поиска по содержимому pdf файлов.
Буду признателен если кто-то может порекомендовать коробочные решения по хранению и интеллектуальному поиску по тексту большой массы pdf файлов.