Как стать автором
Обновить

Цифровой архив с полнотекстовым поиском, в том числе по PDF и картинкам

Время на прочтение3 мин
Количество просмотров6.5K
Всего голосов 15: ↑15 и ↓0+19
Комментарии14

Комментарии 14

Спасибо за интересный материал.

В принципе, для хранения могут пригодиться любые документы: договоры, выписки из банков, коммунальные счета, страховые договоры. По закону гражданин обязан хранить физические копии некоторых документов, таких как свидетельства о регистрации на автомобиль и квартиру, паспорт, удостоверения личности, некоторые финансовые документы, страховые договоры и др


По какому закону гражданин какой страны обязан хранить физические копии некоторых документов, таких как свидетельства о регистрации на автомобиль и квартиру, паспорт, удостоверения личности, некоторые финансовые документы, страховые договоры и др ?

По закону "без бумажки – ты букашка". Потребуют у Вас что-то в некоем органе малоцифровизированной страны, или скажут, что нет у них такого документа (из-за бага) в стране высокой культуры цифровизации, и иди доказывай, что Вы – не верблюд.

Так это нужно хранить оригиналы, а не копии

Русский язык в распознавании pdf поддерживается или используется что то типа tesseract?

очень слабо работает с русским

и если я верно понимаю, таблицы или просто две колонки в pdf корректно не разберет? сам tesseract это точно не умеет

А я подумал, что непло хо было сделать так, чтобы тэги присваивал нетолько пользовтаель но ещё и llm. Оказывается, всё придумано до нас: https://github.com/icereed/paperless-gpt

Пробовал paperless-ngx, но не понравилось, как он хранит файлы под капотом. Он их переименовывает и хранит под одинаковыми названиями с разными номерами. Т.е. подвязываясь на эту систему, придётся сидеть на ней до последнего. Смигрировать на что-то другое будет крайне проблематично.

Есть возможность использовать форматирование для хранения (папка/имя и тд)

https://docs.paperless-ngx.com/advanced_usage/#storage-paths

Есть возможность экспорта документов https://docs.paperless-ngx.com/administration/#exporter

Спасибо, попробую поиграться с конфигурацией

Пока вижу несколько недоработок.

  • непонятно, будет ли (и как) реализована фича с пометками внутри документов (закладки, комментарии-пометки и т.п.) – полезно для книг и научных статей

  • сейчас нет поддержки формата DjVu (его не поддерживает Tika). Не видно, чтобы он был в приоритете. Добавить несложно, но погружаться не очень хочется

Помню когда то была программа "Архивариус 3000 " с индексацией кучи разных форматов

Архивариус 3000 до сих пор есть и используется.

Мистраль на днях опубликовал ллм модельку для сканирования картинок и сканов в пдф. Переделывает их в маркдаун+картинки. Работает очень быстро (но не очень хорошо, повернутый набок текст воспринимает как картинки).

Зарегистрируйтесь на Хабре, чтобы оставить комментарий