Комментарии 14
Спасибо за интересный материал.
В принципе, для хранения могут пригодиться любые документы: договоры, выписки из банков, коммунальные счета, страховые договоры. По закону гражданин обязан хранить физические копии некоторых документов, таких как свидетельства о регистрации на автомобиль и квартиру, паспорт, удостоверения личности, некоторые финансовые документы, страховые договоры и др
По какому закону гражданин какой страны обязан хранить физические копии некоторых документов, таких как свидетельства о регистрации на автомобиль и квартиру, паспорт, удостоверения личности, некоторые финансовые документы, страховые договоры и др ?
Русский язык в распознавании pdf поддерживается или используется что то типа tesseract?
Он самый: https://packages.debian.org/search?keywords=tesseract-ocr-&searchon=names&suite=buster
А что с ним не так?
А я подумал, что непло хо было сделать так, чтобы тэги присваивал нетолько пользовтаель но ещё и llm. Оказывается, всё придумано до нас: https://github.com/icereed/paperless-gpt
Пробовал paperless-ngx, но не понравилось, как он хранит файлы под капотом. Он их переименовывает и хранит под одинаковыми названиями с разными номерами. Т.е. подвязываясь на эту систему, придётся сидеть на ней до последнего. Смигрировать на что-то другое будет крайне проблематично.
Есть возможность использовать форматирование для хранения (папка/имя и тд)
https://docs.paperless-ngx.com/advanced_usage/#storage-paths
Есть возможность экспорта документов https://docs.paperless-ngx.com/administration/#exporter
Пока вижу несколько недоработок.
непонятно, будет ли (и как) реализована фича с пометками внутри документов (закладки, комментарии-пометки и т.п.) – полезно для книг и научных статей
сейчас нет поддержки формата DjVu (его не поддерживает Tika). Не видно, чтобы он был в приоритете. Добавить несложно, но погружаться не очень хочется
Помню когда то была программа "Архивариус 3000 " с индексацией кучи разных форматов
Архивариус 3000 - это фу... Не модно. Без ИИ работает.
А ретрограды могут его на Windows 2000 запустить
https://compress.ru/article.aspx?id=23156

Цифровой архив с полнотекстовым поиском, в том числе по PDF и картинкам