Ну если ваши секретари уже отсканировали все документы то все просто — натравливаете на эту папку Ambar, он автоматически распознает текст со сканов и позволяет по нему искать. Вот скриншот как это выглядит:
Если есть индексация, то используете полностью самописный движок или что-то существующее?
В качестве поискового движка используем тонко настроенный ElasticSearch
Можно ли привести сравнение с dtSearch по вопросу скорости индексации?
Если речь идет о скорости сбора и индексации, а не поиска, то она сравнима с dtSearch при условии сбора данных по сети. По опыту внедрения у клиентов, Ambar собирает и обрабатывает (извлечение текста + ocr + индексация) около 1 млн документов в сутки.
Можете ли привести запросы к dtSearch, которые работали до 5 минут?
Например, запрос "Иванов Иван Иванович" w/5 75 в 4 млн. документов (примерно 400 Гб файлов)
А простые запросы с какой скоростью отрабатывают?
Простые запросы в dtSearch типа ИНН компании, без усложнений, выполняется несколько секунд.
Да это минимальные требования, такое железо необходимо чтобы запустился ElasticSearch и приемлемо работал OCR
Не понял про smb вариант, объясните пожалуйста
Можем вам лично предоставить, только расскажите что вы с кодом делать хотите.
Тщательно настроенный tesseract
Я вас не понял, про какой золотой образ вы говорите?
Да, получается так. И еще надо добавить место для поискового индекса
Русский распознается, также поддерживаются: Ita, Deu, Fra, Spa, Pl, Nld
Да вы правы, в настройках краулера можно указать расписание запуска в крон-формате
Ну если ваши секретари уже отсканировали все документы то все просто — натравливаете на эту папку Ambar, он автоматически распознает текст со сканов и позволяет по нему искать. Вот скриншот как это выглядит:
Нам удобней разворачивать и обновлять приложение через docker, поэтому выбрали его
Вы имеете ввиду debian пакеты?
Спасибо!
Ambar затягивает к себе все файлы и хранит у себя
Доступ к файлу через Ambar из его базы данных
В настройках краулера можно указать из под какой учетки ходить. Во время поиска нет разделения файлов по правам
Один индекс, но хитро настроенный. Писали про его настройку:
Здравствуйте,
Используем
В качестве поискового движка используем тонко настроенный ElasticSearch
Если речь идет о скорости сбора и индексации, а не поиска, то она сравнима с dtSearch при условии сбора данных по сети. По опыту внедрения у клиентов, Ambar собирает и обрабатывает (извлечение текста + ocr + индексация) около 1 млн документов в сутки.
Например, запрос
"Иванов Иван Иванович" w/5 75
в 4 млн. документов (примерно 400 Гб файлов)Простые запросы в dtSearch типа ИНН компании, без усложнений, выполняется несколько секунд.
Да, может! Инструкция есть на английском вот тут. Напишите вашу почту в ЛС и мы пришлем вам инструкцию на русском.
Также перед Tesseract мы правильно подготавливаем изображения для лучшего распознавания
Здравствуйте, а какого рода информация вам нужна? Больше информации вы можете найти, например, на нашем landing page: https://ambar.cloud
Это правильно настроенный Tesseract + парсинг любых PDF
К сожалению нет, у меня он так падает с ошибкой. А именно ругался на ошибку в путях, для этого я прописал:
Но этого было не достаточно. Если у вас есть еще какие-либо предложения готов выслушать
Полностью согласен с вами. Нам нужны highlights поэтому поставили
store: true