Pull to refresh
40
0

Solopreneur

Send message

Да это минимальные требования, такое железо необходимо чтобы запустился ElasticSearch и приемлемо работал OCR

Не понял про smb вариант, объясните пожалуйста

Можем вам лично предоставить, только расскажите что вы с кодом делать хотите.

Я вас не понял, про какой золотой образ вы говорите?

Да, получается так. И еще надо добавить место для поискового индекса

Русский распознается, также поддерживаются: Ita, Deu, Fra, Spa, Pl, Nld

Да вы правы, в настройках краулера можно указать расписание запуска в крон-формате

Ну если ваши секретари уже отсканировали все документы то все просто — натравливаете на эту папку Ambar, он автоматически распознает текст со сканов и позволяет по нему искать. Вот скриншот как это выглядит: image

Нам удобней разворачивать и обновлять приложение через docker, поэтому выбрали его

Неплохо!

Спасибо!


Оно файлы к себе затягивает или просто строит индекс?

Ambar затягивает к себе все файлы и хранит у себя


Доступ к файлу напрямую осуществляется или проксируется?

Доступ к файлу через Ambar из его базы данных


Что если у пользователя нет праа на какую-то папку?

В настройках краулера можно указать из под какой учетки ходить. Во время поиска нет разделения файлов по правам

Здравствуйте,


Используете ли вы индексацию?

Используем


Если есть индексация, то используете полностью самописный движок или что-то существующее?

В качестве поискового движка используем тонко настроенный ElasticSearch


Можно ли привести сравнение с dtSearch по вопросу скорости индексации?

Если речь идет о скорости сбора и индексации, а не поиска, то она сравнима с dtSearch при условии сбора данных по сети. По опыту внедрения у клиентов, Ambar собирает и обрабатывает (извлечение текста + ocr + индексация) около 1 млн документов в сутки.


Можете ли привести запросы к dtSearch, которые работали до 5 минут?

Например, запрос "Иванов Иван Иванович" w/5 75 в 4 млн. документов (примерно 400 Гб файлов)


А простые запросы с какой скоростью отрабатывают?

Простые запросы в dtSearch типа ИНН компании, без усложнений, выполняется несколько секунд.

Да, может! Инструкция есть на английском вот тут. Напишите вашу почту в ЛС и мы пришлем вам инструкцию на русском.

Также перед Tesseract мы правильно подготавливаем изображения для лучшего распознавания

Здравствуйте, а какого рода информация вам нужна? Больше информации вы можете найти, например, на нашем landing page: https://ambar.cloud

Это правильно настроенный Tesseract + парсинг любых PDF

К сожалению нет, у меня он так падает с ошибкой. А именно ругался на ошибку в путях, для этого я прописал:


 paths: {
            contentPath: path.join(process.env.GHOST_CONTENT, '/')
        },

Но этого было не достаточно. Если у вас есть еще какие-либо предложения готов выслушать

Полностью согласен с вами. Нам нужны highlights поэтому поставили store: true

Information

Rating
7,826-th
Registered
Activity