Pull to refresh
40
ILIA @sochixread⁠-⁠only

Solopreneur

Send message

Спасибо за прекрасно разобранную тему с крутыми примерами. Давно тут не было такого годного контента

Структура папок откуда взялась? Ее в Амбаре создавать можно, или откуда она берется?

Ambar сам строит структуру папок с помощью информации полученной от краулеров, а именно полных путей к файлу


И в прошлой версии нельзя было получить гиперссылку на найденный файл, чтоб кинуть на него линк другом человеку. Сейчас как-то можно это сделать?

В прошлой версии мы сохраняли исходные файлы и ее можно было получить из кнопки "Download", в этой версии такая возможность то же есть

Да это минимальные требования, такое железо необходимо чтобы запустился ElasticSearch и приемлемо работал OCR

Не понял про smb вариант, объясните пожалуйста

Можем вам лично предоставить, только расскажите что вы с кодом делать хотите.

Тщательно настроенный tesseract

Я вас не понял, про какой золотой образ вы говорите?

Да, получается так. И еще надо добавить место для поискового индекса

Русский распознается, также поддерживаются: Ita, Deu, Fra, Spa, Pl, Nld

Да вы правы, в настройках краулера можно указать расписание запуска в крон-формате

Ну если ваши секретари уже отсканировали все документы то все просто — натравливаете на эту папку Ambar, он автоматически распознает текст со сканов и позволяет по нему искать. Вот скриншот как это выглядит: image

Нам удобней разворачивать и обновлять приложение через docker, поэтому выбрали его

Вы имеете ввиду debian пакеты?

Неплохо!

Спасибо!


Оно файлы к себе затягивает или просто строит индекс?

Ambar затягивает к себе все файлы и хранит у себя


Доступ к файлу напрямую осуществляется или проксируется?

Доступ к файлу через Ambar из его базы данных


Что если у пользователя нет праа на какую-то папку?

В настройках краулера можно указать из под какой учетки ходить. Во время поиска нет разделения файлов по правам

Здравствуйте,


Используете ли вы индексацию?

Используем


Если есть индексация, то используете полностью самописный движок или что-то существующее?

В качестве поискового движка используем тонко настроенный ElasticSearch


Можно ли привести сравнение с dtSearch по вопросу скорости индексации?

Если речь идет о скорости сбора и индексации, а не поиска, то она сравнима с dtSearch при условии сбора данных по сети. По опыту внедрения у клиентов, Ambar собирает и обрабатывает (извлечение текста + ocr + индексация) около 1 млн документов в сутки.


Можете ли привести запросы к dtSearch, которые работали до 5 минут?

Например, запрос "Иванов Иван Иванович" w/5 75 в 4 млн. документов (примерно 400 Гб файлов)


А простые запросы с какой скоростью отрабатывают?

Простые запросы в dtSearch типа ИНН компании, без усложнений, выполняется несколько секунд.

Да, может! Инструкция есть на английском вот тут. Напишите вашу почту в ЛС и мы пришлем вам инструкцию на русском.

Также перед Tesseract мы правильно подготавливаем изображения для лучшего распознавания

Здравствуйте, а какого рода информация вам нужна? Больше информации вы можете найти, например, на нашем landing page: https://ambar.cloud

Это правильно настроенный Tesseract + парсинг любых PDF

Information

Rating
Does not participate
Registered
Activity