Comments / Profile of sochix / Habr

Ну если ваши секретари уже отсканировали все документы то все просто — натравливаете на эту папку Ambar, он автоматически распознает текст со сканов и позволяет по нему искать. Вот скриншот как это выглядит:

Look

Поиск документов в сетевых шарах и файловых помойках

sochix Oct 19 2017 at 16:09

Нам удобней разворачивать и обновлять приложение через docker, поэтому выбрали его

Look

Поиск документов в сетевых шарах и файловых помойках

sochix Oct 19 2017 at 16:00

Вы имеете ввиду debian пакеты?

Look

Поиск документов в сетевых шарах и файловых помойках

sochix Oct 19 2017 at 15:12

Неплохо!

Спасибо!

Оно файлы к себе затягивает или просто строит индекс?

Ambar затягивает к себе все файлы и хранит у себя

Доступ к файлу напрямую осуществляется или проксируется?

Доступ к файлу через Ambar из его базы данных

Что если у пользователя нет праа на какую-то папку?

В настройках краулера можно указать из под какой учетки ходить. Во время поиска нет разделения файлов по правам

Look

Зачем мы создали замену старым системам поиска по документам

sochix Apr 7 2017 at 09:36

Один индекс, но хитро настроенный. Писали про его настройку:

Look

Зачем мы создали замену старым системам поиска по документам

sochix Apr 7 2017 at 09:11

Здравствуйте,

Используете ли вы индексацию?

Используем

Если есть индексация, то используете полностью самописный движок или что-то существующее?

В качестве поискового движка используем тонко настроенный ElasticSearch

Можно ли привести сравнение с dtSearch по вопросу скорости индексации?

Если речь идет о скорости сбора и индексации, а не поиска, то она сравнима с dtSearch при условии сбора данных по сети. По опыту внедрения у клиентов, Ambar собирает и обрабатывает (извлечение текста + ocr + индексация) около 1 млн документов в сутки.

Можете ли привести запросы к dtSearch, которые работали до 5 минут?

Например, запрос "Иванов Иван Иванович" w/5 75 в 4 млн. документов (примерно 400 Гб файлов)

А простые запросы с какой скоростью отрабатывают?

Простые запросы в dtSearch типа ИНН компании, без усложнений, выполняется несколько секунд.

Look

Зачем мы создали замену старым системам поиска по документам

sochix Apr 7 2017 at 07:53

Да, может! Инструкция есть на английском вот тут. Напишите вашу почту в ЛС и мы пришлем вам инструкцию на русском.

Look

Зачем мы создали замену старым системам поиска по документам

sochix Apr 7 2017 at 07:38

Также перед Tesseract мы правильно подготавливаем изображения для лучшего распознавания

Look

Зачем мы создали замену старым системам поиска по документам

sochix Apr 7 2017 at 07:36

Здравствуйте, а какого рода информация вам нужна? Больше информации вы можете найти, например, на нашем landing page: https://ambar.cloud

Look

Зачем мы создали замену старым системам поиска по документам

sochix Apr 7 2017 at 07:21

Это правильно настроенный Tesseract + парсинг любых PDF

Look

Запускаем свой блог на Ghost с помощью docker-compose

sochix Apr 6 2017 at 15:57

К сожалению нет, у меня он так падает с ошибкой. А именно ругался на ошибку в путях, для этого я прописал:

 paths: {
            contentPath: path.join(process.env.GHOST_CONTENT, '/')
        },

Но этого было не достаточно. Если у вас есть еще какие-либо предложения готов выслушать

Look

Поиск по большим документам в ElasticSearch

sochix Feb 8 2017 at 12:35

Полностью согласен с вами. Нам нужны highlights поэтому поставили store: true

Look

3 4