Comments / Profile of sochix / Habr

ILIA@sochix^{read⁠-⁠only}

Solopreneur

Subscribers

ProfileArticles13PostsNewsComments43

Алгоритмы быстрого умножения чисел: от столбика до Шенхаге-Штрассена

sochix Mar 3 2023 at 11:54

Спасибо за прекрасно разобранную тему с крутыми примерами. Давно тут не было такого годного контента

+19

От поиска к исследованию документов в сетевых шарах и файловых помойках

sochix Nov 23 2017 at 11:53

Структура папок откуда взялась? Ее в Амбаре создавать можно, или откуда она берется?

Ambar сам строит структуру папок с помощью информации полученной от краулеров, а именно полных путей к файлу

И в прошлой версии нельзя было получить гиперссылку на найденный файл, чтоб кинуть на него линк другом человеку. Сейчас как-то можно это сделать?

В прошлой версии мы сохраняли исходные файлы и ее можно было получить из кнопки "Download", в этой версии такая возможность то же есть

Поиск документов в сетевых шарах и файловых помойках

sochix Nov 7 2017 at 07:57

Да это минимальные требования, такое железо необходимо чтобы запустился ElasticSearch и приемлемо работал OCR

Поиск документов в сетевых шарах и файловых помойках

sochix Oct 20 2017 at 14:51

Не понял про smb вариант, объясните пожалуйста

Поиск документов в сетевых шарах и файловых помойках

sochix Oct 20 2017 at 14:50

Можем вам лично предоставить, только расскажите что вы с кодом делать хотите.

Поиск документов в сетевых шарах и файловых помойках

sochix Oct 20 2017 at 11:31

Тщательно настроенный tesseract

Поиск документов в сетевых шарах и файловых помойках

sochix Oct 20 2017 at 09:45

Я вас не понял, про какой золотой образ вы говорите?

Поиск документов в сетевых шарах и файловых помойках

sochix Oct 20 2017 at 07:21

Да, получается так. И еще надо добавить место для поискового индекса

Поиск документов в сетевых шарах и файловых помойках

sochix Oct 20 2017 at 07:20

Русский распознается, также поддерживаются: Ita, Deu, Fra, Spa, Pl, Nld

Поиск документов в сетевых шарах и файловых помойках

sochix Oct 19 2017 at 17:40

Да вы правы, в настройках краулера можно указать расписание запуска в крон-формате

Поиск документов в сетевых шарах и файловых помойках

sochix Oct 19 2017 at 17:01

Ну если ваши секретари уже отсканировали все документы то все просто — натравливаете на эту папку Ambar, он автоматически распознает текст со сканов и позволяет по нему искать. Вот скриншот как это выглядит:

Поиск документов в сетевых шарах и файловых помойках

sochix Oct 19 2017 at 16:09

Нам удобней разворачивать и обновлять приложение через docker, поэтому выбрали его

Поиск документов в сетевых шарах и файловых помойках

sochix Oct 19 2017 at 16:00

Вы имеете ввиду debian пакеты?

Поиск документов в сетевых шарах и файловых помойках

sochix Oct 19 2017 at 15:12

Неплохо!

Спасибо!

Оно файлы к себе затягивает или просто строит индекс?

Ambar затягивает к себе все файлы и хранит у себя

Доступ к файлу напрямую осуществляется или проксируется?

Доступ к файлу через Ambar из его базы данных

Что если у пользователя нет праа на какую-то папку?

В настройках краулера можно указать из под какой учетки ходить. Во время поиска нет разделения файлов по правам

Зачем мы создали замену старым системам поиска по документам

sochix Apr 7 2017 at 09:36

Один индекс, но хитро настроенный. Писали про его настройку:

Зачем мы создали замену старым системам поиска по документам

sochix Apr 7 2017 at 09:11

Здравствуйте,

Используете ли вы индексацию?

Используем

Если есть индексация, то используете полностью самописный движок или что-то существующее?

В качестве поискового движка используем тонко настроенный ElasticSearch

Можно ли привести сравнение с dtSearch по вопросу скорости индексации?

Если речь идет о скорости сбора и индексации, а не поиска, то она сравнима с dtSearch при условии сбора данных по сети. По опыту внедрения у клиентов, Ambar собирает и обрабатывает (извлечение текста + ocr + индексация) около 1 млн документов в сутки.

Можете ли привести запросы к dtSearch, которые работали до 5 минут?

Например, запрос "Иванов Иван Иванович" w/5 75 в 4 млн. документов (примерно 400 Гб файлов)

А простые запросы с какой скоростью отрабатывают?

Простые запросы в dtSearch типа ИНН компании, без усложнений, выполняется несколько секунд.

Зачем мы создали замену старым системам поиска по документам

sochix Apr 7 2017 at 07:53

Да, может! Инструкция есть на английском вот тут. Напишите вашу почту в ЛС и мы пришлем вам инструкцию на русском.

Зачем мы создали замену старым системам поиска по документам

sochix Apr 7 2017 at 07:38

Также перед Tesseract мы правильно подготавливаем изображения для лучшего распознавания

Зачем мы создали замену старым системам поиска по документам

sochix Apr 7 2017 at 07:36

Здравствуйте, а какого рода информация вам нужна? Больше информации вы можете найти, например, на нашем landing page: https://ambar.cloud

Зачем мы создали замену старым системам поиска по документам

sochix Apr 7 2017 at 07:21

Это правильно настроенный Tesseract + парсинг любых PDF

2 3