sochix Oct 19 2017 at 14:02

Поиск документов в сетевых шарах и файловых помойках

2 min

31K

Data storage*

+29

Comments 69

Botkin Oct 19 2017 at 15:06

Неплохо!
Оно файлы к себе затягивает или просто строит индекс?
Доступ к файлу напрямую осуществляется или проксируется?
Что если у пользователя нет праа на какую-то папку?

sochix Oct 19 2017 at 15:12

Неплохо!

Спасибо!

Оно файлы к себе затягивает или просто строит индекс?

Ambar затягивает к себе все файлы и хранит у себя

Доступ к файлу напрямую осуществляется или проксируется?

Доступ к файлу через Ambar из его базы данных

Что если у пользователя нет праа на какую-то папку?

В настройках краулера можно указать из под какой учетки ходить. Во время поиска нет разделения файлов по правам

Botkin Oct 19 2017 at 17:27

Ага. Т.е. доступы не наследуются из ntfs?
но rbac присутствует?

Vinni37 Oct 20 2017 at 07:20

Ambar затягивает к себе все файлы и хранит у себя

Получается если помойка на терабайт, надо еще терабайт на Ambar выдать?

sochix Oct 20 2017 at 07:21

Да, получается так. И еще надо добавить место для поискового индекса

Vinni37 Oct 20 2017 at 07:29

Жаль, спасибо за ответ.

borisxm Oct 21 2017 at 10:50

Использую дома архивариус 3000 — держит только индекс (примерно 20-30% от исходного объема). Из минусов: закрытый, не умеет OCR и под линуксом работает только под вайном.

kudablin_a Oct 20 2017 at 14:48

угу, например для тектосвых файлов, вроде doc, html, pdf это где-то еще столько же места, сколько сами файлы. Покрайней мере так в recoll.

nikweter Oct 19 2017 at 15:56

А что, делать пакеты больше не круто? Только докер, только хардкор?

sochix Oct 19 2017 at 16:00

Вы имеете ввиду debian пакеты?

nikweter Oct 19 2017 at 16:07

deb, rpm — вот это все.

sochix Oct 19 2017 at 16:09

Нам удобней разворачивать и обновлять приложение через docker, поэтому выбрали его

Botkin Oct 19 2017 at 17:28

Больше не круто, да. К сожалению, теперь большинство софта деплоится в виде черных ящиков

nikweter Oct 20 2017 at 04:08

Вот именно что к сожалению.

arcman Oct 21 2017 at 08:35

К счастью докер это не черный ящик — в докер файле описана вся последовательность его приготовления.

oYASo Oct 19 2017 at 16:56

Интересно!

Вопрос скорее концептуальный (идеи, предложения?): как быть с отсканированными документами? Доков много, секретари сканят все пачками в одну папку, не всегда все разбирается — адищенский ад в итоге.

sochix Oct 19 2017 at 17:01

Ну если ваши секретари уже отсканировали все документы то все просто — натравливаете на эту папку Ambar, он автоматически распознает текст со сканов и позволяет по нему искать. Вот скриншот как это выглядит:

Akr0n Oct 20 2017 at 05:11

Русский не распознается?

sochix Oct 20 2017 at 07:20

Русский распознается, также поддерживаются: Ita, Deu, Fra, Spa, Pl, Nld

gmelikov Oct 21 2017 at 10:49

Чем распознаётся?

gmelikov Oct 21 2017 at 10:52

Упс, извиняюсь, ниже уже ответили.

oYASo Oct 24 2017 at 00:01

Выглядит отлично!

muxa_ru Oct 23 2017 at 01:56

Прошу прощения за интимный вопрос, а что это вообще за рабочий процесс в котором несколько человек сканят в одну папку?

Просто мы делаем программу для работы с хотфолдерами и мне интересны пользовательские кейсы в этой области.

Если, конечно же, это не секретно.

Заранее спасибо.

oYASo Oct 24 2017 at 00:00

Да нет никакого секрета: есть 1 сканер, есть 2 секретаря. Документы пришли, кто-то из них засунул их в сканер, он автоматом сделал копию пачки и положил в дефолтную папку. Пришел второй секретарь, сделал тоже самое с другим доком. Часть из этого отобрали и аккуратно куда-то положили, на часть забили.

skw85 Oct 19 2017 at 17:39

А как происходит индексация новых файлов, по крону?

sochix Oct 19 2017 at 17:40

Да вы правы, в настройках краулера можно указать расписание запуска в крон-формате

gotch Oct 19 2017 at 17:42

Без учета разрешений доступа на оригинальные файлы вся эта затея бессмысленна. Прототип, не более.

gotch Oct 20 2017 at 12:57

Надо объяснить минусующим. Обычно на файловом сервере настроены четкие разрешения на папки различных отделов, на разные категории документов, или даже используется Dynamic Access Control.
Очень интересная идея сделать полнотекстовый кеш всего и отдавать его же всем.
Как наяву вижу следующие запросы: *парол*, *зарплат*директор*, и так далее.
На дворе 2017 год. И информационная безопасность это не последний, а первый вопрос, который должен быть у разработчика приложений.

Здорово заново изобрести Microsoft Search Server для *nix платформ, но безопасность, господа.

grossws Oct 20 2017 at 16:24

Иногда такие системы вполне себе живут в контурной модели безопасности, без всего развлечения с rbac. Для части применений этого вполне достаточно.

aulandsdalen Oct 19 2017 at 18:40

Докер-докер-докер-докер-докер. Убунту-убунту-убунту-убунту-убунту.

А если я хочу, например, на macOS развернуть это все? Или на OpenBSD? Или на RHEL? А ничего, говорят мне авторы этого проекта, ставь убунту и разворачивай там докер, потому что это стильно-модно-молодежно.

Нет ничего более идиотского, чем ПО, которое безальтернативно распространяется в виде докер-контейнера.

Botkin Oct 19 2017 at 19:15

Так-то вообще гитхаб же. Бери/собирай/контрибьють

cagami Oct 19 2017 at 19:35

+1 не успел откомментить
github.com/RD17/ambar

DrAleck Oct 19 2017 at 20:06

Я думаю если вы профинансируете в должной степени разработку, авторы учтут большинство ваших хотелок.

Gutt Oct 19 2017 at 20:06

Открою страшную тайну — докер-контейнеры можно запустить и на macOS, и на опенке, и даже (до чего дожили!) на красной шапке.

x67 Oct 20 2017 at 08:36

Синее головное ведерко, надеюсь, не останется в стороне?)

Ded_Banzai Oct 20 2017 at 14:48

Так докер можно запустить практически везде. Вот то, что нет отдельного пакета — это действительно хуже.

kisskin Oct 19 2017 at 20:06

конечно, хорошо бы права доступа учитывать) и хорошо бы под винду, почему-то мне кажется, что проблема с файло-помойками в большей степени всё же у тех, кто в компьютерах не силён)

realkludge Oct 22 2017 at 20:17

Софт ставится на сервере с Linux, а у не сильных в компьютерах клиентов может быть что угодно, в т.ч. и винда.

serafims Oct 19 2017 at 22:57

Если файлопомойка стала помойкой — это уже не инструмент, и его надо немножко удалить нахрен.

Mendel Oct 20 2017 at 12:26

За удаление некоторых помоек весь отдел АСУ удалить могут. Причем физически, а не просто unmount в отделе кадров.
Знавал я одну помойку, стихийно образовавшуюся лет двенадцать назад.
«ШараСекретарь» называется.
Создавалась исключительно с целью файлообмена между начальником одного органа гос.власти с его приемной ибо принтер ставить начальнику было совершенно нецелесообразно, и даже настраивать печать на принтер в приемной не хотелось по соображениям — пусть секретарь допиливает напильником за шефом перед печатью.
(Да, я мог сказать что _Шефу_ не нужно ставить всё самое лучшее, и даже «так» посмотреть на завсклада, чтобы она перестала спорить).
Но блин, я не ожидал что эта папочка превратиться в главную файлопомойку предприятия.
Обнаружив что на этом компе висит больше файлов чем на штатной файлопомойке на большом толстом сервере с рейдом и т.п. я пытался бороться. Пару лет пытался. И ярлыки людям переправлял и разговоры разговаривал. Лет семь назад плюнул я на это дело и тупо переобозвал «Секретаря» в «Приемную» а файлсервер в «Секретарь».
Я там уже лет пять не появлялся, но шара живет…

SchmeL Oct 20 2017 at 13:06

История примерно такая же, только не у меня. Гос. предприятие, половина ПК личных, так же купленный в складчину qnap. Принес мне как-то друг диск, который в том qnap кто-то форматнул. И ладно, своя же помойка, но начальство грозило лишить премии весь отдел, так как им пользовалось все предприятие и основные БД (ms access) были на нем же.
Админа у них там не было, да и навряд ли кто-то в здравом уме согласился бы там работать на полную ставку.

UFO landed and left these words here

ssss41 Oct 20 2017 at 07:18

идея классная, но без разграничения прав я не представляю, как ее внедрять.
У меня 300ГБ инфы на файловом сервере + у каждого пользователя еще свой профиль, который тоже можно засунуть для поиска инфы (папку Docs + Desktop).
Документы лежат в нужных папках по темам, но все равно их бывает хрен найдешь.
Осталось придумать как подтягивать разграничение по правам доступа и будет готовое решение.

amarao Oct 20 2017 at 09:44

Отличный пример применения докера. Просто образцово-показательный. После того, как ломается хотя бы одна из зависимостей, пересобрать золотой образ становится просто невозможно. Я бы сказал, что это гигантская куча антипаттернов системного администрирования.

А проект хороший, да.

sochix Oct 20 2017 at 09:45

Я вас не понял, про какой золотой образ вы говорите?

GreyCat Oct 20 2017 at 12:03

мы решились на создание своего продукта, конечно же open-source'ного.

А проект хороший, да.

Только вот он ни разу не "open source", там fair source с "Use Limitation: 1 user". Так что "хороший" при наличии массы разумных open source альтернатив — по-моему, преувеличение.

amarao Oct 20 2017 at 14:32

Ого. И они используют gpl'ные компоненты во всю без учёта лицензий? Сурово.

GreyCat Oct 20 2017 at 14:36

Я не уверен насчет gpl'ных, но там все как-то весьма сурово, да. Как минимум, у них в лицензировании должен быть отдельный (и большой, по идее, учитывая Docker) файлик с кучей всяких лицензий хотя бы на всякое такое. Впрочем, конкретно проект ambar-crawler у них вообще без явно указанной лицензии.

port443 Oct 22 2017 at 20:17

Одно юр.лицо — один юзер же. Всё нормально :)

guyfawkes Oct 20 2017 at 11:18

А с помощью чего реализовано OCR?

sochix Oct 20 2017 at 11:31

Тщательно настроенный tesseract

guyfawkes Oct 20 2017 at 11:51

А будут ли выложены исходники того же pipeline?

sochix Oct 20 2017 at 14:50

Можем вам лично предоставить, только расскажите что вы с кодом делать хотите.

guyfawkes Oct 20 2017 at 15:17

Я поизучать исходники хотел :) Ведь вы описали свое решение как опенсорсное, а самая мякотка (апи и пайплайн) доступны только в виде докер-имейджей.

Mendel Oct 22 2017 at 10:04

Ну так и лицензия не свободная. Опенсорс тут чисто в качестве рекламного хода, чтобы завлекать людей на свое фримиум решение. Ничего личного, просто бизнес.

badhop Oct 20 2017 at 11:47

Здорово! Google в свое время такие appliance продавал, но они на себе только индекс хранили и умели обходить в том числе пользовательские компьютеры, а тут все таки нужно много места, чтобы копию всех данных хранить.

equand Oct 20 2017 at 12:22

Да, проблема появляется, когда захочешь это на NAS поставить. Идея хороша, но реализация хромает (как с сисадминской стороны — докерпомойка, так и с программной — хранение всех файлов в кастомной бд дубликатом)

equand Oct 20 2017 at 12:36

Добавлю для создателей:
Крутое решение, только если бы был index only вариант обе эти проблемы были бы решены по большей части. Еще не помешал бы smb вариант, не хотелось бы всем давать админский доступ в малом/среднем бизнесе. А поисковик по документам мастхев.

sochix Oct 20 2017 at 14:51

Не понял про smb вариант, объясните пожалуйста

equand Oct 20 2017 at 17:02

small medium business.

SchmeL Oct 20 2017 at 13:13

В owncloud\nextcloud можно подключить общую шару. Поиск по именам только есть. Обычно этого хватает, шара остается на месте, файлы не синхронизируются.

grossws Oct 20 2017 at 16:31

Интересно, а вы контрибьютите в проекты, которые используете? Как-то учитываете лицензии проектов, на которые опираетесь?

Например, я не вижу файла с перечислением лицензий зависимостей от слова совсем. Как минимум, часть зависимостей у вас под Apache License v2, но никакого указания этого я не вижу.

Ну и хвалиться тем, что у вас "Поддержка всех офисных форматов (в т.ч. openoffice), pdf с картинками и старых кодировок вроде CP866" довольно глупо, это есть у всех кто использует Apache Tika. Собственно, поддержку cp866/ibm866 я добавлял когда-то ради лексиконовских файлов.

Mendel Oct 22 2017 at 10:19

Это коммерческий продукт, с несвободной лицензией дающий лишь ограниченный доступ (фактически фримиум), в котором «открытый код» лишь маркетинговый ход.
Формально они правы, свободная лицензия и открытый код хоть и коррелируют, но не синонимы. Но в целом это некрасиво конечно.
А нарушение чужих лицензий? Ну бывает. Но кто же будет судиться?

reff Oct 21 2017 at 19:13

Мгновенно искать по именам файлов умеет everything (voidtools.com). Строит индекс, к себе ничего не копирует, умеет прикидываться http- и ftp-сервером.

VJean Oct 22 2017 at 01:14

Он хорош для локального поиска и, увы, windows only. Сканирование и переиндексация сетевой шары на несколько Тб может занять кучу времени.

reff Oct 22 2017 at 09:43

Умеет индексировать сетевые диски. Обработка нескольких терабайт не может не занимать кучу времени, чудес не бывает. При использовании NTFS переиндексация осуществляется чуть ли не в реальном времени.

VJean Oct 23 2017 at 00:34

Я не отрицал, что не умеет сканировать шары, они добавляются в качестве обычного каталога. Но вот затык в том, что MFT и USN по сети не передаются, от того и низкие скорости. Кроме того, есть еще проблема с NTFS под линуксами: журнал не обновляется и переиндексацию приходится делать по расписанию.

ks0 Nov 4 2017 at 11:20

Прочитал системные требования — 4 GB RAM, 50GB HDD, 2xCPU Core (кажется еще где-то на требование 64 бит натыкался...)
Это минимальные?! Чем вызвано? Просто хотел бы попробовать на старенькой машине.

sochix Nov 7 2017 at 07:57

Да это минимальные требования, такое железо необходимо чтобы запустился ElasticSearch и приемлемо работал OCR