Как стать автором
Обновить

Комментарии 12

Однажды Директор решил взять на работу Эникейщика. Инь Фу Во нашёл кандидата, поговорил с ним и остался доволен. Он сказал Директору:
– Этот человек обратил свои помыслы к учёбе. Возможно, из него получится достойный работник.
Но начальник службы безопасности стал возражать:
– У этого человека была судимость. Его нельзя брать на службу.
Тогда Инь Фу Во спросил:
– Как вы узнали об этом?
– У меня есть связи.
Почтенный Инь помрачнел лицом и сказал Директору:
– Какой из двух работников более добродетельный? Первый совершил преступление и понёс заслуженное наказание, которое могло его вразумить. Второй совершил преступление сам, подбил на совершение преступления государственного служащего, при этом не чувствует за собой вины и никогда не понесёт наказания? Какой из этих двух достоин выдвижения?
Начальник службы безопасности молча встал и вышел.
Что такое «Продвинутый OCR»?

Это правильно настроенный Tesseract + парсинг любых PDF

Также перед Tesseract мы правильно подготавливаем изображения для лучшего распознавания

Это черновик статьи?
Нужно больше информации.

Здравствуйте, а какого рода информация вам нужна? Больше информации вы можете найти, например, на нашем landing page: https://ambar.cloud

Ну вот например: есть файловый сервер, доступный по сети (SMB), где > 1.5 млн. различных документов, в основном Word/Excel, также есть PDF, большое количество сканов в PDF, короче говоря средний офис.
Сейчас использую Архивариус — индексирую самостоятельно ту часть документов, с которой больше всего работаю.
Ваша система сможет заменить Архивариус?
Если да, хотелось бы пошаговую инструкцию по установке/настройке.

Да, может! Инструкция есть на английском вот тут. Напишите вашу почту в ЛС и мы пришлем вам инструкцию на русском.

Используете ли вы индексацию?
Можно ли привести сравнение с dtSearch по вопросу скорости индексации? При условии, что объёмы информации (Офисные документы, email форматы с приложениями, HTML, XML/XSL, в том числе RAR, ZIP, GZIP, TAR) находятся на уровне 100 Гиб, 500 Гиб, 1Тиб.
Если есть индексация, то используете полностью самописный движок или что-то существующее?
Можете ли привести запросы к dtSearch, которые работали до 5 минут? А простые запросы с какой скоростью отрабатывают?

Здравствуйте,


Используете ли вы индексацию?

Используем


Если есть индексация, то используете полностью самописный движок или что-то существующее?

В качестве поискового движка используем тонко настроенный ElasticSearch


Можно ли привести сравнение с dtSearch по вопросу скорости индексации?

Если речь идет о скорости сбора и индексации, а не поиска, то она сравнима с dtSearch при условии сбора данных по сети. По опыту внедрения у клиентов, Ambar собирает и обрабатывает (извлечение текста + ocr + индексация) около 1 млн документов в сутки.


Можете ли привести запросы к dtSearch, которые работали до 5 минут?

Например, запрос "Иванов Иван Иванович" w/5 75 в 4 млн. документов (примерно 400 Гб файлов)


А простые запросы с какой скоростью отрабатывают?

Простые запросы в dtSearch типа ИНН компании, без усложнений, выполняется несколько секунд.

Спасибо.
примерно 400 Гб файлов
Используете один индекс, или дробление?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации