tumbler 20 апр 2016 в 12:13

О поиске видео замолвите слово

8 мин

7.2K

Комментарии 10

Oceinic 20 апр 2016 в 13:21

> В любом случае, в наличии лишь минимум текстовой информации, и иногда некоторые метаданные, проставленные редакцией и пользователями-партнерами.
На самом деле информации у вас больше, чем когда нибудь может понадобиться. Посмотрите этот TED talk: www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures

tumbler 20 апр 2016 в 13:23

Компьютерное зрение это конечно круто, но, пожалуй, только для гигантов вроде facebook и youtube.

calorie 20 апр 2016 в 17:20

А еще sphinxsearch у нас в Rutube используется для хранения и обработки логов в велосипедном аналоге Kibana — кстати, довольно шустро работает. Будет время — расскажем и о нем.

а меня очень радует использование sphinx в сборке всяких разнообразных топов и рейтингов — вспоминаю как в зеленые времена проект регулярно и по расписанию почти умирал, когда высчитывал подборку «Популярное» для главной

Cloudo58 23 апр 2016 в 09:56

А еще sphinxsearch у нас в Rutube используется для хранения и обработки логов в велосипедном аналоге Kibana — кстати, довольно шустро работает. Будет время — расскажем и о нем.

было бы очень интересно почитать…
у меня как раз сейчас стоит задача анализа логов с использованием языка запросов вроде lucene'совского (как в kibana). Очень хотелось заюзать сфинкс, но не придумал как сделать поиск по запроcу вроде `signature:«sql inj» OR src_port>80`. Сфинкс не позволяет смешивать полнотекстовый поиск и фильтрацию по OR.

tumbler 23 апр 2016 в 10:22

Сфинкс не позволяет смешивать полнотекстовый поиск и фильтрацию по OR, но мне почему-то кажется, что «sql inj» можно вставить spx_attr_string и сравнивать на равенство

SELECT attr='sql inj' or src_port>80 as where_condition WHERE where_condition=1

При этом sphinxsearch будет делать фулскан по всем данным, так что скорость будет не ахти.

Cloudo58 23 апр 2016 в 11:10

Согласен. Поиск на равенство строковой константе прокатит, но хочется искать и по подстроке.
Мы в итоге выбрали elasticsearch, хотя и очень не хотели java-based решение.

Есть похожая система — ELSA. Она использует именно сфинкс с нехитрым алгоритмом принятия решения о том, к кому направлять запрос — sphinx / mysql, но она выдает неадекватные результаты по количеству найденных записей (если запрос в итоге выполняется к mysql, то количество результатов <=100).

tumbler 25 апр 2016 в 10:04

И правильно сделали, все-таки sphinxsearch — он гораздо больше просто про поиск, чем про фильтрацию. Есть еще безумный вариант подключить sphinxsearch к postgresql через dblink ради выполнения UNION-запросов :) С vertica и mysql это прокатывает на ура.

Fortop 24 апр 2016 в 16:10

А в чем сложность «репликации» индексов?

Индексирует одна машина. Затем rsync раскидывает файлы по серверам, и по факту завершения делаем rotate

На видеопортале с 7.5 млн уников в сутки эта схема работала на ура.

Более того она лучше для производительности поскольку индексация непосредственно на раздающем сервере просаживает время ответа практически на все время индексации, в нашем случае это было от 15 минут до 2-4 часов в зависимости от нагрузки.

tumbler 25 апр 2016 в 10:01

Да собственно сложности никакой нет, было «предубеждение» со стороны админов еще со времен, когда СХД через drbd работало.
У нас почему-то индексация на графиках вообще не видна, в связи с этим вопрос: что же такое может делать indexer, чтобы не осталось процессорного времени на обычную работу? Данные-то подготавливаются на MySQL-реплике.

Fortop 25 апр 2016 в 10:23

Данные, конечно на mysql, но в моем случае шла предобработка скриптами и использовался xmlpipe.

Соответственно скрипты запускались на машине где шла индексация.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

О поиске видео замолвите слово

Комментарии 10

Публикации

Истории