Comments / Profile of SantyagoSeaman / Habr

How to become an author

Александр Макеев @SantyagoSeaman

User

Profile Publications 2Comments 60Bookmarks 66

Масштабируем Elasticsearch на примере кластера с индексами в несколько терабайт

SantyagoSeaman Jun 2 2014 at 16:15

Несколько вопросов:
1. Что у вас используется для мониторинга и управления кластером?
2. Сколько суммарно используется оперативки на мастер-нодах без учёта реплик?
3. Какая у вас ширина индекса?
4. Как долго вставляется документ?
Спасибо за ответы!

0

ElasticSearch 1.0 — новые возможности аналитики

SantyagoSeaman May 24 2014 at 20:49

Вы не проводили тестирование на больших индексах? В документации Еластика выглядит очень вкусно, а как оно будет работать на продакшене — не понятно.

0

Elastic Search в enterprise-проектах

SantyagoSeaman Apr 22 2014 at 02:16

Подскажите, пакетами какого размера вы заливали данные при тестировании в Solr и с какими параметрами коммитили?
Мы сейчас выбираем между Solr и Elastic. В защиту Солара хочу сказать, что тест на скорость поиска в статье совершенно нерепрезентативен, т.к. там коммитили после вставки каждого документа, а по-молчанию Solr после коммита перезапускает searchers и делает подогрев кеша, что само собой не быстрая операция сама по себе и плюс к этому пока не перезапустится searcher, поиск будет в ожидании чуда. Отсюда и тормоза.
В нашем дерби пока выигрывает Солр. В основном за своё умение делать сплит шардов и модифицировать update workflow с помощью плагинов.

0

Попрошайничество будущего, или как я спал с QR-кодом в руках под офисом Google в Нью-Йорке

SantyagoSeaman Jan 2 2014 at 16:38

Если начинать мыслить Вашими крайностями, то давайте предположим, что завтра случится война, отключат Интернет и отпадёт потребность в офисных крысах. И у меня вопрос: кто кому будет подавать хлеб? Вы со своими правильными взглядами на жизнь, или презренный Вам человек, объехавший весь мир и не знакомый со словом «невозможно»?

+1

NASA выложила в открытый доступ 17000 фотографий программы «Аполлон»

SantyagoSeaman Dec 26 2013 at 20:43

Долго искали? ))
Потому что у меня получилось, что в 9 альбомах только в последнем есть часть фото без хайреза.
Будем продолжать спорить или пора уже набросать скриптик спайдера, который нас рассудит? )))

0

NASA выложила в открытый доступ 17000 фотографий программы «Аполлон»

SantyagoSeaman Dec 26 2013 at 20:08

Я отлично дружу с английским. И я смотрел коллекции с 11 и 12 миссии. На большее — времени пока нет.
Ещё раз прошу Вас, просто посмотрите фото. Они прекрасны. Особенно в разрешении 3900х3900. :)
Отсканировать 70мм плёнку с Хаселя и не показать исходники народу — это было бы слишком жестоко.
А так — есть отличный шанс распечатать себе плакат метр на метр с поверхностью Луны с орбиты.

0

NASA выложила в открытый доступ 17000 фотографий программы «Аполлон»

SantyagoSeaman Dec 26 2013 at 18:58

Возможно, это вопрос не баланса белого, а качества современных фото-материалов. Плюс к этому, плёнке из Аполло уже 40 лет и имеет место вполне природное выгорание цвета.

+1

NASA выложила в открытый доступ 17000 фотографий программы «Аполлон»

SantyagoSeaman Dec 26 2013 at 18:50

Вы бы сами снимки посмотрели что ли…
Мало того, что это просто круто. Так ещё и внизу каждого фото есть ссылочка «Hi Resolution Image(s):».

0

Что же не так с QR-кодами?

SantyagoSeaman Dec 25 2013 at 14:14

Да я понимаю, для чего это придумано :)
У меня только есть подозрение, что большинство пользователей смартфонов мыслят по-человечески и им нафиг не надо распознавать ценники с вероятностью ошибки близкой к нулю чтобы сохранять данные в домашнюю бухгалтерию у себя в девайсе с автоматической категоризацией и раз в полгода делать data mining с целью выявить возможности уменьшения расходов.
Нормальным людям это просто не нужно :)

-2

Что же не так с QR-кодами?

SantyagoSeaman Dec 25 2013 at 13:09

Т.е. срисовать QR-код проще, чем переписать несколько иероглифов, которыми они пользуются с рождения?

+3

Как работает Stack Overflow — железо

SantyagoSeaman Nov 24 2013 at 14:15

SSD в рэйде или это суммарное количество серверов с SSD дисками?

0

Почему Windows 95 подвисала при форматировании дискеты?

SantyagoSeaman Aug 24 2013 at 17:46

Удивительно, что в той же квартире нашёл рабочий дисковод… :)

+7

KPHP от ВКонтакте

SantyagoSeaman Jul 20 2013 at 08:03

Практически — тоже. :) В начале 2000-ных мы в стенах веб-студии девелопили полнофункциональную CMS на С++. Скорость работы была феерической. Но вот с саппортом — реально проблема, ибо каждый проект это был по-сути отдельный форк со своими допилками.
И лично у меня был проект интернет-магазина для немцев с абсолютно безумными требованиям: C++, Windows, Apache+FastCGI, MSSQL. Тоже весьма шустро работало.

+8

Простая методика построения фильтров товаров с помощью MongoDb и MapReduce

SantyagoSeaman Jul 17 2013 at 20:00

Отфильтровать — не проблема. Тут основное — это просчёт за один проход количества отелей, соответствующие каждому из сервисов. И таки да. Можно на С написать демона, который будет держать всю базу отелей с сервисами в памяти и делать обсчёт. :) Вопрос в целесообразности.

Островок — классный проект. Мы попроще :)

0

Простая методика построения фильтров товаров с помощью MongoDb и MapReduce

SantyagoSeaman Jul 15 2013 at 15:20

Да, отправная точка поиска — страна. И дальше поиск идёт по любой из характеристик отеля плюс поиск по ценовым предложениям с разнообразными критериями.

0

Простая методика построения фильтров товаров с помощью MongoDb и MapReduce

SantyagoSeaman Jul 15 2013 at 15:14

Можно узнать приблизительный размер шарда, структуру документов и индексов и сколько памяти кушает Монга под обработку 10М документов?
И ещё уточнение. Я так понимаю, в Монге вы храните некую статистику? Т.е. данные только вставляются и не обновляются?

0

Простая методика построения фильтров товаров с помощью MongoDb и MapReduce

SantyagoSeaman Jul 15 2013 at 15:07

Всё, что я читал/слышал об aggregation framework подтверждает это мнение. Но. Лично моё мнение, что они решают несколько разные задачи. Да, с помощью map-reduce можно решать задачи простейших группировок и конечно же он будет проигрывать инструментам, заточенным под эти задачи. Но когда речь идёт, скажем, о классической для map-reduce задаче анализа и классификации текстов, то тут уже в принципе не получится сравнивать map-reduce и aggregation, т.к. последний просто не справится с поставленной задачей. Т.е. сравнение изначально не совсем корректное. Под каждую задачу — свой инструмент.

+1

Простая методика построения фильтров товаров с помощью MongoDb и MapReduce

SantyagoSeaman Jul 15 2013 at 15:00

К сожалению, нет. Я в курсе основных фишек Постгре и есть ощущение, что их массивы отлично решили бы эту задачу и без map-reduce.

0

Простая методика построения фильтров товаров с помощью MongoDb и MapReduce

SantyagoSeaman Jul 15 2013 at 14:53

Так и есть. В основной БД структура под хранение отелей насчитывает около 30 нормализованных таблиц. И конечно же есть ещё одно решение этой задачи, в котором строится темповая таблица с отелями после фильтрации и с помощью нескольких запросов с группировками можно получить тот же список сервисов с подсчётом количества отелей для построение фильтров. Но решение с Монгой показалось красивее и проще.

Иерархический map-reduce ИМХО хорош, когда нужна сложная аналитика по данным. В нашем случае — простейший подсчёт количества отелей в разрезе сервисов и других характеристик. Решается задача за один проход. Основной вопрос был в том, как именно мапить. При решении задачи в лоб, получалось слишком много значений на этапе маппинга. Оптимизированное решение упиралось в производительность интерпретатора JS в Монге. Как оказалось, серебряной пули не существует :)

0

Простая методика построения фильтров товаров с помощью MongoDb и MapReduce

SantyagoSeaman Jul 15 2013 at 14:13

Проект в разработке и поэтому ТТХ могу привести только сервера, на котором альфа развёрнута. Восьмиядерник, 24Гб оперативы и 2 ХДД в рэйде. Из которых Монга сейчас кушает что-то около 200Мб. Рабочих отелей до 5К. Тестировалось всё на 100К. Чистый RPS не замерял, так как считаю это сферическим конём в вакууме. Главный вопрос в том, сколько времени займёт полный цикл получения данных, на сколько активно при этом можно использовать кеш и какая алгоритмическая сложность решения, т.к. всё это добро придётся ещё не один год саппортить. По-факту, в данном случае резалтсет после фильтров по сервисам можно складывать в очень длинный кеш, т.к. данные по отелям редко меняются, а финальный резалтсет после фильтров по цене — в короткий кеш и миксовать их. Самое главное, что после всех этих махинаций страницы на разогретом кеше и с нагрузкой в 100 конкурентных соединений отдаются за 20-30мс и это полностью нас устраивает.

В перспективе будет 3-5 серверов с похожими конфигурациями, но по-большей части они будут использоваться для работы с ценовыми предложениями по отелям. Для начала — шардирование. По мере роста нагрузки будут докидываться слейвы.

Основная СУБД — MariaDb.

+1

3