elcoyot Aug 8 2013 at 13:53

Технология Real Time MapReduce в Яндексе. Как ускорить что-то очень большое

6 min

31K

Яндекс corporate blogAlgorithms*

+67

Comments 18

renskiy Aug 8 2013 at 14:27

Изобрели CouchDB?

elcoyot Aug 8 2013 at 15:05

CouchDB применяется немного для других целей, настолько повысить скорость вычислений она не позволит. Однако похожие решения есть у многих, но нам выгоднее иметь свое, так как для решения наших задач с нужным KPI требуется очень тесная интеграция всех компонентов. Добиться этого путем комбинации сторонних законченных решений крайне трудно. К тому же это не позволило бы нам повторно использовать наработанный код.

4umak Aug 8 2013 at 14:55

> Сначала обработка логов запускалась раз в сутки, для чего очень хорошо подходила технология распределенных вычислений MapReduce.

У вас в конце предложения ссылка ведёт на этот же топик:) Поправьте, пожалуйста.

elcoyot Aug 8 2013 at 14:59

Спасибо, поправили.

samcram Aug 8 2013 at 17:50

Нужно ещё убрать слэш в конце этой же ссылки :)

asash Aug 8 2013 at 15:08

В чем преймущество перед storm? Планируется ли открыть систему как это было сделано как c яндекс.танком например?

Deepwalker Aug 8 2013 at 15:25

У storm есть фатальный недостаток :)
А если серьезно, то storm же не позволит сохранить тонны map-reduce кода.

elcoyot Aug 8 2013 at 15:26

Про storm, dremel, impala и прочие подобные решения можно повторить практически все то же, что сказано в этом комментарии. В нашем случае это был оптимальный вариант. А про открытие технологии говорить пока слишком рано.

asash Aug 8 2013 at 15:44

impala и dremel — это не совсем про то, это скорее попытка сильно ускорить обычный mapreduce методом запихивания всего чего можно в память, кэширования и прочих оптимизаций. Настоящей реалтаймовости на большом потоке запросов они все равно не дадут.

dshap Aug 8 2013 at 20:43

Настоящая риалтаймовость для write intensive задач недостижима без кэширования и предагрегации. Фактически, описанное решение, это интеллектуальная инвалидация кэша промежуточных результатов MapReduce задачи при поступлении новых данных. Сам же MapReduce никто не отменял, хотя бы и по кэшу плюс изменения. Так что, глобально, это туда же, куда и Impala.

Tutufa Aug 8 2013 at 16:08

мне бы очень хотелось чтобы у яндекса появились Search tools, как у гугла, особенно полезна возможность искать по времени. за неделю, за месяц, за год.

ForestHeart Aug 8 2013 at 16:18

Так вроде бы же есть возможность искать и по времени и по прочим параметрам: yandex.ru/search/advanced

Tutufa Aug 11 2013 at 00:39

дураку ясно что есть, я говорю о том что надо это вынести в шапку поискового запроса и упростить ввод параметров, как у гугла

Fahrenheit Aug 8 2013 at 16:25

Было бы интересно, если бы смогли подробнее остановиться на тех проблемах, которые решались после разработки изначального прототипа.

elcoyot Aug 9 2013 at 17:12

Если рассматривать все эти проблемы по отдельности, то ничего сверхсложного в них не было. Например, поначалу шина передачи данных не выдерживала потока, потребовалось добавить I/O-буфер. База данных, которую мы взяли изначально тоже работала не так быстро, как нам хотелось бы.

Cher Aug 8 2013 at 16:49

У Яндекса очень специфические задачи и хорошие программисты и пилить свой hadoop и impala вполне можно, но… все кто поменьше пользуются opensource и там жизнь бурлит.

Даже если у Яндекса выделено 100 программистов только под MapReduce фрэймворк, есть шанс что проекты из экосистемы hadoop все равно обойдут разработку Яндекса по качеству, скорости, удобству. Даже в таких мелочах как документированность и наличие обученных спецов на рынке: любой может развернуть себе hadoop и играться, а вот с фрэймворком Яндекса — не уверен что порог вхождения такой низкий.

Я к чему — в мечтах вместо того чтобы делать 5 разных mapreduce фрэймворков, было бы круто если бы все навалились на hadoop ) Хотя я конечно понимаю, что у Яндекса свои задачи, и даже если эти задачи выполняются на своем решении на 30% лучше по железу, то в масштабах это уже существенная экономия

ilnarb Aug 9 2013 at 07:13

Не совсем понятно, чем достигается RealTime преимущество? Написано про реализацию отдельных мест системы, но ничего про MapReduce, каким образом существующий MapReduce код обрабатывает только часть данных, изменение которого затронуто (как определяется).

elcoyot Aug 9 2013 at 17:56

Риалтаймовость обеспечивается тем, что весь набор данных держится в памяти со строгой привязкой к машине по ключу. При этом данные для reduce-операций подкапливаются, что позволяет запускать этот шаг не на каждый входящий сигнал. Результаты reduce-операций дедуплицируются, чтобы не страдали последующие шаги. Кроме того, мы стараемся максимально уменьшать диапазон данных, затрагиваемых изменениями. Сейчас движемся в сторону полноценного инкрементального подхода с применением комбинаторов. Весь новый код пишется уже с учетом этого фактора, но необходимость в поддержке старого кода остается.