ValeriaKhokha Aug 24 2018 at 12:27

Сегментируем 600 миллионов пользователей в режиме реального времени каждый день

16 min

5.2K

JUG Ru Group corporate blogBig Data*

+32

Comments 12

time2rfc Aug 24 2018 at 15:47

Спасибо огромное за интересную статью! Я правильно понял что часть данных это кликстрим от ваших партнеров ?

onexdrk Aug 25 2018 at 01:54

Да, все верно. Выгрузки партнеров также могут быть как потоковые (прямая поставка в Kafka через различные интеграции) так и периодические выгрузки в виде файлов, эти файлы по приходу так же загружались в Kafka

grinCo Sep 1 2018 at 09:44

Кафка справлялась с батч апдейтами?

grinCo Sep 1 2018 at 09:52

Уточнее к предыдущему вопросу.
Сколько меседжей один файл для апдейта мог сгенерировать в среднем, максимум?

onexdrk Sep 4 2018 at 19:45

Под batch update вы имеете ввиду случай когда партнер выгружает большой файл и нам его нужно прокачать? Если так то да, но к слову таких партнеров было не много, с большинством удалось договориться на поставку данных в реальном времени.
По цифрам, график на первом слайде вполне реальный :) Там в пике порядка 100 тыс/сек, если брать среднесуточное среднее то порядка 60 тыс/сек

fuCtor Aug 24 2018 at 17:57

А вот от этого habr.com/company/dca/blog/260845 отказались получается? Или это параллельные вещи?

onexdrk Aug 25 2018 at 01:58

Изначально мы разрабатывали описанное в статье решение параллельно со «старым» realtime модулем. Когда новый сегментатор заработал на 100% трафика мы смогли отказаться от решения на Akka. Основное бизнес преимущество новой схемы по сравнению со старой в том, что тут мы каждый раз анализируем все данные пользователя, в старой же схеме в реальном времени анализировалась лишь пользовательская текущая активная сессия, чего не всегда хватало

time2rfc Aug 27 2018 at 14:07

Если не секрет, отчего не реализовали новое решение на Akka — ограничение фреймворка или экспертизы? Если вдруг были попытки пера на akka и уперлись во что-то, буду благодарен за чужие грабли.

onexdrk Aug 28 2018 at 00:54

В целом можно было сделать и на Akka, использовать свою реализацию Akka persistence с хранением / чтением состояния в HBase (тут стоило бы оценить сколько оперативной памяти потребуется на хранение всей истории визитов всех активных пользователей).

Мы все же решили отказаться от Akka в пользу простоты и прозрачности решения (тут как раз не хватало экспертизы с Akka, например тогда Akka была еще версии 2.3 и там было довольно много проблем с Akka cluster, например)

time2rfc Aug 28 2018 at 16:24

Спасибо! У вас очень получилась интересная статья, надеюсь не последняя.

stratosmi Aug 29 2018 at 10:17

экспертизы

По русски это называется «опыт» или «компетенция».

Экспертиза в русском — это другое. Это «исследование с целью оценки». Например, криминологическая экспертиза.

Но если бы вы писали по-английски, то было бы все правильно.

time2rfc Aug 29 2018 at 12:53

Спасибо огромное, что помогаете мне становиться лучше.