Alexey_Bednov 26 авг 2015 в 12:56

Big Data — первый опыт ED IB

4 мин

18K

Блог компании AT ConsultingBig Data*Hadoop*

Комментарии 18

mephistopheies 26 авг 2015 в 13:55

похоже на рекламную брошюрку "Через полгода после начала работ с Big Data у нас выросла команда до 5 сотрудников, а к концу 2013 г. нас стало уже 14 человек"

knagaev 26 авг 2015 в 14:32

много интересных дополнительных функций: например, NoSQL

А как это понять?

0x0FFF 26 авг 2015 в 19:43

Тут скорее всего они имели в виду не Apache Hadoop, а CDH, который включает в себя Apache HBase (к которому можно сделать отсылку «NoSQL»), Apache Solr (aka «быстрый поиск по данным»), Apache Hive (aka «подобие SQL-языка доступа к данным», то есть HiveQL)

drucha 26 авг 2015 в 14:37

«Всё здорово, только кластер Amazon для этого использовать нельзя – ведь мы имеем дело с персональными данными сотового оператора.»

— т.е. оператор предоставил вам не обезличенные данные?

nikolaikopernik 26 авг 2015 в 15:44

Пфф, 'ФАМИ? ИЯ' — данные обезличены

Stas911 26 авг 2015 в 15:49

Про что статья? Чего сказать-то хотели?

Viacheslav01 26 авг 2015 в 16:04

Видимо о том, как потратить кучу денег и не получить результата.

Alexey_Bednov 23 сен 2015 в 13:10

Статья о нашем первом опыте знакомства с BigData и Hadoop-технологиями. Она открывает цикл статей о применении Hadoop для решения разнородных практических задач. Мы занимаемся разработкой под Hadoop уже более 2 лет и хотели бы поделиться своей экспертизой.

Stas911 26 авг 2015 в 18:25

Как вычленили в итоге продавцов, встречающих-провожающих?

Alexey_Bednov 23 сен 2015 в 13:11

Общее описание алгоритма поиска людей, посещающих зону вылета в аэропортах Москвы:

1) Ограничивается область покрытия сотовых вышек в зонах вылета/прилёта в аэропортах.
2) Формируется список абонентов во временном интервале, соответствующем времени рейса, у которых была любая сетевая активность (звонки / смс / интернет-трафик) в зоне действия вышек из п. 1.
3) Из списка из п. 2 выбираются
— абоненты, у которых в искомом временном интервале произошло событие включения/выключения телефона (потенциальные пассажиры самолета),
— абоненты, которые в течение месяца проводят более 20 часов в зоне действия вышек из п.1 (предположительно, продавцы),
— абоненты, у которых есть транзакции в этот же день в области действия вышек Москвы (предположительно, встречающие / провожающие).

Stas911 23 сен 2015 в 15:29

А вы еще и рейсы брали в расчет?

Alexey_Bednov 25 сен 2015 в 15:21

Разумеется, был сформирован список рейсов с указанием времени вылета, которое учитывалось в работе алгоритма.

0x0FFF 26 авг 2015 в 19:33

Похоже, что на волне популярности «Big Data» этот пост призван показать, что «смотрите, мы в AT Consulting тоже умеем Hadoop, у нас есть реальный проект и 14 специалистов, прошедших курсы Cloudera».

В целом же были бы интересны подробности: диаграма архитектуры решения, достигнутые показатели производительности с указанием характеристик железа, проблемы интеграции, с которыми вы столкнулись и как вы их решали. Также вы говорите про машинное обучение — тоже интересно, что за модель обучаете и на каких данных

Alexey_Bednov 23 сен 2015 в 13:12

Эти вопросы будут подробнее рассмотрены в наших следующих статьях.

что за модель обучаете и на каких данных

Это зависит от конкретной задачи. В продуктивных задачах используются алгоритмы
— байесовский классификатор
— логрегрессия
— метод опорных векторов
Основная область применения этих алгоритмов — прогнозная аналитика на основе транзакционных данных абонентов.

irriss 27 авг 2015 в 08:19

Входящий поток данных обрабатывался при помощи Apache Storm.

Интересно было бы услышать подробнее об этом.

Alexey_Bednov 23 сен 2015 в 13:13

Основная цель использования Apache Storm — реалтайм фильтрация и обогащение транзакционных данных из источника.
Данные передаются потоком с помощью Apache Kafka, на кластере непрерывно работает Storm-задача, которая анализирует этот поток, фильтрует транзакции из потока по определенным критериям и сохраняет нужные в in-memory key/value хранилище Redis.

Stas911 23 сен 2015 в 15:31

Дык вот такие детали и есть самое интересное. Все остальное уже сто раз описано-переписано в интернете.
Почему Storm, а не спарковские микробатчи, кстати? :)

Alexey_Bednov 25 сен 2015 в 15:22

В общем случае — потому что у нас уже была некоторая экспертиза в Spark Streaming, а эта задача — отличный повод протестировать новый инструмент. :-)
Ну и основная направленность Streaming — возможность проведения аналитики с использованием оконных функций, в данном случае эта возможность оказалась бы избыточна, т.к. требовалась только быстрая фильтрация транзакций.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий