Хабр, привет! Публикуем обзор первых двух дней Data Science Week 2016, в которые наши спикеры говорили о взаимоотношениях с клиентом и внутренней оптимизации.
Первый день Data Science Week 2016 был посвящен использованию больших данных во взаимоотношениях с клиентами. Конкретные алгоритмы и используемые технологии почти не упоминали, акцент был сделан на полученных результатах и направлениях их применения в бизнесе.
Почти все спикеры затронули тематику рекомендательных систем: какой медиа-контент, какие варианты аренды жилья, какую рекламу предлагать пользователю? Также говорилось об использовании больших данных для привлечения и удержания клиентов, создания эффективных и прозрачных форм работы с ними, повышения качества клиентского сервиса. Говорили и об агрегировании и верификации доступных на рынке предложений, об использовании больших данных для анализа эффективности маркетинговых каналов.
Компании, представленные в этот день, собирают множество данных о пользователях, анализируют и извлекают из них ценность для бизнеса.
В медиа-индустрии это, прежде всего, история потребления контента пользователями: таких данных огромное количество, ведь люди ежедневно слушают музыку, читают статьи и книги, смотрят фильмы и ролики. Также используется указанная пользователем при регистрации информация, если пользователь авторизуется через социальные сети, информацию о нем берут и оттуда. На основе этих данных компании E-Contenta удается решать широкий круг задач. Это персонализированное привлечение (предложение интересного контента вместо рекламы ресурса в целом), выделение профилей отдельных пользователей при коллективном использовании устройств (например, когда в семье один телевизор), рекомендация трендового контента, удержание клиента и перевод на новый контент (например, с одного сериала на другой), ремаркетинг (предложение нового интересного контента «уставшему» или незаинтересованному пользователю), рекомендация будущего контента, который только будет создан и о котором мало что еще известно.
На рынке недвижимости пользователи совершают сделки достаточно редко, поэтому компания HomeApp собирает только информацию об истории просмотров пользователем объявлений об аренде в данный период. Эта информация, а также собранная база объявлений и результаты ценового мониторинга визуализируются и используются сотрудниками компании для рекомендации клиентам определенных предложений. Компания широко использует экспертные методы, автоматические рекомендации пока не строятся. Основной упор делается именно на подготовку базы предложений: данные о сдающихся квартирах собираются из социальных сетей, с сайтов по размещению объявлений, с сайтов агентств и различных агрегаторов (например, ЦИАН, Авито). Затем методами анализа данных устраняются дубликаты, исключаются мошеннические и используемые только для привлечения клиентов объявления, верифицируется указанная в объявлениях информация. В результате уже сейчас компании удалось превысить показатели прибыльности других брокерских компаний, в 2 раза превышено среднее по отрасли число сделок на брокера, в 4 раза – доля заключивших договор клиентов.
Компания RockStat занимается анализом эффективности каналов digital маркетинга, определением того, какое именно посещение ресурса имело желаемый эффект, привело к конверсии просмотра в покупку и т.д. Для этого собираются и анализируются следующие данные: просмотры страниц, события, произошедшие на страницах, активность (движения мыши, прокрутка, изменения фокуса), данные сторонних сервисов через http-запросы, данные о звонках от посетивших сайт и оставленных на сайте заявках, а также данные CRM-систем (чтобы понимать, какое именно обращение привело к продаже). Из этих данных строятся сессии: определяется, откуда пользователь пришел на сайт, где он находится, с какого устройства зашел, чтобы собрать их в цепочки по пользователям, очистить от «шума» и рассчитать ценность каждой сессии в цепочке.
Компания DCA предлагает использовать довольно неожиданные источники данных: информацию об установленных на телефоне пользователя приложениях, включая даже цвет иконок. Дело в том, что рекламные площадки не предоставляют достаточно информации о пользователе, а это один из доступных открытых источников. По спектру установленных приложений (тех, в которых показывается реклама) можно предсказать пол и предпочтения пользователя. Для оценки аудитории приложений используются написанные в Play Market отзывы (например, по грамотности, шантажу и выражению общего мнения можно определить детский возраст, по имени – пол), рекомендации Google Play по похожим приложениям. Также компания использует данные геолокации для определения тайм-зоны и формирования гео-таргетированных предложений (например, заказать еду из ресторана недалеко от клиента).
Таким образом, первый день Data Science Week показал ряд примеров того, как анализ больших данных позволяет понять, что предлагать конкретному пользователю и через какие каналы, сформировать надежную и прозрачную базу предложений, улучшить качество клиентского сервиса, удовлетворенность и лояльность клиентов, и этим повысить эффективность бизнеса.
Второй день Data Science Week был посвящен оптимизации внутренних процессов компаний. Часть выступлений была посвящена оптимизации работы с данными, другая часть – оптимизации внутренних процессов с помощью больших данных, одно выступление было посвящено улучшению качества работы с клиентами и предоставляемых им услуг и скорее относилось к первому дню.
Первый спикер, Андрей Котов, представляющий компанию GlowByte, рассказал о культуре работы с данными внутри компаний. Во многих big data проектах, в которых ему приходилось участвовать, клиенты оказались не готовы предоставить качественные данные. Помимо типичных проблем данных: дубликатов, ошибок и противоречий, нехватки или избыточности информации, в докладе также отдельно было выделена проблема отсутствия единого стандарта записи данных, несоответствия фиксируемых данных объективно необходимым категориям. Например, в одной из компаний индустрии моды цвет и тип одежды фиксировались очень субъективно и по-разному модельерами, кладовщиками и другими участниками процесса, а в продуктовом ритейле тюльпаны были отнесены в одну категорию с овощами первой свежести, что затрудняло построение рекомендаций. По мнению спикера, в компаниях необходимо прививать культуру работы с данными, чтобы сотрудники понимали их ценность, аккуратно и однозначно их записывали, стараясь сохранить релевантную информацию. Это поможет рынку в целом, облегчит работу рядовых аналитиков и big data компаний.
Вадим Челышков из Microsoft рассказал об использовании данных различных датчиков, следящих за состоянием оборудования, для повышения его надежности и также в личных целях. Через Интернет вещей датчики посылают на серверы огромные массивы данных в реальном времени. На основе анализа таких данных были разработаны системы, предсказывающие дату и тип возможной поломки, в частности, лифтов и насосов нефтедобывающих платформ. В качестве примера использования этих данных в личных целях спикер привел продукт российской компании Raxel Telematics, позволяющий за несколько месяцев на основе данных датчиков автомобиля подтвердить статус аккуратного водителя и снизить цену страховки.
Дмитрий Гармашев из QIWI говорил об анализе графов денежных переводов между клиентами сервиса Киви Кошелек: используя алгоритм, разработанный в бельгийском университете Лёвена, удалось наладить быструю разбивку клиентов сервиса на сообщества и выявить роли отдельных людей внутри них. Например, удалось выявить сообщество пользователей одной из онлайн-игр, внутри которой выделялись продавцы и покупатели чит-кодов. Объединение их в одной площадке позволило увеличить количество трансакций. Говорилось также об анализе содержания сообщений и времени существования кошельков с целью выявления мошенничества. Для работы с графами спикер рекомендовал библиотеку NetworkX языка Python, а также средства визуализации Gephi и D3.
Выступление Павла Клеменкова из Rambler&Co было посвящено оптимизации процессов обработки и анализа больших данных внутри компании на базе Apache Spark. Он рассказывал о сборе и визуализации данных, о работе запущенных процедур, в частности, об успешности и времени их выполнения, о причинах ошибок. Спикер поделился опытом разделения экспериментов с данными и продакшн кода, написания тестов для всех операций перед их запуском на больших объемах данных, разработки «витрины фич» — средства быстрого подбора данных в обучающую выборку, создания системы своевременных оповещений о возникающих проблемах с возможностью вызова ответственных лиц. В результате внедрения описанной системы в компании выросли число и скорость проводимых экспериментов, стали возможными простое и удобное тестирование, отладка и внедрение кода, повысилась надежность операций, стало легче понимать и устранять причины ошибок. В качестве единой шины данных в компании использована система Kafka, для мониторинга на всех этапах используется Graphite, для визуализации – AirFlow.
Наконец, Александр Ларьяновский из компании SkyEng, специализирующейся на частных уроках английского языка, рассказал об использовании данных в построении взаимоотношений с клиентами и оптимизации содержания уроков. Например, оказалось, что по ряду поведенческих характеристик удается предсказать, бросит ли клиент занятия и как много он будет готов платить. «Жаворонки», предпочитающие ранние занятия, оказались более мотивированными, как и те, кто при поиске преподавателя формулировал какие-либо требования к нему. Содержание уроков приводилось в соответствие с интересами клиента на основе данных его профилей в социальных сетях, что позволило увеличить конверсию после пробного урока на 20%. На основе статистики, собранной от учеников, удалось оптимизировать методики обучения: убрать ненужные упражнения, с которыми справляется большинство учеников, оставить наиболее интересные и продуктивные темы и формы работы.
» Все презентации выложены здесь.
» Доступ к видео выступлений можно получить здесь.
День 1
Первый день Data Science Week 2016 был посвящен использованию больших данных во взаимоотношениях с клиентами. Конкретные алгоритмы и используемые технологии почти не упоминали, акцент был сделан на полученных результатах и направлениях их применения в бизнесе.
Почти все спикеры затронули тематику рекомендательных систем: какой медиа-контент, какие варианты аренды жилья, какую рекламу предлагать пользователю? Также говорилось об использовании больших данных для привлечения и удержания клиентов, создания эффективных и прозрачных форм работы с ними, повышения качества клиентского сервиса. Говорили и об агрегировании и верификации доступных на рынке предложений, об использовании больших данных для анализа эффективности маркетинговых каналов.
Компании, представленные в этот день, собирают множество данных о пользователях, анализируют и извлекают из них ценность для бизнеса.
В медиа-индустрии это, прежде всего, история потребления контента пользователями: таких данных огромное количество, ведь люди ежедневно слушают музыку, читают статьи и книги, смотрят фильмы и ролики. Также используется указанная пользователем при регистрации информация, если пользователь авторизуется через социальные сети, информацию о нем берут и оттуда. На основе этих данных компании E-Contenta удается решать широкий круг задач. Это персонализированное привлечение (предложение интересного контента вместо рекламы ресурса в целом), выделение профилей отдельных пользователей при коллективном использовании устройств (например, когда в семье один телевизор), рекомендация трендового контента, удержание клиента и перевод на новый контент (например, с одного сериала на другой), ремаркетинг (предложение нового интересного контента «уставшему» или незаинтересованному пользователю), рекомендация будущего контента, который только будет создан и о котором мало что еще известно.
На рынке недвижимости пользователи совершают сделки достаточно редко, поэтому компания HomeApp собирает только информацию об истории просмотров пользователем объявлений об аренде в данный период. Эта информация, а также собранная база объявлений и результаты ценового мониторинга визуализируются и используются сотрудниками компании для рекомендации клиентам определенных предложений. Компания широко использует экспертные методы, автоматические рекомендации пока не строятся. Основной упор делается именно на подготовку базы предложений: данные о сдающихся квартирах собираются из социальных сетей, с сайтов по размещению объявлений, с сайтов агентств и различных агрегаторов (например, ЦИАН, Авито). Затем методами анализа данных устраняются дубликаты, исключаются мошеннические и используемые только для привлечения клиентов объявления, верифицируется указанная в объявлениях информация. В результате уже сейчас компании удалось превысить показатели прибыльности других брокерских компаний, в 2 раза превышено среднее по отрасли число сделок на брокера, в 4 раза – доля заключивших договор клиентов.
Компания RockStat занимается анализом эффективности каналов digital маркетинга, определением того, какое именно посещение ресурса имело желаемый эффект, привело к конверсии просмотра в покупку и т.д. Для этого собираются и анализируются следующие данные: просмотры страниц, события, произошедшие на страницах, активность (движения мыши, прокрутка, изменения фокуса), данные сторонних сервисов через http-запросы, данные о звонках от посетивших сайт и оставленных на сайте заявках, а также данные CRM-систем (чтобы понимать, какое именно обращение привело к продаже). Из этих данных строятся сессии: определяется, откуда пользователь пришел на сайт, где он находится, с какого устройства зашел, чтобы собрать их в цепочки по пользователям, очистить от «шума» и рассчитать ценность каждой сессии в цепочке.
Компания DCA предлагает использовать довольно неожиданные источники данных: информацию об установленных на телефоне пользователя приложениях, включая даже цвет иконок. Дело в том, что рекламные площадки не предоставляют достаточно информации о пользователе, а это один из доступных открытых источников. По спектру установленных приложений (тех, в которых показывается реклама) можно предсказать пол и предпочтения пользователя. Для оценки аудитории приложений используются написанные в Play Market отзывы (например, по грамотности, шантажу и выражению общего мнения можно определить детский возраст, по имени – пол), рекомендации Google Play по похожим приложениям. Также компания использует данные геолокации для определения тайм-зоны и формирования гео-таргетированных предложений (например, заказать еду из ресторана недалеко от клиента).
Таким образом, первый день Data Science Week показал ряд примеров того, как анализ больших данных позволяет понять, что предлагать конкретному пользователю и через какие каналы, сформировать надежную и прозрачную базу предложений, улучшить качество клиентского сервиса, удовлетворенность и лояльность клиентов, и этим повысить эффективность бизнеса.
День 2
Второй день Data Science Week был посвящен оптимизации внутренних процессов компаний. Часть выступлений была посвящена оптимизации работы с данными, другая часть – оптимизации внутренних процессов с помощью больших данных, одно выступление было посвящено улучшению качества работы с клиентами и предоставляемых им услуг и скорее относилось к первому дню.
Первый спикер, Андрей Котов, представляющий компанию GlowByte, рассказал о культуре работы с данными внутри компаний. Во многих big data проектах, в которых ему приходилось участвовать, клиенты оказались не готовы предоставить качественные данные. Помимо типичных проблем данных: дубликатов, ошибок и противоречий, нехватки или избыточности информации, в докладе также отдельно было выделена проблема отсутствия единого стандарта записи данных, несоответствия фиксируемых данных объективно необходимым категориям. Например, в одной из компаний индустрии моды цвет и тип одежды фиксировались очень субъективно и по-разному модельерами, кладовщиками и другими участниками процесса, а в продуктовом ритейле тюльпаны были отнесены в одну категорию с овощами первой свежести, что затрудняло построение рекомендаций. По мнению спикера, в компаниях необходимо прививать культуру работы с данными, чтобы сотрудники понимали их ценность, аккуратно и однозначно их записывали, стараясь сохранить релевантную информацию. Это поможет рынку в целом, облегчит работу рядовых аналитиков и big data компаний.
Вадим Челышков из Microsoft рассказал об использовании данных различных датчиков, следящих за состоянием оборудования, для повышения его надежности и также в личных целях. Через Интернет вещей датчики посылают на серверы огромные массивы данных в реальном времени. На основе анализа таких данных были разработаны системы, предсказывающие дату и тип возможной поломки, в частности, лифтов и насосов нефтедобывающих платформ. В качестве примера использования этих данных в личных целях спикер привел продукт российской компании Raxel Telematics, позволяющий за несколько месяцев на основе данных датчиков автомобиля подтвердить статус аккуратного водителя и снизить цену страховки.
Дмитрий Гармашев из QIWI говорил об анализе графов денежных переводов между клиентами сервиса Киви Кошелек: используя алгоритм, разработанный в бельгийском университете Лёвена, удалось наладить быструю разбивку клиентов сервиса на сообщества и выявить роли отдельных людей внутри них. Например, удалось выявить сообщество пользователей одной из онлайн-игр, внутри которой выделялись продавцы и покупатели чит-кодов. Объединение их в одной площадке позволило увеличить количество трансакций. Говорилось также об анализе содержания сообщений и времени существования кошельков с целью выявления мошенничества. Для работы с графами спикер рекомендовал библиотеку NetworkX языка Python, а также средства визуализации Gephi и D3.
Выступление Павла Клеменкова из Rambler&Co было посвящено оптимизации процессов обработки и анализа больших данных внутри компании на базе Apache Spark. Он рассказывал о сборе и визуализации данных, о работе запущенных процедур, в частности, об успешности и времени их выполнения, о причинах ошибок. Спикер поделился опытом разделения экспериментов с данными и продакшн кода, написания тестов для всех операций перед их запуском на больших объемах данных, разработки «витрины фич» — средства быстрого подбора данных в обучающую выборку, создания системы своевременных оповещений о возникающих проблемах с возможностью вызова ответственных лиц. В результате внедрения описанной системы в компании выросли число и скорость проводимых экспериментов, стали возможными простое и удобное тестирование, отладка и внедрение кода, повысилась надежность операций, стало легче понимать и устранять причины ошибок. В качестве единой шины данных в компании использована система Kafka, для мониторинга на всех этапах используется Graphite, для визуализации – AirFlow.
Наконец, Александр Ларьяновский из компании SkyEng, специализирующейся на частных уроках английского языка, рассказал об использовании данных в построении взаимоотношений с клиентами и оптимизации содержания уроков. Например, оказалось, что по ряду поведенческих характеристик удается предсказать, бросит ли клиент занятия и как много он будет готов платить. «Жаворонки», предпочитающие ранние занятия, оказались более мотивированными, как и те, кто при поиске преподавателя формулировал какие-либо требования к нему. Содержание уроков приводилось в соответствие с интересами клиента на основе данных его профилей в социальных сетях, что позволило увеличить конверсию после пробного урока на 20%. На основе статистики, собранной от учеников, удалось оптимизировать методики обучения: убрать ненужные упражнения, с которыми справляется большинство учеников, оставить наиболее интересные и продуктивные темы и формы работы.
» Все презентации выложены здесь.
» Доступ к видео выступлений можно получить здесь.