Pull to refresh
0
0
Send message

Анализ данных на Scala. Считаем корреляцию 21-го века

Reading time8 min
Views22K

Очень важно выбрать правильный инструмент для анализа данных. На форумах Kaggle.com, где проводятся международные соревнования по Data Science, часто спрашивают, какой инструмент лучше. Первые строчки популярноcти занимают R и Python. В статье мы расскажем про альтернативный стек технологий анализа данных, сделанный на основе языка программирования Scala и платформы распределенных вычислений Spark.

Как мы пришли к этому? В Retail Rocket мы много занимаемся машинным обучением на очень больших массивах данных. Раньше для разработки прототипов мы использовали связку IPython + Pyhs2 (hive драйвер для Python) + Pandas + Sklearn. В конце лета 2014 года приняли принципиальное решение перейти на Spark, так как эксперименты показали, что мы получим 3-4 кратное повышение производительности на том же парке серверов.
Подробности
Total votes 21: ↑20 and ↓1+19
Comments21

Интерфейсы «пользователю надо – всё равно пройдёт»

Reading time5 min
Views69K
Вот комикс «приключения одного пользователя в форме заказа»:



Есть такие интерфейсы, которые проходят до конца 100 из 100 пользователей. Но до батареи доезжают только уши чертовски разозлённые.
Читать дальше →
Total votes 94: ↑89 and ↓5+84
Comments106

Повышаем конверсию Landing Page

Reading time5 min
Views35K
Наверняка вы уже неоднократно сталкивались с множеством лендингов и устали от их агрессивного поведения. Не успев прочитать заголовок с вас немедленно начинают требовать контакты. И если изначально такая техника еще давала более менее хорошие результаты, то с каждым днем она все больше становиться неэффективной.


Визуализация типичной агрессии со стороны большинства «лендинг пейджей»
Читать дальше →
Total votes 49: ↑32 and ↓17+15
Comments32

Настройка интеграции Calltouch и Google Analytics с помощью Google Tag Manager

Reading time6 min
Views12K
Пришлось столкнуться с задачей настройки интеграции Calltouch и Google Analytics на сайте нескольких клиентов. Сложность заключалась в том, что ранее у них был настроен Google Analytics с помощью Google Tag Manager.

При этом, если вам приходилось добавлять на сайт сервис Calltouch, рекомендации, предоставляемые этим сервисом, представляют из себя немного доработанный код отслеживания Universal Analytics. Обратите внимание, что речь идет именно об Universal Analytics, т.к., используя его возможности, сервис Calltouch может передавать информацию о звонках в Google Analytics, и вы получите возможность работать с этой информацией в стандартных отчетах.


Пример отчета по событиям с Calltouch

Поскольку на сайте клиента была выполнена настройка Google Analytics с помощью Google Tag Manager, то вариант внедрения, предлагаемого сервисом Calltouch, оказался неприемлем. Возник вопрос по интеграции с помощью Google Tag Manager.
Читать дальше →
Total votes 14: ↑14 and ↓0+14
Comments2

О формуле Байеса, прогнозах и доверительных интервалах

Reading time9 min
Views68K
На Хабре много статей по этой теме, но они не рассматривают практических задач. Я попытаюсь исправить это досадное недоразумение. Формула Байеса применяется для фильтрации спама, в рекомендательных сервисах и в рейтингах. Без нее значительное число алгоритмов нечеткого поиска было бы невозможно. Кроме того, это формула явилась причиной холивара среди математиков.

image

Читать дальше →
Total votes 86: ↑83 and ↓3+80
Comments19

Разлочиваем велокомпьютер VDO A4 до A8

Reading time3 min
Views66K
image

Как заплатить 600 рублей и получить функциональности на 1200? Наверное всем известен способ «апгрейда» велокомпьютера — ставим 2 магнитика на колесо и скорость удваивается, но мы пойдём другим путём. Увеличим количество функций велокомпьютера вдвое одним движением отвёртки.
Читать дальше →
Total votes 124: ↑115 and ↓9+106
Comments59

Information

Rating
Does not participate
Location
Украина
Date of birth
Registered
Activity