Как стать автором
Обновить
37
0.2

Пользователь

Отправить сообщение

Разоблачаем эффект Даннинга-Крюгера — теперь с регрессией

Время на прочтение6 мин
Количество просмотров3.3K

Кратко:

1. В оригинальном исследовании показано совсем не то, что люди думают.

2. Оригинальное исследование так криво сделано статистически, что просто не удовлетворяет критерию фальсифицируемости. Простыми словами - генератор случайных чисел демонстрирует такой же результат.

3. Единственное, что этот эффект демонстрирует - это любовь людей к красивым историям (а математику никто не любит … и вообще есть ложь, большая ложь и статистика).

Читать далее
Всего голосов 16: ↑13 и ↓3+10
Комментарии19

Наблюдаем за пользователем – два типа timestamp

Время на прочтение2 мин
Количество просмотров10K
Давным-давно, один специалист по базам данных (из тех, бородатых и уже седых) сказал мне, что метки времени (timestamp) — это самая сложная тема в базах данных. Я ему, правда, не поверил, но приколы со временем реально встречаются.

Есть стандартная проблема, которую часто вижу в чужих данных. Положим собрались вы отслеживать события/действия пользователя. Обычно у вас будет это делать некий код (JS в вебе или SDK для аппов), который будет слать данные серверу.

Каждому событию нужна метка времени. И есть выбор из двух: локальное время на клиенте или время получения события сервером. Один хороший совет что делать и загадка без ответа под катом
Читать дальше →
Всего голосов 15: ↑12 и ↓3+9
Комментарии33

Строим надёжный процессинг данных — лямбда архитектура внутри Google BigQuery

Время на прочтение5 мин
Количество просмотров23K
В этой статье хочу поделиться способом, который позволил нам прекратить хаос с процессингом данных. Раньше я считал этот хаос и последующий ре-процессинг неизбежным, а теперь мы забыли что это такое. Привожу пример реализации на BiqQuery, но трюк довольно универсальный.

У нас вполне стандартный процесс работы с данными. Исходные данные в максимально сыром виде регулярно подгружаются в единое хранилище, в нашем случае в BigQuery. Из одних источников (наш собственный продакшн) данные приходят каждый час, из других (обычно сторонние источники) данные идут ежедневно.

В последствии данные обрабатываются до состояния пригодного к употреблению разнообразными пользователями. Это могут быть внутренние дашборды; отчёты партнёрам; результаты, которые идут в продакшн и влияют на поведение продукта. Эти операции могут быть довольно сложными и включать несколько источников данных. Но по большей части мы с этим справляется внутри BigQuery с помощью SQL+UDF. Результаты сохраняются в отдельные таблицы там же.
Читать дальше →
Всего голосов 8: ↑8 и ↓0+8
Комментарии2

Анализируем странные корреляции

Время на прочтение2 мин
Количество просмотров75K


Недавно заметил в ленте фейсбука ссылку на статью с кучей примеров «странных корреляций» как на картинке. Первоисточник оказывается здесь, и там таких примеров штук 20. Решил по-практиковаться в статистике и проверить насколько эти корреляции удивительны на самом деле.

Заинтересованных прошу под кат.
Читать дальше →
Всего голосов 74: ↑66 и ↓8+58
Комментарии32

Lean Big Data на 6 сервисах Google

Время на прочтение5 мин
Количество просмотров20K
image

Здравствуй Хабр! Хочу рассказать как мы делали свою собственную Big Data.

Каждый стартап хочет собрать что-то дешевое, качественное и гибкое. Обычно так не бывает, но у нас, похоже, получилось! Ниже идёт описание нашего решения и много моего сугубо субъективного мнения по этому поводу.

И да, секрет в том, что используется 6 сервисов гугла и собственного кода почти не писалось.
Читать дальше →
Всего голосов 35: ↑29 и ↓6+23
Комментарии22

Слово против Bitcoin

Время на прочтение3 мин
Количество просмотров18K
Прочтение последних постов про Bitcoin меня очень разочаровало. Рассуждения о полной необеспеченности зелёных фантиков (долларов) и о нематериальности золота показывают, что хабровчанам не хватает знаний по теории денег, чтобы во всём этом разобраться.

А посему сегодня мы будем анализировать Bitcoin с точки зрения Количественной Теории Денег, которая является на сегодня базовой в экономической науке.
Читать дальше →
Всего голосов 86: ↑68 и ↓18+50
Комментарии74

Информация

В рейтинге
2 123-й
Откуда
Сингапур
Зарегистрирован
Активность