Как стать автором
Обновить
1
0
Ярослав @yaroslavsiberia

Data Analyst

Отправить сообщение

Бутстрап: швейцарский нож аналитика в A/B-тестах

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров16K

Вам надоело каждый раз разбираться какую гипотезу, а главное с какими ограничениями к имеющимся данным проверяет бесчисленное множество статистических тестов?
Тогда бутстрап — это ваш выбор. Он не требует никаких параметрических предположений о данных или какой-либо нетривиальной математики и, вместе с тем, может быть применен к широкому спектру статистических оценок.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии5

Модель нелинейной аппроксимации ретеншена

Уровень сложностиСредний
Время на прочтение31 мин
Количество просмотров4.1K

Эта статья - вторая в серии, после статьи Ретеншен — основная метрика F2P игры, вероятностный подход

Здесь я рассматриваю ретеншен не как скалярную случайную величину, а как случайный временной ряд. Далее создаю модель нелинейной аппроксимации метрики, учитывающую сезонность и выпуск патчей.

Рассмотренная методика реализована в виде Jupyter-ноутбука retention-rate-approximator, выложенного в общий доступ.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии3

Как разрабатывали StarCraft

Уровень сложностиПростой
Время на прочтение23 мин
Количество просмотров38K
image

Хотите себе «Дарк Соулса» от стратегий — добро пожаловать в «СтарКрафт».

Сегодня мы вспомним культовую стратегию в реальном времени, созданную корпорацией Blizzard в самом конце 90-х, когда они ещё были эталоном качества, делали только хорошие игры и никогда не проваливались.

Ту игру, которая была настолько популярной, что даже стала официальной религией национальным кибер-спортом одной азиатской страны. Бородатые легенды гласят, что отцы этого государства отдавали дочерей только за женихов, способных обыграть их в мультиплеере один на один.

Эта игра запала в сердечко всем любителям годных RTS, ведь в ней нужно просчитывать каждый шаг, как в шахматах.

В общем, в это надо играть, про это приятно вспомнить и поговорить.

Тем более, если я правильно подсчитал, игре сегодня стукнуло 25 лет. Одним словом, праздник!
Читать дальше →
Всего голосов 102: ↑101 и ↓1+132
Комментарии62

Ретеншен — основная метрика F2P игры, вероятностный подход

Уровень сложностиСредний
Время на прочтение25 мин
Количество просмотров5.7K

Ретеншен - основная метрика качества итернет-сервиса.

Однако, на мой взгляд, на просторах Интернета не так уж и много информации, рассматривающей эту метрику с точки зрения контроля статистической значимости ее измерений, что на практике совершенно необходимо для принятия решений о развитии проекта.

Настоящая статья возникла как попытка восполнить этот пробел. Я даю некоторые вводные определения, затем рассказываю, что такое биномиальное распределение и нормальное распределение, почему это применимо к метрике “ретеншен”, почему это важно знать и как из этого следует простая формула, позволяющая определить статистическую значимость измерений. Далее рассмотрены способы и проблемы повышения точности измерений. Все формулы я постарался сопроводить наглядными примерами их применения и графиками.

Статья ориентирована на людей, профессиональная деятельность которых подразумевает знание и понимание этой основной метрики. Это не только аналитики, но и владельцы продуктов, продюсеры, продакт менеджеры, проджект менеджеры, ведущие дизайнеры. Материал доступен выпускникам и студентам любого технического ВУЗа - от читателей потребуется лишь знание основ теории вероятностей.

Читать далее
Всего голосов 3: ↑2 и ↓1+1
Комментарии6

Параллельная обработка и преобразование json-фалов в pandas

Время на прочтение4 мин
Количество просмотров4.2K

Привет, Хабр!

Структурированные данные – хорошо, а полуструктурированные – не проблема. Формат json хоть и является очень популярным, однако не очень удобен для анализа, особенно если данных много, и они разделены на отдельные файлы.

Разберем преобразование множества json файлов различной структуры в привычный аналитикам pandas.DataFrame.

Читать далее
Всего голосов 3: ↑2 и ↓1+1
Комментарии0

Финская «ядерная сделка»

Время на прочтение7 мин
Количество просмотров60K

Месяц назад финский оператор АЭС Fennovoima расторгла контракт на строительство Росатомом АЭС Ханхикиви-1. За прошедший месяц прояснились некоторые моменты и, как мне кажется, это решение поставит крест на планах развития Финляндией АЭС. Сейчас объясню почему.

Читать далее
Всего голосов 183: ↑140 и ↓43+141
Комментарии412

Не пельменем единым жив программист или история о том, как все успеть

Время на прочтение7 мин
Количество просмотров137K
image

По заявкам трудящихся и в связи с переносом — возвращаю пост, который многих порадовал. Надеюсь НЛО будет не против.

На написание этого поста меня сподвиг замечательный пост «За что конкретно я ненавижу некоторых отдельно взятых маркетологов — или как айтишник по магазинам ходил». Сразу хочу извиниться за возможные опечатки — пишу с планшета, сидя в микроавтобусе и вытягивая сеть телефоном. Hacker's keyboard очень удобен для ssh-доступа, но большие тексты писать им не очень удобно.

IT- специалисты — народ любопытный. То соберут на базе микроконтроллеров автоматическую систему полива и освещения для любимого фикуса, то пропатчат прошивку мультиварки для раздачи торрентов. Но, по непонятной и загадочной причине, когда дело доходит до еды, пресловутый принцип DIY дает сбой. И наш герой, способный часами переделывать кинескоп старого телевизора в Луч Смерти, идет на кухню утолить голод соевым текстуратом пополам с гидроцеллюлозой и «коллагеновым сырьем».

В этом посте я хочу разрушить миф о том, что еда может быть либо быстрой и удобной, либо съедобной. Не секрет, что многим из нас приходится работать по 12 часов в сутки, что не способствует кулинарным подвигам с участием 28 приправ и перьев с зада дракона, омытых слезами единорога. Вы получите замечательную возможность посмотреть в глаза своей половинки на 8 марта после того, как она получит не контроллер для дистанционного управления шторой, а свежевыпеченный хлеб ручной работы рано утром. Если вам надоело есть синтетику — добро пожаловать под hubracut.
Читать дальше →
Всего голосов 269: ↑263 и ↓6+257
Комментарии293

Четыре хитрости в работе с пайплайнами данных, о которых знают не все

Время на прочтение4 мин
Количество просмотров6.8K

Dust-n-Rust by Spiritofdarkness

Команда разработки Cloud Big Data от VK Cloud Solution перевела статью с советами, которые касаются общих понятий работы с пайплайнами. Неважно, какую систему управления рабочими процессами вы используете, эти идеи можно применять везде. Сам автор пользуется Apache Airflow и приводит примеры кода на ее основе.

Эта статья будет полезна не только дата-инженерам, но и дата-сайентистам, так как хороший дата-сайентист тоже понимает принципы работы пайплайнов данных.
Читать дальше →
Всего голосов 11: ↑6 и ↓5+13
Комментарии2

Data-Science-процессы: Jupyter Notebook для продакшена

Время на прочтение9 мин
Количество просмотров7.7K

Jovian Blues by ShootingStarLogBook

Рефакторинг написанного в Notebook кода для запуска в продакшене — трудная и ресурсоемкая задача. Команда VK Cloud Solutions перевела материал о том, как с помощью MLOps-инструментов и приемов сократить время от исследования до запуска решения. Описанное в статье — результат структурированного опыта дата-сайентистов и ML-разработчиков из сотен компаний.
Читать дальше →
Всего голосов 28: ↑27 и ↓1+37
Комментарии1

Понимание джойнов сломано. Это точно не пересечение кругов, честно

Время на прочтение4 мин
Количество просмотров329K

Так получилось, что я провожу довольно много собеседований на должность веб-программиста. Один из обязательных вопросов, который я задаю — это чем отличается INNER JOIN от LEFT JOIN.


Чаще всего ответ примерно такой: "inner join — это как бы пересечение множеств, т.е. остается только то, что есть в обеих таблицах, а left join — это когда левая таблица остается без изменений, а от правой добавляется пересечение множеств. Для всех остальных строк добавляется null". Еще, бывает, рисуют пересекающиеся круги.


Я так устал от этих ответов с пересечениями множеств и кругов, что даже перестал поправлять людей.


Дело в том, что этот ответ в общем случае неверен. Ну или, как минимум, не точен.

Читать дальше →
Всего голосов 179: ↑138 и ↓41+97
Комментарии225

Введение в Облачные Вычисления для Всех от Инженера Microsoft, Ex-Amazon

Время на прочтение10 мин
Количество просмотров11K

Многие из вас слышали про мировой успех облачных компаний и таких компаний как Amazon Web Services, Microsoft Azure и Google Cloud Platform. Сейчас мы видим, как отечественное облако активно развивается – Яндекс Облака, Mail.ru облако и Сбербанк тоже работает в этом направлении.

Лично у меня нет опыта работы с отечественным облаками и пока они еще достаточно молодые, но, я очень надеюсь, что они справятся с задачей и у нас появятся конкурентно способные облачные провайдеры.

Сам я занимаюсь задачами аналитики и инжиниринга данных, то есть работаю с buzz words – Big Data, Data Platform, Lakehouse, Data Lake, Data Science, Machine Learning (ML), AI и т. п., в крупных международных компаниях – Amazon, Microsoft, Xbox.  Про все эти дела я уже 3 года успешно пишу в своем телеграмм канале Инжиниринг Данных, где уже больше 10 тысяч подписчиков.

Я работаю с облаками с 2014 года, с 2016 по 2020 в Амазоне (почти 5 лет), где принимал участие в знаменитом проекте Rolling Stone по миграции on-premise инфраструктуры для аналитики в облако AWS.

Читать далее
Всего голосов 8: ↑6 и ↓2+5
Комментарии7

Хранилища признаков: Сторона данных в конвейерах машинного обучения

Время на прочтение7 мин
Количество просмотров3.7K

По мере того как все больше моделей развертывается в современных конвейерах, снова и снова возникате понимание, что данные и их фичаризация** (featurization) важнее всего остального. Последнее поколение систем больших данных масштабировало ML на реальные датасеты, теперь хранилища данных быстро становятся новым рубежом для подключения моделей к данным в реальном времени

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии1

Чем мужская кожа отличается от женской

Время на прочтение8 мин
Количество просмотров34K

Мужчинам во многом повезло. Умылся и уже красивый. Можно ещё сразу побриться, и краше только в гроб кладут. 

Косметикой сильный пол пользуется, конечно, но часто — с прямым функциональным эффектом вроде регенератора тканей, разных средств для бритья и так далее. Но при этом вы не будете использовать консилер, чтобы скрыть дефект кожи. Вскочил прыщ? Что ж. Таков Путь. На девушках в аналогичной ситуации уже будет три слоя маскирующих средств, чтобы, не дай бог, никто не догадался. Хотя, конечно, это вовсе не означает, что современный мужчина не следит за собой и здоровьем своей кожи.  

Сегодня поговорим про разницу между женской и мужской кожей, которая гораздо толще, лучше переносит травмы и редко бывает чувствительной, если вы не относитесь к молочно-белому скандинавскому фототипу. Расскажу, чем лучше обрабатывать порезы после бритья и как быстро привести себя в порядок, если после перелёта даже у ваших мешков под глазами есть свои собственные мешки.

Читать далее
Всего голосов 55: ↑43 и ↓12+51
Комментарии77

Извлечение троих: Как найти пасхалки в книгах Стивена Кинга с помощью NLP алгоритмов

Время на прочтение7 мин
Количество просмотров12K

У нас было 17 романов Стивена Кинга, много свободного времени, навыки анализа данных Python и безудержная любовь к поиску пасхалок. Вот, что из этого вышло.

Читать далее
Всего голосов 16: ↑14 и ↓2+20
Комментарии8

Бывшие сотрудники Google запустили первый платный поисковик. От его успеха зависит будущее интернета

Время на прочтение5 мин
Количество просмотров68K

В плане интерфейса от Google пока далеко не ушли

Два бывших топ-менеджера Google создали поисковик без рекламы и с защитой личных данных, и теперь надеются привлечь людей, которые устали от того, что «они — это продукт». Подписка на поисковик (странная фраза, правда?) стоит $4,95 в месяц. Компания уже привлекла $77,5 млн, в ней работает 60 человек, 30% из которых ранее трудились на Google. Создатели рассчитывают отобрать себе несколько процентов поискового трафика, а там, возможно, и изменить наше отношение к рекламе в Сети.

Читать дальше →
Всего голосов 38: ↑37 и ↓1+47
Комментарии278

Её сиятельство Гильза

Время на прочтение6 мин
Количество просмотров37K

«Есть многое на свете, друг Горацио, что и не снилось нашим мудрецам». У Вильяма нашего Шекспира эта фраза подразумевала различную паранормальщину, вроде тени отца Гамлета, намекавшей на совершение ряда тяжких преступлений, но если внимательно присмотреться, то и появление многих привычных нам вещей тоже представляется многим людям магией. И совсем необязательно это Большой Адронный Коллайдер, желанная, но дефицитная игровая видеокарта или 8К-телевизор от Самсунга. Это может быть гораздо более простая вещь – например, патрон. Пистолетный, винтовочный, револьверный – неважно. Патрон является вроде бы и мелким, но очень важным персонажем в мировой военной истории. Мы читаем про дефицит патронов в Российской Императорской Армии и ужасаемся ему. А потом со сходными чувствами – про винтовку с пятью патронами на человека в РККА. Или истории про отказ в приёме на вооружение автоматических образцов, потому что расход патронов будет излишне велик. И постоянно этот персонаж возникает в сюжете в связи с какими-то перипетиями – недостатком, срывом поставок, освоением производства, проблемами с качеством. Зато, когда с ним нет проблем, он незаметен.

При этом само производство патронов обычно остаётся за кадром. Ну как-то их там делают, причём миллионами и миллиардами. Магия, да и только. А где магия, там и мифы, вроде самого живучего – про диаметр советских папирос и макарон, равный 7.62 мм, что якобы позволяет развернуть производство патронов на любой макаронной фабрике за два часа.Итак, говорить будем про унитарный патрон в металлической гильзе.
Читать дальше →
Всего голосов 86: ↑72 и ↓14+84
Комментарии121

Её высочество Пуля

Время на прочтение8 мин
Количество просмотров42K


Вчера речь шла о гильзах, а сегодня у нас следующий элемент – пуля. Пожалуй, ни один компонент патрона не вызывает к жизни столько мифов, легенд и откровенных баек. Их можно услышать и в рассказах служивых, и в пересказах этих рассказов через третьи руки, и даже из уст тех, кто сам оружия в руках не держал, но ему друг тестя рассказывал, а уж он мужик серьёзный, прапорщик трубопроводных войск: такой точно врать не будет. Вот и возникают истории то про страшные разрывные пули, то про ещё более страшные – со смещённым центром тяжести, то про совсем уж жуткие атомные пули (ну этот сон разума я даже рассматривать не буду). Вот по пулям сегодня и пройдёмся.
Читать дальше →
Всего голосов 77: ↑64 и ↓13+70
Комментарии54

Клиентоориентированный Data Lake в игровой компании

Время на прочтение13 мин
Количество просмотров7.5K

Источник

Привет, Хабр! Меня зовут Максим Пчелин, и я руковожу разработкой BI-DWH в MyGames (игровое подразделение Mail.ru Group). В этой статье по мотивам нашего с Диной Сафиной выступления на HighLoad++ Moscow 2019 я расскажу о том, как и зачем мы строили клиентоориентированное DataLake-хранилище.

Статья состоит из трех частей. Сперва я расскажу, почему мы решили реализовывать DataLake. Во второй части я опишу, какие технологии и решения мы используем, чтобы хранилище могло работать и наполняться данными. И в третьей части опишу, что мы делаем для улучшения качества наших сервисов.
Читать дальше →
Всего голосов 53: ↑53 и ↓0+53
Комментарии14

Перевод Курса по стартапам и бизнесу от Стэнфордского Университета. Лекция №3. Подготовка к созданию стартапа

Время на прочтение3 мин
Количество просмотров4.2K

Почему Курс по стартапам и бизнесу от Стэнфордского Университета, является одним из самых лучших в мире для стартаперов? Дело в том, что лекторами данного курса являются лучшие из лучших стартап-предприниматели, такие как: Сем Альтман – президент самого известного венчурного фонда Y Combinator, Дастин Московиц – сооснователь Facebook, Питер Тиль – сооснователь PayPal и первый инвестор, который вложил деньги в Facebook, Брайан Чески – основатель Airbnb, Альфред Лин – основатель Zappos, Алан Кей – отец ООП и много других гуру современного интернет-бизнеса.

В этом курсе отсутствуют сложные теории, а присутствуют только практические примеры и советы.
Например, как найти бизнес-идею и оценить её, как привлечь клиентов и постоянно увеличивать свои продажи, как построить успешную бизнес-стратегию и подобрать сильную команду и т. д.
В первой лекции будут выступать Сэм Альтман – гений-программист, который сейчас возглавляет венчурный фонд Y Combinator, с чьей помощью успешно реализовано более 400 стартапов и также Дастин Московиц — сооснователь Facebook.

В этой небольшой статье я хочу кратко описать содержимое лекции №3 - Подготовка к созданию стартапа из курса по стартапам и бизнесу от Стэнфордского Университета.

Итак, из Лекции №3 - Подготовка к созданию стартапа вы узнаете следующее:

01:30 – Инстинкты которые необходимы стартаперам?

02:40 – Первая нелогичная истина стартапов – В стартапе не допустимы инстинктивные действия.

03:25 – Почему стартаперы игнорируют советы?

04:35 – Одна из самых больших ошибок стартаперов?

Читать далее
Всего голосов 4: ↑2 и ↓20
Комментарии1

DataScience Digest — 24.06.21

Время на прочтение2 мин
Количество просмотров2.7K

Приветствую всех!

Встречайте свежий выпуск дайджеста полезных материалов из мира Data Science & Machine Learning и не забывайте подписываться на наш Telegram-канал.

Читать далее
Всего голосов 6: ↑4 и ↓2+2
Комментарии0

Информация

В рейтинге
Не участвует
Откуда
Western Finland, Финляндия
Дата рождения
Зарегистрирован
Активность