Обновить
-16
0

Пользователь

Отправить сообщение

Решаем простую статистическую задачу пятью способами

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели12K

Вот тут ув. @dimview на пальцах и Си объясняет за бутстрап решая несложную задачу. И в статистике существует 100500 разных тестов для (не)подтверждения нулевой гипотезы.

Давайте используем ряд самых распространеных и посмотрим на результаты. В конце сравним с бутстрапом. Изложение будет сопровождаться кратким выводом и объяснением основных тестов, их "ручной" реализацией и сравнением результата с готовыми тестами из пакета scipy.stats. В этом плане, мне кажется, повторение лишним не будет, т.к. позволит лучше понять и уяснить принцип и особенности тестов.

Сама задача звучит как: "И вот свежие результаты — в тестовой группе из 893 пришедших у нас что-то купили 34, а в контрольной группе из 923 пришедших что-то купили 28. Возникает вопрос — идти к начальству и говорить «в тестовой группе конверсия 3.81%, в контрольной группе 3.03%, налицо улучшение на 26%, где моя премия?» или продолжать сбор данных, потому что разница в 6 человек — ещё не статистика?"

Читать далее

Почему я чуть не запорол свою карьеру тимлида. 4 совета начинающим

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели78K

Я работаю тимлидом уже несколько лет и с уверенностью могу сказать, что это направление развития мне очень нравится. А помню, я чуть не запорол свою карьеру тимлида в самом начале, на переходном этапе разработчик - тимлид. Я тогда работал разработчиком в большой компании и, в общем, работа мне нравилась. У нашей команды был номинальный тимлид - хороший, душевный человек, которому очень нравилось ковыряться в своих железках, а в жизни команды его участие ограничивалось только вопросами на дейлике “как дела?”. В общем, проблемы в команде копились, и никто ими не занимался, и меня это беспокоило. В итоге мне предложили попробовать себя тимлидом. Я эту историю рассказываю к тому, что я начинал свой путь с огромном воодушевлением, но уже через 3-4 месяца я почти выгорел и хотел вернуться в разработку или вообще уволиться. Поразмыслив тогда, я решил, что не могу так бесславно уйти и должен попытаться разобраться в ситуации и найти другое решение. Я сформулировал 4 основные причины такого быстрого выгорания, которое случилось со мной на этом переходном этапе. Мне удалось найти решение этих возникших трудностей и продолжить работу.

Итак, четыре проблемы начинающего тимлида.

Читать далее

Сжимаем временной ряд в светофор

Время на прочтение3 мин
Охват и читатели3.4K


«Мы сделаем вас счастливыми! Вы будете счастливыми!»
«Отроки во Вселенной» (1974)


Менеджеры в большинстве компаний хотят примерно одного и того же. Чтобы сложные вещи объяснялись простым языком, а все можно было свести к спидометрам, градусникам и светофорам.


Аллегория вполне понятная, пытаться объяснять что-либо — в 99% случаев процедура бессмысленная и энергозатратная. Поэтому ниже пример, как двумя экранами кода можно быстренько превратить временные ряды, которые почти всегда встречаются в больших количествах, в светофор.


Все предыдущие публикации.

Читать дальше →

Моя шпаргалка по Скраму для подготовки к интервью. Часть 1

Время на прочтение11 мин
Охват и читатели59K

Как быстро подготовиться к вопросам по Скрам на собеседовании? Предлагаю свою шпаргалку, которой пользовалась на протяжении многих лет, и готовила по ней многих аналитиков.

Читать

Обзор книги «Искусство объяснять: Как сделать так, чтобы вас понимали с полуслова», автор Ли ЛеФевер

Время на прочтение7 мин
Охват и читатели24K

Чему учит эта книга: быть понятным

Чему она научила меня: вести коммуникацию так, чтобы после нее люди выходили уверенные и окрыленные

Что я хочу от материала: кратко объяснить основные идеи книги, которые помогают упаковать свои мысли в более понятную форму 

Читать далее

В Data Science не нужна математика (Почти)

Время на прочтение6 мин
Охват и читатели97K

Привет, чемпион!

Ребята с «вышкой» всё время умничают, что в Data Science нужна «математика», но стоит копнуть глубже, оказывается, что это не математика, а вышмат.

В реальной повседневной работе Data Scientist'а я каждый день использую знания математики. Притом очень часто это далеко не «вышмат». Никакие интегралы не считаю, детерминанты матриц не ищу, а нужные хитрые формулы и алгоритмы мне оперативнее просто загуглить.

Решил накидать чек-лист из простых математических приёмов, без понимания которых — тебе точно будет сложно в DS. Если ты только начинаешь карьеру в DS, то тебе будет особенно полезно. Мощь вышмата не принижаю, но для старта всё сильно проще, чем кажется. Важно прочитать до конца!
Читать дальше →

Борьба с  TOAST или будущее JSONB в PostgreSQL

Время на прочтение9 мин
Охват и читатели27K

В PostgreSQL есть два типа данных: JSON и JSONB. Первый формат является текстовым хранилищем, в котором json хранится "as is",  второй — бинарным, в нем ключи отсортированы  (сначала по длине ключа, а потом по его названию), дубликаты удалены, а пробелы удалены.

Тип JSONB имеет богатую поддержку, облегчающую работу разработчиков приложений, для него есть встроенные индексы, кроме того, существует расширение Jsquery, в котором реализован язык запросов к JSONB и дополнительные индексы. Когда у меня спрашивают, чем пользоваться, я всегда советую JSONB, так как он позволяет работать очень эффективно. 

Однако у постгреса есть серьёзная проблема, которая сказывается и на производительности JSONB  — это TOAST, и о ней я говорил в первой части. Сегодня я расскажу о том, как мы улучшили JSONB для того, чтобы существенно повысить его производительность.

Читать далее

Крутые GitHub репозитории в области машинного обучения

Время на прочтение1 мин
Охват и читатели8.7K

GitHub - это прекрасное место для того чтобы узнать что-то новое, найти что-то полезное для нынешних и вдохновиться для будущих проектов. Этот список крутых проектов является всего лишь маленькой частью того разнообразия интересных репозиториев в области ML, которые можно найти на гитхабе.

Читать далее

Насколько данные для обучения модели (не)похожи на тестовую выборку?

Время на прочтение6 мин
Охват и читатели27K
Рассмотрим один из сценариев, при котором ваша модель машинного обучения может быть бесполезна.

Есть такая поговорка: «Не сравнивайте яблоки с апельсинами». Но что делать, если нужно сравнить один набор яблок с апельсинами с другим, но распределения фруктов в двух наборах разное? Сможете работать с данными? И как будете это делать?

Читать дальше →

Как построить диаграмму Венна с 50 кругами? Визуализация множеств и история моего Python-проекта с открытым кодом

Время на прочтение11 мин
Охват и читатели33K
Всем привет, меня зовут Фёдор Индукаев, я работаю аналитиком в Яндекс.Маршрутизации. Сегодня хочу рассказать вам про задачу визуализации пересекающихся множеств и про пакет для Python с открытым кодом, созданный мной для её решения. В процессе мы узнаем, чем различаются диаграммы Венна и Эйлера, познакомимся с сервисом распределения заказов и по касательной заденем такую область науки, как биоинформатика. Двигаться будем от простого к более сложному. Поехали!



Читать дальше →

Геоаналитика с помощью Python и открытых данных: пошаговое руководство

Время на прочтение11 мин
Охват и читатели57K

Геоаналитика с помощью Python: GeoPandas, folium, Uber H3, OSM + примеры как можно определять лучшие локации для поиска помещений под открытие кофейни (и не только).

Читать далее

В чём мерить будем? Как выбрать правильные ML-метрики под задачи бизнеса

Время на прочтение6 мин
Охват и читатели28K


Сегодня одним из главных препятствий на пути внедрения машинного обучения в бизнес является несовместимость метрик ML и показателей, которыми оперирует топ-менеджмент. Аналитик прогнозирует увеличение прибыли? Но ведь нужно понять, в каких случаях причиной увеличения станет именно машинное обучение, а в каких — прочие факторы. Увы, но довольно часто улучшение метрик ML не приводит к росту прибыли. К тому же иногда сложность данных такова, что даже опытные разработчики могут выбрать некорректные метрики, на которые нельзя ориентироваться.

Давайте рассмотрим, какие бывают метрики ML и когда их целесообразно использовать. Разберём типичные ошибки, а также расскажем о том, какие варианты постановки задачи могут подойти для машинного обучения и бизнеса.
Читать дальше →

Анализ вакансий и зарплат в Data Science

Время на прочтение8 мин
Охват и читатели58K

Привет, Хабр!

Делимся нашим исследованием вакансий и зарплат в сфере data science и data engineering. Спрос на специалистов растет, или рынок уже насытился, какие технологии теряют, а какие набирают популярность, размер зарплатных вилок и от чего они зависят?

Для анализа мы использовали вакансии, публикуемые в сообществе ODS. По правилам сообщества все вакансии должны иметь зарплатную вилку от и до и подробное описание вакансии - есть что анализировать. К статье прилагается репозиторий с ноутбуком и исходными данными.

Читать далее

Домик в деревне, потоп, и цифровые модели рельефа

Время на прочтение5 мин
Охват и читатели7.8K

Сбылась мечта вашего детства—вы присмотрели себе домик в деревне​! Домик в отличном состоянии, из окна прекрасный вид, под самым окном тихо журчит речка Переплюйка, жизнь прекрасна! Вы совсем было собрались его купить, но вдруг достали телефон и зачем-то решили почитать новости. А там—изменения климата, очередное наводнение неважно где, с разрушениями и жертвами. И вдруг вы с беспокойством смотрите на речку Переплюйку прямо перед вами, и думаете, а не превратится ли она в случае чего в бурный поток, смывающий всё нажитое непосильным трудом? Давайте посмотрим, чем технологии ГИС (геоинформационных систем) могут вам помочь, и почему свободный доступ граждан к географическим данным полезен для принятия решений.

Читать далее

5 разных библиотек Python, которые сэкономят ваше время

Время на прочтение5 мин
Охват и читатели23K

В этой подборке, переводом которой мы решили поделиться к старту курса о машинном и глубоком обучении, по мнению автора, каждая библиотека заслуживает отдельной статьи. Всё начинается с самого начала: предлагается библиотека, которая сокращает шаблонный код импортирования; заканчивается статья пакетом удобной визуализации данных для исследовательского анализа. Автор также касается работы с картами Google, ускорения и упрощения работы с моделями ML и библиотеки, которая может повысить качество вашего проекта в области обработки естественного языка. Посвящённый подборке блокнот Jupyter вы найдёте в конце.

Читать далее

Обеспечение безопасности базы данных PostgreSQL

Время на прочтение10 мин
Охват и читатели59K

Базы данных — это Святой Грааль для хакеров, поэтому их необходимо защищать с особой тщательностью. Это первая из серии статей, в которых мы дадим обзор best practice в обеспечении безопасности баз данных. Мы начнем с одной из самых популярных СУБД с открытым исходным кодом, PostgreSQL, и рассмотрим несколько уровней безопасности, о которых стоит задуматься:

Читать далее

Цифровая паяльная станция своими руками

Время на прочтение12 мин
Охват и читатели47K

В этом посте мы будем делать в домашних условиях недорогую цифровую паяльную станцию Hakko 907! Она способна поддерживать переменную и постоянную температуру (до 525 °C). Для создания паяльной станции потребуются несколько компонентов общей стоимостью всего 7 долларов (не считая блока питания, но можно использовать уже имеющийся блок питания). Мне не удалось найти подробные инструкции по созданию такой станции, поэтому я решил подготовить собственный туториал с подробным описанием процесса.

Приятного крафтинга!

8 бесплатных инструментов для создания интерактивных визуализаций данных без необходимости написания кода

Время на прочтение8 мин
Охват и читатели111K
Когда тот, кто работает в сфере Data Science, собирается показать результаты своей деятельности другим людям, оказывается, что таблиц и отчётов, полных текстов, недостаточно для того чтобы представить всё наглядно и понятно. Именно в таких ситуациях возникает нужда в визуализации данных, в такой их обработке, которая позволит всем желающим в них разобраться и ухватить суть тех сложных процессов, которые они описывают.

В этом материале я расскажу о лучших бесплатных инструментах, позволяющих без особых сложностей создавать впечатляющие визуальные представления данных. При этом тут я не буду говорить о сложных системах вроде Power BI и Google Studio. Я выбрал те 8 инструментов, о которых пойдёт речь, из-за того, что ими легко пользоваться, из-за их приятного внешнего вида, из-за того, что работать с ними можно, не написав ни единой строчки программного кода и из-за того, что они бесплатны. Кроме того, они позволяют создавать интерактивные визуализации. А это значит, что графики, представляющие некие данные, могут содержать в себе больше сведений об этих данных, чем обычные изображения. Да и работать с такими графиками интереснее.



Так как инструменты для визуализации данных то появляются, то исчезают, я включил в этот материал только те из них, которые, вероятнее всего, ещё долго будут пребывать в добром здравии. А это значит, что вполне разумным шагом будет вложение некоторого времени в их изучение. Как уже было сказано, пользоваться этими инструментам можно без написания кода. Но если вас интересует визуализация данных именно через код — взгляните на этот материал.
Читать дальше →

Реализация ARP-спуфинга на Python

Время на прочтение4 мин
Охват и читатели18K

Введение


В данной статье я бы хотел продемонстрировать то, как можно реализовать собственную программу ARP-спуфинга на Python. Реализаций уже тысячи, но почти все они с использованием библиотеки Scapy и пары методов. Возможно данную библиотеку использовать эффективнее, не спорю, но мне было интересно реализовать самому с помощью сокетов и я бы хотел поведать читателям о том, как это делается.

Предполагается, что Вы уже знакомы с тем, как работает ARP-протокол и его недостатком, если нет, то советую прочитать вот эту статью.

Я не являюсь высококвалифицированным специалистом Информационной Безопасности, поэтому прошу тапками не кидать, а любые неточности оговорить в комментариях.
Читать дальше →

5 заметок для новоиспеченного менеджера

Время на прочтение5 мин
Охват и читатели5.5K
Специально для студентов курса «Team Lead 2.0» подготовили небольшой полезный материал. Приятного прочтения.



Вот вас повысили до тимлида или даже до Project менеджера, вы пришли домой и невероятно рады новой должности. Вечером вы лежите в кровати, пытаетесь уснуть, но в душе радуетесь новым открывшимся перспективам. Однако что-то еще вас тревожит. Теперь среди ваших коллег по цеху – вы главный, поскольку вы лучше всех разбираетесь в той или иной области, помогали другим и участвовали в принятии важных решений или по любой другой достойной причине вас сделали «главным». В этот момент происходит самая важная профессиональная трансформация, перед вами новая гигантская область, которой предстоит овладеть — менеджмент. Как себя вести? Завтра и каждый день после этого? Что вас ждет?
Читать дальше →

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность