Articles / Bookmarks / Profile of x67 / Habr

@x67

User

ProfileArticlesPostsNewsComments1.4K

vasilymat May 18 2024 at 13:16

Решаем простую статистическую задачу пятью способами

Medium

11 min

Data Engineering*Data Mining*

From sandbox

Вот тут ув. @dimview на пальцах и Си объясняет за бутстрап решая несложную задачу. И в статистике существует 100500 разных тестов для (не)подтверждения нулевой гипотезы.

Давайте используем ряд самых распространеных и посмотрим на результаты. В конце сравним с бутстрапом. Изложение будет сопровождаться кратким выводом и объяснением основных тестов, их "ручной" реализацией и сравнением результата с готовыми тестами из пакета scipy.stats. В этом плане, мне кажется, повторение лишним не будет, т.к. позволит лучше понять и уяснить принцип и особенности тестов.

Сама задача звучит как: "И вот свежие результаты — в тестовой группе из 893 пришедших у нас что-то купили 34, а в контрольной группе из 923 пришедших что-то купили 28. Возникает вопрос — идти к начальству и говорить «в тестовой группе конверсия 3.81%, в контрольной группе 3.03%, налицо улучшение на 26%, где моя премия?» или продолжать сбор данных, потому что разница в 6 человек — ещё не статистика?"

ar2code Apr 20 2023 at 19:16

Почему я чуть не запорол свою карьеру тимлида. 4 совета начинающим

Easy

6 min

77K

Development Management*IT career

Я работаю тимлидом уже несколько лет и с уверенностью могу сказать, что это направление развития мне очень нравится. А помню, я чуть не запорол свою карьеру тимлида в самом начале, на переходном этапе разработчик - тимлид. Я тогда работал разработчиком в большой компании и, в общем, работа мне нравилась. У нашей команды был номинальный тимлид - хороший, душевный человек, которому очень нравилось ковыряться в своих железках, а в жизни команды его участие ограничивалось только вопросами на дейлике “как дела?”. В общем, проблемы в команде копились, и никто ими не занимался, и меня это беспокоило. В итоге мне предложили попробовать себя тимлидом. Я эту историю рассказываю к тому, что я начинал свой путь с огромном воодушевлением, но уже через 3-4 месяца я почти выгорел и хотел вернуться в разработку или вообще уволиться. Поразмыслив тогда, я решил, что не могу так бесславно уйти и должен попытаться разобраться в ситуации и найти другое решение. Я сформулировал 4 основные причины такого быстрого выгорания, которое случилось со мной на этом переходном этапе. Мне удалось найти решение этих возникших трудностей и продолжить работу.

Итак, четыре проблемы начинающего тимлида.

+76

i_shutov Jan 24 2023 at 07:09

Сжимаем временной ряд в светофор

3 min

3.3K

Data Mining*R*Data visualization*

Tutorial

«Мы сделаем вас счастливыми! Вы будете счастливыми!»
«Отроки во Вселенной» (1974)

Менеджеры в большинстве компаний хотят примерно одного и того же. Чтобы сложные вещи объяснялись простым языком, а все можно было свести к спидометрам, градусникам и светофорам.

Аллегория вполне понятная, пытаться объяснять что-либо — в 99% случаев процедура бессмысленная и энергозатратная. Поэтому ниже пример, как двумя экранами кода можно быстренько превратить временные ряды, которые почти всегда встречаются в больших количествах, в светофор.

Все предыдущие публикации.

Читать дальше →

DanaIssakhanova Aug 9 2022 at 01:02

Моя шпаргалка по Скраму для подготовки к интервью. Часть 1

11 min

49K

Development Management*Project management*Agile*Product Management*

From sandbox

Как быстро подготовиться к вопросам по Скрам на собеседовании? Предлагаю свою шпаргалку, которой пользовалась на протяжении многих лет, и готовила по ней многих аналитиков.

Читать

Lukina Jul 15 2022 at 14:15

Обзор книги «Искусство объяснять: Как сделать так, чтобы вас понимали с полуслова», автор Ли ЛеФевер

7 min

21K

PresentationsReading roomContent-marketing*Studying in IT

From sandbox

Чему учит эта книга: быть понятным

Чему она научила меня: вести коммуникацию так, чтобы после нее люди выходили уверенные и окрыленные

Что я хочу от материала: кратко объяснить основные идеи книги, которые помогают упаковать свои мысли в более понятную форму

+31

Aleron75 Jul 12 2022 at 09:00

В Data Science не нужна математика (Почти)

6 min

92K

RUVDS.com corporate blogBig Data*Data Engineering*Python*Mathematics*

Привет, чемпион!

Ребята с «вышкой» всё время умничают, что в Data Science нужна «математика», но стоит копнуть глубже, оказывается, что это не математика, а вышмат.

В реальной повседневной работе Data Scientist'а я каждый день использую знания математики. Притом очень часто это далеко не «вышмат». Никакие интегралы не считаю, детерминанты матриц не ищу, а нужные хитрые формулы и алгоритмы мне оперативнее просто загуглить.

Решил накидать чек-лист из простых математических приёмов, без понимания которых — тебе точно будет сложно в DS. Если ты только начинаешь карьеру в DS, то тебе будет особенно полезно. Мощь вышмата не принижаю, но для старта всё сильно проще, чем кажется. Важно прочитать до конца!

Читать дальше →

+123

zen Jan 23 2022 at 21:26

Борьба с TOAST или будущее JSONB в PostgreSQL

9 min

24K

Конференции Олега Бунина (Онтико) corporate blogData storage*Database Administration*PostgreSQL*High performance*

В PostgreSQL есть два типа данных: JSON и JSONB. Первый формат является текстовым хранилищем, в котором json хранится "as is", второй — бинарным, в нем ключи отсортированы (сначала по длине ключа, а потом по его названию), дубликаты удалены, а пробелы удалены.

Тип JSONB имеет богатую поддержку, облегчающую работу разработчиков приложений, для него есть встроенные индексы, кроме того, существует расширение Jsquery, в котором реализован язык запросов к JSONB и дополнительные индексы. Когда у меня спрашивают, чем пользоваться, я всегда советую JSONB, так как он позволяет работать очень эффективно.

Однако у постгреса есть серьёзная проблема, которая сказывается и на производительности JSONB — это TOAST, и о ней я говорил в первой части. Сегодня я расскажу о том, как мы улучшили JSONB для того, чтобы существенно повысить его производительность.

+55

marmarmar Oct 18 2021 at 09:40

Крутые GitHub репозитории в области машинного обучения

1 min

8.1K

GitHub*Python*Machine learning*

From sandbox

GitHub - это прекрасное место для того чтобы узнать что-то новое, найти что-то полезное для нынешних и вдохновиться для будущих проектов. Этот список крутых проектов является всего лишь маленькой частью того разнообразия интересных репозиториев в области ML, которые можно найти на гитхабе.

-3

hakey Sep 3 2018 at 14:51

Насколько данные для обучения модели (не)похожи на тестовую выборку?

6 min

26K

Machine learning*Mathematics*Python*Big Data*

Tutorial

Translation

Рассмотрим один из сценариев, при котором ваша модель машинного обучения может быть бесполезна.

Есть такая поговорка: «Не сравнивайте яблоки с апельсинами». Но что делать, если нужно сравнить один набор яблок с апельсинами с другим, но распределения фруктов в двух наборах разное? Сможете работать с данными? И как будете это делать?

Читать дальше →

+22

indukaev May 19 2020 at 08:07

Как построить диаграмму Венна с 50 кругами? Визуализация множеств и история моего Python-проекта с открытым кодом

11 min

28K

Яндекс corporate blogOpen source*Python*Algorithms*Data visualization*

Всем привет, меня зовут Фёдор Индукаев, я работаю аналитиком в Яндекс.Маршрутизации. Сегодня хочу рассказать вам про задачу визуализации пересекающихся множеств и про пакет для Python с открытым кодом, созданный мной для её решения. В процессе мы узнаем, чем различаются диаграммы Венна и Эйлера, познакомимся с сервисом распределения заказов и по касательной заденем такую область науки, как биоинформатика. Двигаться будем от простого к более сложному. Поехали!

Читать дальше →

+41

TatianaLi Sep 24 2021 at 14:14

Геоаналитика с помощью Python и открытых данных: пошаговое руководство

11 min

50K

Python*OpenStreetMap*Geoinformation services*Open data*Data visualization*

From sandbox

Геоаналитика с помощью Python: GeoPandas, folium, Uber H3, OSM + примеры как можно определять лучшие локации для поиска помещений под открытие кофейни (и не только).

+29

JetHabr Aug 15 2018 at 08:05

В чём мерить будем? Как выбрать правильные ML-метрики под задачи бизнеса

6 min

26K

Инфосистемы Джет corporate blogMachine learning*

Сегодня одним из главных препятствий на пути внедрения машинного обучения в бизнес является несовместимость метрик ML и показателей, которыми оперирует топ-менеджмент. Аналитик прогнозирует увеличение прибыли? Но ведь нужно понять, в каких случаях причиной увеличения станет именно машинное обучение, а в каких — прочие факторы. Увы, но довольно часто улучшение метрик ML не приводит к росту прибыли. К тому же иногда сложность данных такова, что даже опытные разработчики могут выбрать некорректные метрики, на которые нельзя ориентироваться.

Давайте рассмотрим, какие бывают метрики ML и когда их целесообразно использовать. Разберём типичные ошибки, а также расскажем о том, какие варианты постановки задачи могут подойти для машинного обучения и бизнеса.

Читать дальше →

+25

egorborisov Aug 26 2021 at 11:06

Анализ вакансий и зарплат в Data Science

8 min

54K

Open Data Science corporate blogBig Data*Machine learning*IT careerArtificial Intelligence

Привет, Хабр!

Делимся нашим исследованием вакансий и зарплат в сфере data science и data engineering. Спрос на специалистов растет, или рынок уже насытился, какие технологии теряют, а какие набирают популярность, размер зарплатных вилок и от чего они зависят?

Для анализа мы использовали вакансии, публикуемые в сообществе ODS. По правилам сообщества все вакансии должны иметь зарплатную вилку от и до и подробное описание вакансии - есть что анализировать. К статье прилагается репозиторий с ноутбуком и исходными данными.

+33

wlkr Aug 19 2021 at 15:07

Домик в деревне, потоп, и цифровые модели рельефа

5 min

7.6K

Geoinformation services*Open data*Data visualization*

Сбылась мечта вашего детства—вы присмотрели себе домик в деревне! Домик в отличном состоянии, из окна прекрасный вид, под самым окном тихо журчит речка Переплюйка, жизнь прекрасна! Вы совсем было собрались его купить, но вдруг достали телефон и зачем-то решили почитать новости. А там—изменения климата, очередное наводнение неважно где, с разрушениями и жертвами. И вдруг вы с беспокойством смотрите на речку Переплюйку прямо перед вами, и думаете, а не превратится ли она в случае чего в бурный поток, смывающий всё нажитое непосильным трудом? Давайте посмотрим, чем технологии ГИС (геоинформационных систем) могут вам помочь, и почему свободный доступ граждан к географическим данным полезен для принятия решений.

+15

Blazkowicz Jun 12 2021 at 14:17

5 разных библиотек Python, которые сэкономят ваше время

5 min

22K

Skillfactory corporate blogData visualization*Machine learning*Programming*Python*

Translation

В этой подборке, переводом которой мы решили поделиться к старту курса о машинном и глубоком обучении, по мнению автора, каждая библиотека заслуживает отдельной статьи. Всё начинается с самого начала: предлагается библиотека, которая сокращает шаблонный код импортирования; заканчивается статья пакетом удобной визуализации данных для исследовательского анализа. Автор также касается работы с картами Google, ускорения и упрощения работы с моделями ML и библиотеки, которая может повысить качество вашего проекта в области обработки естественного языка. Посвящённый подборке блокнот Jupyter вы найдёте в конце.

Stedihabr Apr 5 2021 at 17:03

Обеспечение безопасности базы данных PostgreSQL

10 min

48K

ITSOFT corporate blogDatabase Administration*PostgreSQL*Information Security*

Translation

Базы данных — это Святой Грааль для хакеров, поэтому их необходимо защищать с особой тщательностью. Это первая из серии статей, в которых мы дадим обзор best practice в обеспечении безопасности баз данных. Мы начнем с одной из самых популярных СУБД с открытым исходным кодом, PostgreSQL, и рассмотрим несколько уровней безопасности, о которых стоит задуматься:

klimensky Mar 16 2021 at 13:21

Цифровая паяльная станция своими руками

12 min

41K

Skillfactory corporate blogElectronics for beginnersDIYGadgets

Tutorial

Translation

В этом посте мы будем делать в домашних условиях недорогую цифровую паяльную станцию Hakko 907! Она способна поддерживать переменную и постоянную температуру (до 525 °C). Для создания паяльной станции потребуются несколько компонентов общей стоимостью всего 7 долларов (не считая блока питания, но можно использовать уже имеющийся блок питания). Мне не удалось найти подробные инструкции по созданию такой станции, поэтому я решил подготовить собственный туториал с подробным описанием процесса.

Приятного крафтинга!

+28

ru_vds Jan 16 2021 at 13:10

8 бесплатных инструментов для создания интерактивных визуализаций данных без необходимости написания кода

8 min

89K

RUVDS.com corporate blogDatabase Administration*Website development*

Translation

Когда тот, кто работает в сфере Data Science, собирается показать результаты своей деятельности другим людям, оказывается, что таблиц и отчётов, полных текстов, недостаточно для того чтобы представить всё наглядно и понятно. Именно в таких ситуациях возникает нужда в визуализации данных, в такой их обработке, которая позволит всем желающим в них разобраться и ухватить суть тех сложных процессов, которые они описывают.

В этом материале я расскажу о лучших бесплатных инструментах, позволяющих без особых сложностей создавать впечатляющие визуальные представления данных. При этом тут я не буду говорить о сложных системах вроде Power BI и Google Studio. Я выбрал те 8 инструментов, о которых пойдёт речь, из-за того, что ими легко пользоваться, из-за их приятного внешнего вида, из-за того, что работать с ними можно, не написав ни единой строчки программного кода и из-за того, что они бесплатны. Кроме того, они позволяют создавать интерактивные визуализации. А это значит, что графики, представляющие некие данные, могут содержать в себе больше сведений об этих данных, чем обычные изображения. Да и работать с такими графиками интереснее.

Так как инструменты для визуализации данных то появляются, то исчезают, я включил в этот материал только те из них, которые, вероятнее всего, ещё долго будут пребывать в добром здравии. А это значит, что вполне разумным шагом будет вложение некоторого времени в их изучение. Как уже было сказано, пользоваться этими инструментам можно без написания кода. Но если вас интересует визуализация данных именно через код — взгляните на этот материал.

Читать дальше →

+35

Securityhigh Jul 18 2020 at 10:44

Реализация ARP-спуфинга на Python

4 min

17K

Open source*Python*Information Security*Network technologies*

Введение

В данной статье я бы хотел продемонстрировать то, как можно реализовать собственную программу ARP-спуфинга на Python. Реализаций уже тысячи, но почти все они с использованием библиотеки Scapy и пары методов. Возможно данную библиотеку использовать эффективнее, не спорю, но мне было интересно реализовать самому с помощью сокетов и я бы хотел поведать читателям о том, как это делается.

Предполагается, что Вы уже знакомы с тем, как работает ARP-протокол и его недостатком, если нет, то советую прочитать вот эту статью.

Я не являюсь высококвалифицированным специалистом Информационной Безопасности, поэтому прошу тапками не кидать, а любые неточности оговорить в комментариях.

Читать дальше →

+24

MaxRokatansky Nov 14 2019 at 15:48

5 заметок для новоиспеченного менеджера

5 min

5.5K

OTUS corporate blogIT careerProject management*

Специально для студентов курса «Team Lead 2.0» подготовили небольшой полезный материал. Приятного прочтения.

Вот вас повысили до тимлида или даже до Project менеджера, вы пришли домой и невероятно рады новой должности. Вечером вы лежите в кровати, пытаетесь уснуть, но в душе радуетесь новым открывшимся перспективам. Однако что-то еще вас тревожит. Теперь среди ваших коллег по цеху – вы главный, поскольку вы лучше всех разбираетесь в той или иной области, помогали другим и участвовали в принятии важных решений или по любой другой достойной причине вас сделали «главным». В этот момент происходит самая важная профессиональная трансформация, перед вами новая гигантская область, которой предстоит овладеть — менеджмент. Как себя вести? Завтра и каждый день после этого? Что вас ждет?

Читать дальше →

+15

2 3