Pull to refresh
61
0
Георгий @Apatic

Аналитик

Send message

Методы балансировки в А/Б тестировании

Reading time14 min
Views4.2K

Привет, Хабр! Как часто вы думаете о балансе? Балансе вселенной, личной жизни и работы, балансе БЖУ в своем рационе или балансе в банке. Мы в команде ad-hoc X5 Tech не только думаем о балансе, но и сталкиваемся с ним в работе. Сегодня поговорим о балансировке при анализе причинности. Это важный инструмент статистики, который помогает нам выяснить, как одни величины влияют на другие. Балансировка здесь — это способ убрать ошибки, которые могут возникнуть из-за разных распределений переменных в разных группах. Расскажем о различных методах балансировки, об их работе, преимуществах и недостатках каждого. Также затронем проблемы и ограничения, связанные с балансировкой. Запасайтесь чаем, мы начинаем!

Читать далее
Total votes 6: ↑6 and ↓0+6
Comments0

Propensity score matching: как оценивать маркетинговые кампании, если невозможно провести A/B тесты

Reading time5 min
Views1.7K

Всем привет! Меня зовут Вячеслав Назаров, я лид аналитики промо в СберМаркете. В этой статье я расскажу, как оценивать маркетинговые кампании, если провести A/B- тесты нельзя. Еще обсудим логику в Propensity Score Matching (PSM), и то, какую пользу инструмент может принести вашему бизнесу. А в конце статьи покажу, как достаточно просто можно развернуть такую штуку у себя.

Читать далее
Total votes 12: ↑11 and ↓1+10
Comments0

Причинно-следственный анализ в машинном обучении

Reading time15 min
Views23K

Что появилось первым: курица или яйцо?
Статистики давно уже нашли ответ на этот вопрос.
Причем несколько раз.
И каждый раз ответ был разным.

А если серьезно, то для машинного обучения становятся все более актуальными вопросы причинно-следственного анализа (causal inference) - когда главной целью моделирования является не прогноз и его качество, а то, как мы можем принимать решения на основе нашего алгоритма. И как это повлияет на мир, в котором эта модель будет действовать. Сделает ли модель его лучше, чем он был? Или наоборот.

Под катом я расскажу о причинно-следственном анализе, его ключевых методах и применении в машинном обучении. В следующей статье побеседуем о ключевых трендах в развитии методов причинно-следственного анализа в машинном обучении в 2020-2021 гг.

Читать далее
Total votes 23: ↑22 and ↓1+24
Comments1

ML-критерии для A/B-тестов

Reading time24 min
Views19K

Как и в большинстве компаний, наш основной инструмент для принятия решений — это A/B-тесты. Мы уделяем им большое внимание: проверяем на корректность все используемые критерии, пытаемся сделать результаты более интерпретируемыми, а также увеличиваем мощность критериев. В текущем посте я хочу рассказать, как дополнительно увеличить мощность, используя машинное обучение.

Читать далее
Total votes 8: ↑8 and ↓0+8
Comments9

Обзор зарубежной недвижимости для россиян. Что, где, почём?

Reading time7 min
Views18K

Допустим, у вас есть квартира в Москве. Или в Твери. Или в Томске, не суть. Если вы решите её продать, какую недвижимость за рубежом вы сможете купить и в какой стране? 

Еще пару лет назад такой вопрос казался если не странным, то праздным. А всерьез продать российскую недвижимость ради покупки зарубежной решались и вовсе единицы. 

Однако, в последнее время тема переезда на ПМЖ в другую страну приобрела особую популярность. И для многих (особенно для айтишников) озвученные выше вопросы перешли в разряд вполне насущных.

В этой статье я дам небольшой обзор рынка зарубежной недвижимости для россиян, основанный на открытых данных. Что, где и почем продают. А в качестве бонуса посмотрим на соответствие цен недвижимости между разными регионами России и зарубежными странами. 

Читать далее
Total votes 23: ↑18 and ↓5+18
Comments20

RFM-анализ одной кнопкой или как мы облегчили клиентам жизнь

Reading time6 min
Views14K

image
С тех пор как в компании Mindbox впервые произнесли Machine Learning, общей целью стала Большая Зеленая Кнопка. Это такая кнопка во весь экран, при нажатии на которую всё работает само и приносит прибыль.


В аналитическом проекте «RFM» цель менее амбициозная — Маленькая зеленая кнопка. Нажимаешь, и база автоматически делится на сегменты, по которым запускается отправка писем (например).




Чтобы добиться цели, мы написали автоматический RFM-сегментатор и разработали специальный отчет, чтобы наглядно представлять результаты.


Рассказываем, как это все случилось и почему теперь можно обойтись без аналитиков уделять больше времени менее тривиальным задачам .

Читать дальше →
Total votes 5: ↑5 and ↓0+5
Comments0

[Часть 1] Математика в АБ-тестах. Что такое z-score и p-value?

Reading time14 min
Views31K

Приветствую тебя, дорогой друг! Эта публикация была создана для тебя, если ты хотел бы разобраться с этими непонятными словами из заголовка раз и на всегда. Как с идейной, так и с математической стороны. Признаюсь сразу, в свое время в универе частенько прогуливал семинары по высшей математике где-нибудь в приятном заведение со вкусной едой и хорошей музыкой или вообще дома, занимаясь чем-то "уникальным" и "сверхполезным". Но жизнь оказалась более ироничной, чем я думал. Сейчас я работаю продуктовым аналитиком в @IDFinance и познаю мат. статистику заново. И теперь уже с горящими глазами. Дается местами она не просто, а особенную трудность испытываю, когда хочу найти в интернете простые и понятные материалы по необходимой теме. Собственно, это меня и побудило написать данную статью, включающую в себя всю математику, почему она так работает и как это вообще запрограммировать.

Читать далее
Total votes 19: ↑19 and ↓0+19
Comments8

Страны, регионы, города

Reading time1 min
Views119K
Карта мира
Хочу поделиться базой стран, регионов и городов на русском языке. Возможно, кому-то пригодиться в своих проектах. В базе 106 стран, 922 региона и 10969 городов!

Если кто не понял о чем речь, то вспомните, например, как на ВКонтакте указывается город: выбирается страна -> подгружается список регионов -> выбирается регион -> подгружается список городов

Читать дальше →
Total votes 124: ↑122 and ↓2+120
Comments128

Латентно-семантический анализ

Reading time4 min
Views98K
Как находить тексты похожие по смыслу? Какие есть алгоритмы для поиска текстов одной тематики? – Вопросы регулярно возникающие на различных программистских форумах. Сегодня я расскажу об одном из подходов, которым активно пользуются поисковые гиганты и который звучит чем-то вроде мантры для SEO aka поисковых оптимизаторов. Этот подход называет латентно-семантический анализ (LSA), он же латентно-семантическое индексирование (LSI)

Латентно-семантический анализ

Читать дальше →
Total votes 104: ↑101 and ↓3+98
Comments27

Ускорение разведочного анализа данных с использованием библиотеки pandas-profiling

Reading time6 min
Views25K
Первым делом, приступая к работе с новым набором данных, нужно понять его. Для того чтобы это сделать, нужно, например, выяснить диапазоны значений, принимаемых переменными, их типы, а также узнать о количестве пропущенных значений.

Библиотека pandas предоставляет нам множество полезных инструментов для выполнения разведочного анализа данных (Exploratory Data Analysis, EDA). Но, прежде чем воспользоваться ими, обычно нужно начать с функций более общего плана, таких как df.describe(). Правда, надо отметить, что возможности, предоставляемые подобными функциями, ограничены, а начальные этапы работы с любыми наборами данных при выполнении EDA очень часто сильно похожи друг на друга.



Автор материала, который мы сегодня публикуем, говорит, что он — не любитель выполнения повторяющихся действий. В результате он, в поисках средств, позволяющих быстро и эффективно выполнять разведочный анализ данных, нашёл библиотеку pandas-profiling. Результаты её работы выражаются не в виде неких отдельных показателей, а в форме довольно подробного HTML-отчёта, содержащего большую часть тех сведений об анализируемых данных, которые может понадобиться знать перед тем, как приступать к более плотной работе с ними.
Читать дальше →
Total votes 30: ↑28 and ↓2+26
Comments1

Пишем голосового ассистента на Python

Reading time16 min
Views157K

Введение


Технологии в области машинного обучения за последний год развиваются с потрясающей скоростью. Всё больше компаний делятся своими наработками, тем самым открывая новые возможности для создания умных цифровых помощников.

В рамках данной статьи я хочу поделиться своим опытом реализации голосового ассистента и предложить вам несколько идей для того, чтобы сделать его ещё умнее и полезнее.

image
Читать дальше →
Total votes 10: ↑9 and ↓1+12
Comments5

Электронная карта виноделия России. Замысел и наполнение

Reading time8 min
Views9K

Поводом для моей регистрации и этой публикации стал прочитанный пост о посещении завода "Коктебель", в истории которого усомнился автор (ссылка). Фейковых вин не существует в продаже.


Лично меня очень интересует российское виноделие. Обладая при этом минимальными навыками работы с online GIS, я стараюсь не только собирать информацию о положении дел, но и картографировать ее. Я веду постоянно пополняемую карту виноделия (ссылка на карту).

Читать дальше →
Total votes 32: ↑31 and ↓1+30
Comments24

Геоинформационная идентификация вина. ЗГУ и ЗНМП

Reading time7 min
Views7.7K
Здравствуйте. Я рад продолжить с циклом статей по электронной карте, посвященной российскому виноделию.

Первая статья вышла несколько недель назад, в ней я рассказал о том, как создаю карту виноградников, с которых производится вино в России (ссылка на статью). Я получил отличный отклик, несколько интересных дополнений, позитивное восприятие, что дало мне вдохновение на вторую часть.

Ссылки, приведенные в тексте, будут перечислены в конце поста для удобства. Можно не переходить в ходе чтения.

Сегодня я хотел бы обсудить утвержденную, закрепленную законом, идентификацию вина по происхождению, а также ее картографическое представление. Речь идет о маркировке ЗГУ и ЗНМП, которую уже сейчас можно увидеть на отдельных единицах винодельческой продукции.
Читать дальше →
Total votes 12: ↑12 and ↓0+12
Comments12

Винный гид России. Аналитика

Reading time11 min
Views15K

Эта статья, как ни странно, про российское вино. Достопочтенную публику прошу не злиться, во-первых, на Хабре уже есть несколько статей на винную тематику, а, во-вторых, речь не столько про само вино, сколько про открытые данные и их анализ.

Надеюсь, моя статья будет интересна любителям вина. Особенно российского.

Месяц назад Роскачество презентовало очередной выпуск ежегодника "Винный гид России". Он посвящен (внезапно!) российским винам. Но не всем, а лишь находящимся в ценовом сегменте до ±1000 рублей и широко представленным в обычных продуктовых сетях. В общем, винные снобы могут сразу пройти мимо, речь пойдет о самом что ни на есть масс-маркете.

Гид доступен в печатном и электронном виде. Последний представляет собой, по сути, рейтинг вин, которые можно отфильтровать по различным критериям. Это позволяет легко найти конкретное вино, его оценку и прочую информацию о нем. Но вот на более общие вопросы с помощью этого сайта я ответить не смог. А именно:

1. Какова картина в целом? Большинство вин откровенно плохи? Или наоборот прекрасны?

2. Не хочу запоминать и искать конкретные вина. Какие винодельни стабильно показывают достойное качество?

3. Как цена влияет на качество? Есть ли разница между вином за 150 рублей и за 500? А за 500 vs 1000?

Но раз есть сайт с данными, значит их можно спарсить и ответить на все свои вопросы самостоятельно.

Так что все те, кому интересен мир российского вина, и кто не воротит нос при фразе "вино дешевле 1000 за бутылку", добро пожаловать под кат!

Помните, что чрезмерное употребление алкоголя, в том числе вина, вредит вашему здоровью. Употребляйте ответственно или не употребляйте вовсе.

Читать далее
Total votes 24: ↑21 and ↓3+26
Comments50

Регулярные выражения (regexp) — основы

Reading time21 min
Views890K

Регулярные выражения (их еще называют regexp, или regex) — это механизм для поиска и замены текста. В строке, файле, нескольких файлах... Их используют разработчики в коде приложения, тестировщики в автотестах, да просто при работе в командной строке!

Чем это лучше простого поиска? Тем, что позволяет задать шаблон.

Например, на вход приходит дата рождения в формате ДД.ММ.ГГГГГ. Вам надо передать ее дальше, но уже в формате ГГГГ-ММ-ДД. Как это сделать с помощью простого поиска? Вы же не знаете заранее, какая именно дата будет.

Читать далее
Total votes 50: ↑42 and ↓8+43
Comments76

Аналитический движок Amazon Redshift + преимущества Облака

Reading time9 min
Views8.7K

Аналитический движок Amazon Redshift + преимущества Облака


Привет, Хабр!


На связи Артемий Козырь из команды Аналитики, и я продолжаю знакомить вас с Wheely. В этом выпуске:


  • Основы гибких кластерных вычислений
  • Колоночное хранение и компрессия данных
  • Вместо индексов: ключи сегментации и сортировки
  • Управление доступами, правами, ресурсами
  • Интеграция с S3 или Даталейк на ровном месте
Читать дальше →
Total votes 8: ↑8 and ↓0+8
Comments14

Как «приручить» консоль, или 5 шагов к жизни с командной строкой

Reading time15 min
Views24K

Всем привет! Меня зовут Осип, я Android-разработчик в red_mad_robot и я люблю автоматизировать всё, что автоматизируется. В этом мне помогает консоль, поэтому решил поделиться опытом, как настроить командную оболочку так, чтобы в ней было приятно работать и она ежедневно помогала вам решать задачи.

Статья для тех, кто использует Linux или macOS. Если у вас Windows, вы можете использовать WSL (приравнивается к Ubuntu).

Читать далее
Total votes 23: ↑22 and ↓1+23
Comments33

Git happens! 6 типичных ошибок Git и как их исправить

Reading time5 min
Views234K


Прим. перев.: На днях в блоге для инженеров любимого нами проекта GitLab появилась небольшая, но весьма полезная заметка с инструкциями, которые помогают сохранить время и нервы в случае различных проблем, случающихся по мере работы с Git. Вряд ли они будут новы для опытных пользователей, но обязательно найдутся и те, кому они пригодятся. А в конец этого материала мы добавили небольшой бонус от себя. Хорошей всем пятницы!

Все мы делаем ошибки, особенно при работе с такими сложными системами, как Git. Но помните: Git happens!
Читать дальше →
Total votes 63: ↑62 and ↓1+61
Comments62

Поговорим про перформанс-анализ

Reading time45 min
Views12K


Когда начинается разговор про перформанс-тестирование, то большинство программистов размышляет только о проведении замеров и сборе метрик, в то время как намного важнее задуматься об анализе собранных значений. Понять, как правильно использовать измеренные метрики и извлечь из них максимум пользы, — не такая уж и простая задача.


Сегодня мы обсудим основные задачи и сложности перформанс-анализа: поговорим о том, как изучать сырые данные и сводные метрики, применять статистические тесты, сравнивать перформансные распределения, писать перформансные тесты, анализировать историю замеров и выбирать правильные метрики. С этим нам поможет Андрей Акиньшин — ниже представлены видеозапись и расшифровка его доклада.

Total votes 56: ↑56 and ↓0+56
Comments7

База GeoIP для геолокации по IP-адресу превратила в кошмар жизнь женщины в Канзасе

Reading time4 min
Views72K

Геолокация IP-адресов в мире

В часе езды от Уичито (шт. Канзас) есть маленький городок под названием Потвин, а в нём — ферма площадью 1,5 км2. Единственная жительница этой фермы, 82-летняя Джойс Тейлор, уже несколько лет подвергается нападкам, телефонным угрозам и необъяснимой агрессии людей со всего мира, визитам агентов ФБР, коллекторов долгов от Налоговой службы, карет скорой помощи в поисках жертв самоубийств и полицейских офицеров в поисках пропавших детей. Однажды кто-то оставил разбитый унитаз на дороге, в непонятной попытке что-то сказать.
Читать дальше →
Total votes 37: ↑31 and ↓6+25
Comments84

Information

Rating
Does not participate
Location
Москва и Московская обл., Россия
Works in
Date of birth
Registered
Activity