Search
Write a publication
Pull to refresh
0
@RinaKarpread⁠-⁠only

User

Send message

Сетап А/В-теста, который помог снизить MDE выручки в 2 раза

Level of difficultyMedium
Reading time9 min
Views4.2K

Привет! Я Соня Ожерельева — тимлид в команде Monetization Efficiency в Авито. В статье расскажу про новый сетап A/B-теста, который мы использовали при тестировании системы Уровень сервиса на Авито. Он, как и A/B-тест по регионам, позволяет измерять влияние как на покупателей, так и на продавцов. При этом MDE нашего сетапа в 2 раза ниже, чем у регионального. Материал будет полезен аналитикам любых грейдов.

Читать далее

Проблема подглядывания и последовательное А/Б тестирование

Reading time12 min
Views1.8K

Хабр, привет! Сегодня узнаем, что такое проблема подглядывания и почему она появляется. Реализуем аналог метода Покока и критерий Вальда для последовательного тестирования. Посмотрим, можно ли одновременно подглядывать и контролировать вероятности ошибок при том же размере групп. Обсудим границы применимости последовательного тестирования.

Читать далее

Разведочный анализ (EDA)

Reading time10 min
Views40K

Разведочный анализ данных, или EDA, – это как археологические раскопки в мире информации. Это первый шаг, когда мы берем на себя роль исследователя данных и начинаем расследовать, как устроены наши данные, как они взаимосвязаны и что они нам могут рассказать. EDA – это не просто скучная предварительная обработка, это настоящее приключение, в ходе которого мы обнаруживаем неожиданные моменты, паттерны и закономерности, которые часто прячутся на первый взгляд.

Представь, что ты археолог, который обнаружил древний город. Первое, что ты делаешь, – это изучаешь артефакты, учишься понимать их значение и связи между ними, прежде чем начнешь рассказывать историю этого города. Точно так же и EDA позволяет нам раскрывать истории, заложенные в данных. Мы открываем для себя ключевые факторы, влияющие на наши переменные, выявляем паттерны поведения и взаимосвязи, которые нередко оказывают решающее влияние на стратегии и принимаемые бизнес-решения.

Читать далее

Разбираемся в ROC и AUC

Level of difficultyEasy
Reading time6 min
Views43K

Привет, Хабр!

В машинном обучение очень важны метрики оценки эффективности моделей. Среди таких метрик есть: кривые ROC и показатель AUC. Они позволяют оценивать бинарные классификаторы.

В этой статье мы как раз и разберем их.

Читать далее

Вы точно их собеседовали: 8 личностей, которые приходят на интервью

Level of difficultyEasy
Reading time8 min
Views58K

Сейчас я активно нанимаю ПМ-ов и на собеседования приходят совершенно разные кандидаты. Половина из них — зумеры. Если описать этот тип соискателя через призму характеров моих любимых персонажей, то это был бы Крош. 

В статье поделюсь статистикой с сотни собеседований и расскажу, почему Ёжик никогда не уходит без оффера, в чём вы должны соответствовать Совунье, чтобы взять её на работу, и почему в моей команде нет Кар-Карыча. А Крош есть.

Читать далее

Модель Кано: как отличить «Вау!» от обязательного. Практическое руководство по приоритизации фич

Reading time8 min
Views2.6K

Привет, Хабр! Меня зовут Тигран Басеян и я — руководитель MTS Link Доски, CEO geekz.ru, развиваю российскую методологию управления ИТ в организациях РИТМ, преподаватель ВШЭ и автор телеграм-канала Black Product Owner (Чёрный продакт), где рассказываю о продакстве, менеджменте и стартапах. В индустрии уже больше 15 лет. Руководил различными технологическими командами и продуктами, в том числе высоконагруженными.

И раньше я никогда правильно не использовал модель Кано. Это метод, который  появился в Японии в 1980-х годах и используется для измерения эмоциональной реакции клиентов на отдельные функции.

Если бы в 2017 году, когда я работал над платформенным продуктом, я применил модель Кано грамотно, проект мог бы обойтись без лишних затрат времени и нервов. Но тогда мне казалось, что Кано — это какая-то скучная теория для учебников по менеджменту.

Спойлер: это не так. Модель Кано — один из самых мощных инструментов для управления ожиданиями пользователей и для приоритизации фич. Главное — уметь ей пользоваться на практике, а не просто пересказывать графики из Википедии.

В этой статье я разложу всё по полочкам: какие бывают категории фич, почему пользователи однажды перестают радоваться вашим «фишкам» и как построить опрос, чтобы Кано действительно заработала в ваших продуктах. Без воды — только факты, кейсы и практические советы.

Читать далее

Краткий обзор платформы данных Т-Банка

Level of difficultyMedium
Reading time17 min
Views9.4K

Привет, Хабр! Меня зовут Дима Пичугин, и уже семь лет я занимаюсь различными компонентами T Data Platform. Эта статья — результат внутреннего аудита наших инструментов, но я подумал, что она может быть интересна не только нашим аудиторам, но и более широкой аудитории. Enjoy!

Платформа данных в Т-Банке существует более 18 лет и за это время прошла значительный путь эволюции. Она помогает более чем 17 тысячам пользователей извлекать из данных ценную информацию для бизнеса. За последние годы подходы к работе с данными заметно изменились: индустрия постепенно отходила от классических концепций хранилищ данных по Инмону и Кимбеллу в сторону Data Lake, а затем — Lakehouse-архитектур. Вместе с отраслью менялась и наша платформа.

В статье расскажу, как трансформировалась T Data Platform за 18 лет развития, и опишу ее текущее устройство — без погружения в технические детали, но с акцентом на общую архитектуру. Для тех, кому интересны отдельные инструменты или решения, оставлю ссылки на подробные материалы и выступления.

Читать далее

Регулярные выражения в Python от простого к сложному. Подробности, примеры, картинки, упражнения

Reading time25 min
Views1.7M

Регулярные выражения в Python от простого к сложному




Решил я давеча моим школьникам дать задачек на регулярные выражения для изучения. А к задачкам нужна какая-нибудь теория. И стал я искать хорошие тексты на русском. Пяток сносных нашёл, но всё не то. Что-то смято, что-то упущено. У этих текстов был не только фатальный недостаток. Мало картинок, мало примеров. И почти нет разумных задач. Ну неужели поиск IP-адреса — это самая частая задача для регулярных выражений? Вот и я думаю, что нет.
Про разницу (?:...) / (...) фиг найдёшь, а без этого знания в некоторых случаях можно только страдать.

Плюс в питоне есть немало регулярных плюшек. Например, re.split может добавлять тот кусок текста, по которому был разрез, в список частей. А в re.sub можно вместо шаблона для замены передать функцию. Это — реальные вещи, которые прямо очень нужны, но никто про это не пишет.
Так и родился этот достаточно многобуквенный материал с подробностями, тонкостями, картинками и задачами.

Надеюсь, вам удастся из него извлечь что-нибудь новое и полезное, даже если вы уже в ладах с регулярками.
Читать дальше →

Тихая сила: как управлять не через контроль, а через влияние

Level of difficultyEasy
Reading time8 min
Views33K

Иногда тебе кажется, что ты обычный член команды, такой же винтик системы, как и все. Вы так же общаетесь с командой, у вас есть свои приколы, иногда очень жесткие. Ты так же ходишь с ребятами в бар и на квизы, часто скидываете друг другу мемы. Но однажды ты слышишь:
 — Марина так сказала. Как самый важный довод при споре по рабочим вопросам, истина в последней инстанции. И тебя это пугает, потому что ты тоже человек, ты не хочешь, что бы они делали так, как ты сказала, а что бы сами подумали и нашли правильное решение. И тут до тебя наконец‑то доходит что твоем мнение не одно из равных, а самое значимое. И теперь тебе нужно очень внимательно следить за тем, что ты говоришь и насколько хорошо люди тебя поняли.

Читать далее

MVP по «умному» поиску данных

Level of difficultyMedium
Reading time11 min
Views1.8K

Всем привет, меня зовут Александр, я аналитик в Альфа-Банке. Совместно с командой мы разрабатываем и развиваем платформу для дата-инженеров (DE) и дата-саентистов (DS), именуемую Feature Store. Она даёт возможность коллегам работать с большими данными и упрощает бюрократию жизненного цикла создания ETL и ввода моделей в промышленную эксплуатацию.

Но хотелось бы улучшить процесс по поиску данных в ней, так как объёмы информации стремительно растут.

Классический поиск выдаёт результаты по точному совпадению, и это не самый удобный вариант, когда данных много. Поэтому нужную информацию, если ты точно не знаешь как найти, невозможно отыскать. Озадачившись этой проблемой, я решил сделать MVP «умного» поиска, который позволяет искать данные/фичи/поля не по точному совпадению, а с учётом смысла.

Надеюсь, данная статья поможет показать и пролить свет на вопрос — «А как же ещё бывает?»

Читать далее

Как работает метод главных компонент (PCA) на простом примере

Reading time10 min
Views302K


В этой статье я бы хотел рассказать о том, как именно работает метод анализа главных компонент (PCA – principal component analysis) с точки зрения интуиции, стоящей за ее математическим аппаратом. Максимально просто, но подробно.
Читать дальше →

Трюки Pandas от RealPython

Reading time15 min
Views12K

К старту флагманского курса по Data Science делимся сокращённым переводом из блога RealPython о трюках с Pandas, материал начинается с конфигурирования запуска библиотеки и заканчиваются примерами работы с операторами и их приоритетом. Затрагивается тема экономии памяти, сжатие фреймов, интроспекция GroupBy через итерацию и другие темы. Подробности, как всегда, под катом.

Читать далее

Указатели в Python: в чём суть?

Reading time15 min
Views167K

Если вы когда-нибудь работали с такими низкоуровневыми языками, как С или С++, то наверняка слышали про указатели. Они позволяют сильно повышать эффективность разных кусков кода. Но также они могут запутывать новичков — и даже опытных разработчиков — и приводить к багам управления памятью. А есть ли указатели в Python, можно их как-то эмулировать?

Указатели широко применяются в С и С++. По сути, это переменные, которые содержат адреса памяти, по которым находятся другие переменные. Чтобы освежить знания об указателях, почитайте этот обзор.

Благодаря этой статье вы лучше поймёте модель объектов в Python и узнаете, почему в этом языке на самом деле не существуют указатели. На случай, если вам понадобится сымитировать поведение указателей, вы научитесь эмулировать их без сопутствующего кошмара управления памятью.
Читать дальше →

В 48 собесах от оффера в Гугл

Level of difficultyMedium
Reading time21 min
Views20K

Здравствуй, хабр! Что-то я давно не писал, отбился от рук, а ведь когда-то мы целый курс машинного обучения на Хабре вели. Расскажу про свой недавний заход по собесам, что спрашивали, какие выводы сделал. Контекст: Applied Machine Learning science (в том числе этот ваш Generative AI), Нидерланды, уровень синьор+. Я долго получал отказы, старался не унывать и в конце таки нашил лычку Staff GenAI Field Solutions Architect в Google Cloud. Тут поделюсь статистикой собесов, полезными ресурсами и, конечно, всякими советами.

Читать далее

Бутстрап и доверительные интервалы: от теории к практике на Python

Level of difficultyMedium
Reading time12 min
Views9.5K

Привет!

Бутстрап — мощный статистический метод, позволяющий оценить распределение выборочных статистик. В Data Science бутстрап применяется в большом спектре задач.

В статье я постараюсь понятным языком рассказать про особенности, ограничения и сценарии применения бутстрапа, а также я познакомлю вас с различными схемами бутстрапа: Эфронов интервал (простой, но дает смещенную оценку), интервал Холла (несмещенный за счет центрирования) и t-процентильный интервал (несмещенный, шире других, лучшая асимптотика).

Более того, в статье мы реализуем функцию бутстрапа на Python и проведем небольшой эксперимент с помощью разных схем бутстрапирования.

Читать далее

Как не заблудиться в четырех соснах: выбираем способ найти причинно-следственную связь без экспериментов

Level of difficultyMedium
Reading time7 min
Views3.4K

Привет, я Паша - продуктовый аналитик во ВкусВилле, занимаюсь аналитикой коммуникаций. По долгу продукта касаюсь многих частей внутри мобильного приложения и почти всегда хочется знать как фактор X влияет на пользователя. Тут все вспомнили про AB тесты, но они не всегда возможны, поэтому в статье рассмотрим 4 метода исследований, которые помогут понять что делать, если выводы нужны, а рандомизации не случилось. 

Для нашей цели нужны квази эксперименты – это исследования ситуаций, когда выборка разделилась на группы по естественным (не обязательно случайным) причинам. В этой статье не будем детально разбирать математику и новейшие достижения методов, но посмотрим на идеи, кейсы и специфические предпосылки. 

Будет полезно тем, кто на вопросы вида “мы год назад запускали фичу, стало лучше?” не задумываясь говорит, что сказать нельзя. 

Читать далее

Лидерство в команде разработки

Level of difficultyEasy
Reading time9 min
Views5.1K

Привет! Я Павел Каравашкин, руковожу разработкой платформы T-API в Т-Банке. В нашей команде девять человек, которые пишут на разных языках и живут в разных городах, у них разный возраст и профессиональный опыт.

Еще я лидер профессии «системный анализ» в Т-Бизнесе и помогаю развивать сообщество специалистов в нашей компании. На одном из предыдущих мест работы мне удалось открыть отдел системного анализа с нуля и за год нанять 12 человек.

В статье хочу поделиться советами, которые помогают мне управлять командой и развивать лидерство у технических специалистов разного профиля.

Читать далее

Как растут data science-инженеры и что советуют синьоры, чтобы развиваться быстрее

Level of difficultyEasy
Reading time8 min
Views10K

Привет, на связи Светлана Морозова и Сергей Кляхандлер из команды data science Авито. Рассказываем, как у нас устроен рост сотрудников, поговорим и о особенностях этого процесса в big tech-компаниях в целом и в Авито в частности. Статья будет интересна всем, кто хочет развиваться в профессии или просто ищет работу в направлении data science.

Читать далее

T-Lite и T-Pro – открытые русскоязычные опенсорс-модели на 7 и на 32 млрд параметров

Level of difficultyHard
Reading time9 min
Views42K

Всем привет! Я Толя Потапов, MLE в Т-Банке. Руковожу командой разработки фундаментальных моделей. 

Почти два года мы плотно работаем с LLM, развиваем продукты на базе больших языковых моделей. Например, Вселенную ассистентов, которая входит Gen-T — семейство собственных специализированных языковых моделей. 

Сегодня мы открываем две большие языковые модели — T-Lite и T-Pro, над которыми работали последние полгода, их можно скачать с huggingface. Они распространяются под лицензией Apache 2.0. Для адаптации моделей под бизнес-кейсы рекомендуем воспользоваться нашей библиотекой turbo-alignment с инструментами для полного цикла работы над LLM. 

Читать далее

Моя шпаргалка по pandas

Reading time8 min
Views752K
Один преподаватель как-то сказал мне, что если поискать аналог программиста в мире книг, то окажется, что программисты похожи не на учебники, а на оглавления учебников: они не помнят всего, но знают, как быстро найти то, что им нужно.

Возможность быстро находить описания функций позволяет программистам продуктивно работать, не теряя состояния потока. Поэтому я и создал представленную здесь шпаргалку по pandas и включил в неё то, чем пользуюсь каждый день, создавая веб-приложения и модели машинного обучения.



Нельзя сказать, что это — исчерпывающий список возможностей pandas, но сюда входят функции, которыми я пользуюсь чаще всего, примеры и мои пояснения по поводу ситуаций, в которых эти функции особенно полезны.
Читать дальше →
1
23 ...

Information

Rating
Does not participate
Works in
Registered
Activity