Articles / Bookmarks / Profile of Alexey

Алексей Ярыгин @Alexey_Yarygin^{read⁠-⁠only}

Аналитик

Profile Bookmarks 136

Efaldgent Apr 26 2022 at 14:00

Причинно-следственный анализ в машинном обучении

15 min

24K

Big Data*Machine learning*Open Data Science corporate blogPopular scienceArtificial Intelligence

Что появилось первым: курица или яйцо?
Статистики давно уже нашли ответ на этот вопрос.
Причем несколько раз.
И каждый раз ответ был разным.

А если серьезно, то для машинного обучения становятся все более актуальными вопросы причинно-следственного анализа (causal inference) - когда главной целью моделирования является не прогноз и его качество, а то, как мы можем принимать решения на основе нашего алгоритма. И как это повлияет на мир, в котором эта модель будет действовать. Сделает ли модель его лучше, чем он был? Или наоборот.

Под катом я расскажу о причинно-следственном анализе, его ключевых методах и применении в машинном обучении. В следующей статье побеседуем о ключевых трендах в развитии методов причинно-следственного анализа в машинном обучении в 2020-2021 гг.

+24

tintobro Apr 26 2022 at 14:50

Пользователь и инструменты его исследования: CJM, Blueprint, JTBD, jobs story, Карта эмпатий, User story

10 min

14K

Product Management*

Сегодня в статье попробуем привести в порядок то, зачем мы используем разные инструменты для исследования пользователей. Что такое магический JTBD и зачем он вообще нужен?

Начало начал. Разберемся с терминологией

Как в любой истории у нас есть главный герой, давайте называть его Актор, от слова Акт. В просторечье Пользователь. Методологии так или иначе пытаются проработать что-то вокруг этого самого Пользователя/актора.

Небольшое отступление, чтобы лучше понять суть терминов:

Такс, что там нового говорят про JTBD?

Statzilla Apr 13 2022 at 13:41

Как посчитать ROMI и оптимизировать бюджет, если сквозная аналитика не работает?

4 min

3.1K

Big Data*Machine learning*Internet marketing*Display advertising*Contextual advertising*

From sandbox

Marketing Mix Modeling - это метод, который позволяет проанализировать вашу маркетинговую стратегию при использовании вами нескольких рекламных каналов. Цель МММ - количественно оценить влияние отдельных рекламных каналов на продажи и составить модель оптимального бюджета на каждый канал для максимизации ROI.

При этом помимо данных об используемых рекламных каналах и проведенных маркетинговых кампаниях также учитываются такие факторы как сезонность, макроэкономические показатели, цена продаж и т д - всё, что влияет на продажи без учета маркетинга. При анализе моделируется отложенный эффект рекламных кампаний и снижение этого эффекта во времени.

nnazarov Mar 20 at 12:30

А/Б тестирование на маленьких выборках. Построение собственного критерия

8 min

8.2K

Python*Mathematics*Statistics in ITX5 Tech corporate blog

Хабр, привет! Сегодня рассмотрим кейс, в котором классические статистические критерии не работают, и разберёмся, почему так происходит. Научимся строить свои собственные критерии по историческим данным. Обсудим плюсы и минусы такого подхода.

+14

Product_Analyst Feb 5 at 01:59

План самообразования по профессии продуктового аналитика

12 min

17K

Mobile App Analytics*Product Management*

Roadmap

Привет, я работаю в сфере уже около 10 лет, преимущественно по специальности чистой продуктовой аналитики. Иногда я оглядываюсь назад и думаю — с текущим пониманием что и как устроено в работе, как бы я выстраивал свой процесс обучения с нуля?

Эта статья — мои мысли на эту тему. В каком порядке и какие материалы впитывать, чтобы потом комфортно себя чувствовать в любой продуктовой компании.

Из челленджей — все материалы должны быть бесплатными, или достаточно дешёвыми, чтобы была возможность бросить учёбу на пол пути (ну не зашло, бывает) и не жалеть о потраченных деньгах на мега-курс от %big_tech_name%.

В этой статье я попробую собрать план обучения профессии, как бы я вкатывался сейчас, что бы изучал раньше, что позже, на что бы потратил больше сил и времени и т.д. У некоторых пунктов будут аналоги, можно выбрать на свой вкус без потерь качества.

По итогам всех усвоенных материалов, это будет уровень знаний примерно middle+, но фактически, грейды зависят больше от опыта (особенно в программировании), чем от объёма знаний.

И последнее — я тут не пытаюсь продать курсы, поэтому обещать что будет весело, интересно и быстро, а потом вас наймут на 300к/наносек я не буду. Будет долго, местами сложно, иногда душно, пару раз вы захотите слиться и бросить эту идею. Но… нет, тут не будет но 🙂

Ладно, пожалуй хватит предисловия, поехали.

+21

OlegFilonov Mar 5 at 17:07

Как я ad-hoc задачи аналитиков автоматизировал

Easy

6 min

6.6K

T-Bank corporate blogProduct Management*Personnel Management*

Case

Лид продуктовой аналитики о том, как спасал свою команду от ad-hoc-задач, что получилось, а что нет и как нужно было действовать. История внедрения изменений в команде аналитики.

+13

ElzesserE Feb 28 at 20:19

Когнитивные искажения у аналитика данных: найти и починить

Medium

7 min

5.7K

System Analysis and Design*Studying in ITIT careerData Engineering*Яндекс Практикум corporate blog

Opinion

df.head() — с этого момента вы начинаете работу с данными и полагаетесь на увиденное? Я тоже. Так мы наступаем в феномен what you see is all there is («что вижу, то пою, что не вижу, не спою» — вольный перевод). У ограниченного набора данных, возможно, отсортированного, мы видим ещё более ограниченный набор данных. Мы сами этого не понимаем, но дальше нашу работу строим только на увиденном.

Как починить себя? Принять как данность, что все подвержены когнитивным искажениям. От них нельзя избавиться полностью. Можно «пойти на компромисс: научиться распознавать ситуации, в которых возможны ошибки. И стараться избегать серьёзных ошибок, если ставки высоки». В этой фразе скрыт рецепт для нас: понимаем, где происходят значимые действия во время работы с данными → пробуем распознать «ситуации, в которых возможны ошибки» → придумываем, как можно избежать этих ошибок.

Я работаю с данными почти 20 лет, и из них семь набирала и растила джунов, три — наставник в Практикуме на курсе «Аналитик данных». По работам начинающих аналитиков (чужие ошибки проще увидеть, чем свои) я пробовала понять, где происходят «значимые действия» и «возможны ошибки» во время предобработки данных. В этой статье предложу свои варианты борьбы.

kucev Jul 24 2023 at 12:57

Data Engineering: концепции, процессы и инструменты

Medium

16 min

6.7K

System Analysis and Design*Data Mining*Data storage*Machine learning*Data Engineering*

Review

Translation

Data science, машинное обучение и искусственный интеллект — не просто громкие слова: многие организации стремятся их освоить. Но прежде чем создавать интеллектуальные продукты, необходимо собрать и подготовить данные, которые станут топливом для ИИ. Фундамент для аналитических проектов закладывает специальная дисциплина — data engineering. Связанные с ней задачи занимают первые три слоя иерархии потребностей data science, предложенной Моникой Рогати.

Слои data science для реализации ИИ.

В этой статье мы рассмотрим процесс data engineering, расскажем о его базовых компонентах и инструментах, опишем роль дата-инженера.

Читать дальше →

honyaki Nov 23 2021 at 19:46

Кто такой и чем занимается Data QA Engineer

8 min

12K

IT systems testing*Skillfactory corporate blogIT careerReading roomData Engineering*

Translation

Автор этой статьи в блоге Stack Overflow — Data QA Engineer, то есть инженер обеспечения качества данных. По его словам, у него есть друзья, занятые в сфере технологий и разработки ПО, которые не совсем понимают, что такое тестирование данных, зачем оно нужно и как оно вписывается в мир программирования.

Это вполне объяснимо: наука о данных — совершенно новая область, и даже те, кто работает с данными каждый день, должны оставаться открытыми ко всем изменениям в работе. О профессии Data QA Engineer рассказываем к старту курса по Data Engineering.

yuryemeliyanov May 30 2015 at 14:45

Data Lake – от теории к практике. Сказ про то, как мы строим ETL на Hadoop

6 min

91K

SQL*T-Bank corporate blogBig Data*Hadoop*

В этой статье я хочу рассказать про следующий этап развития DWH в Тинькофф Банке и о переходе от парадигмы классического DWH к парадигме Data Lake.

Свой рассказ я хочу начать с такой вот веселой картинки:

Да, ещё несколько лет назад картинка была актуальной. Но сейчас, с развитием технологий, входящих в эко-систему Hadoop и развитием ETL платформ правомерно утверждать то, что ETL на Hadoop не просто существует но и то, что ETL на Hadoop ждет большое будущее. Далее в статье расскажу про то, как мы строим ETL на Hadoop в Тинькофф Банке.

Читать дальше →

+15

kot_mapku3 Aug 29 2018 at 16:16

Асинхронный Python: различные формы конкурентности

8 min

131K

Python*Programming*Learning languages

Recovery Mode

Translation

С появлением Python 3 довольно много шума об “асинхронности” и “параллелизме”, можно полагать, что Python недавно представил эти возможности/концепции. Но это не так. Мы много раз использовали эти операции. Кроме того, новички могут подумать, что asyncio является единственным или лучшим способом воссоздать и использовать асинхронные/параллельные операции. В этой статье мы рассмотрим различные способы достижения параллелизма, их преимущества и недостатки.

Читать дальше →

+19

MedBrat777 Jun 25 2018 at 09:48

А нам все «вертикально» — СУБД Vertica

8 min

49K

Сбер corporate blogDatabase Administration*Big Data*Data storage*Data storages*

Привет! Меня зовут Сергей, я работаю главным инженером в Сбертехе. В ИТ-сфере я примерно 10 лет, из которых 6 занимаюсь базами данных, ETL-процессами, DWH и всем, что связано с данными. В этом материале я расскажу о Vertica — аналитической и по-настоящему колоночной СУБД, которая эффективно сжимает, хранит, быстро отдает данные и отлично подходит в качестве big data решения.

Читать дальше →

+16

esfedoseev May 23 2023 at 13:16

Что такое Self-Service BI и зачем он нужен?

Medium

3 min

6.1K

System Analysis and Design*Big Data*Data visualization*

Big data season

From sandbox

Habr, привет! Меня зовут Женя, и в настоящий момент я лидер направления Self-Service BI в крупном FMCG. Очень хочется начать делиться с вами своими знаниями и наработками, поэтому в рамках первой небольшой статьи решил рассказать вам максимально просто о том, а что же такое Self-Service BI. Поэтому давайте познакомимся с основными подходами к построению Business Intelligence и поймем, почему важен процесс Self-Service.

+13

vasiljevserg May 15 2023 at 13:28

Сильный интеллект, что это значит?

Medium

6 min

4.3K

Artificial Intelligence

Opinion

Сейчас всё больше говорят об опасности нейронных сетей. И чем сильнее они становятся, тем больше эта опасность осознаётся. До такой степени, что Илон Маск призвал приостановить разработку и обучение нейросетей.

А есть ли альтернатива нейронным сетям в создании систем ИИ? Краткое описание одной из них представлено здесь.

Beeline_tech May 15 2023 at 14:29

Особенности прогнозирования продаж и оттока в условиях неопределенности

14 min

Data Mining*Algorithms*Machine learning*Research and forecasts in IT*билайн corporate blog

Case

Бизнес в современных условиях развивается стремительно. На динамику продаж, доходов, расходов оказывает влияние множество различных факторов, как внутренних (инвестиции, стимулирование отдельных каналов продаж, исследование рынка и т.п.), так и внешних – различные непредвиденные обстоятельства, вроде, пандемий, стихийных бедствий, исторические событий.

Такие общемировые события вносят свои коррективы в развитие бизнеса и оказывают влияние как в краткосрочном, так и в долгосрочном периоде. Для аналитиков подобные внешние факторы оказываются часто более значимыми, чем внутренние, поскольку наступление данных событий всегда означает крушение привычных тенденций. А это осложняет прогнозирование, заставляет отказываться от привычных моделей и искать новые подходы.

С 2015 по 2021 годы я работала в дирекции по продажам конвергентных продуктов Билайн аналитиком, можно сказать, «на все руки» – аналитиком продаж, продуктовым, финансовым. В мою зону ответственности входили операционная и ежемесячная отчетность, расчет планов продаж на квартал, бюджетирование расходов на продажи, расчеты кейсов по инициативам – для всего этого требовалось моделирование основных KPI развития бизнеса.

Меня зовут Нина Фещенко, с 2022 года в департаменте аналитики розничного бизнеса (B2C) я в большей степени занимаюсь работой с данными и BI-аналитикой, но без моделирования тоже не обходится. В этом посте я опишу свой опыт построения модели прогнозирования продаж конвергентных продуктов (2019-2021), а также прогнозирования оттока мобильных абонентов в 2022 году. Расскажу, как работала модель в относительно стабильный период до 2020-го года, и какие корректировки пришлось внести впоследствии.

+14

exwill Apr 25 2023 at 14:49

Почему реляционные базы победили

Easy

4 min

14K

Database Administration*OTUS corporate blogHistory of IT

Opinion

Когда-то давно идея хранить данные в виде таблиц была скорее экзотикой, чем мейнстримом. Вспомним, как ей удалось за короткое время отодвинуть все прочие концепции на второй план

polina_ok Nov 8 2022 at 11:12

Как подготовить и провести A/B-тестирование. Базовый роадмэп для новичков

12 min

21K

Machine learning*GlowByte corporate blog

Хабр, привет!

Меня зовут Полина Окунева, я работаю ведущим аналитиком в компании GlowByte в команде Advanced Analytics, а также автор курса по A/B тестам. Сегодня в статье я предлагаю интересующимся небольшой гайд по A/B-тестам.

Когда я начала погружаться в тему A/B-тестирования пару лет назад, меня кидало из стороны в сторону: то перечитывала фундаментальные учебники по статистике, то переключалась на статьи о конкретных методиках. Но во всем этом многообразии материалов для меня на тот момент был огромный недостаток — я не могла собрать все в кучу и разобраться, а как же проводить-то этот A/B-тест? Я знала, что есть разные виды тестов, множественное тестирование и поправки, полезный и популярный Bootstrap… Но как все это соединить было не очевидно. Хотелось понять, какие этапы есть у A/B-тестирования и когда на что обращать внимание. Хотя бы какие термины гуглить и когда.

Сегодня я представляю вашему вниманию пазл, который сложился в моей голове по итогу плотной работы в этой теме. Я не претендую на истину в последней инстанции — шаги могут и должны(!) быть адаптированы конкретно под вашу задачу. Но если вы только начинаете входить в сферу A/B-тестирования, надеюсь, статья будет очень полезна. Я не буду подробно останавливаться на каждом понятии. Моя цель — обозначить технические этапы и показать новичкам модельную картину A/B-тестирования.

+13

Autechre Apr 5 2023 at 18:12

Предварительная обработка данных с помощью библиотеки Pandas (Задача)

Easy

5 min

14K

Python*Data recovery*

From sandbox

В современном мире большинство бизнес-процессов связаны с обработкой больших объемов данных, получаемых от различных источников. Часто эти данные содержат ошибки, дубликаты и пропуски, что может привести к неверным выводам и решениям. Одним из инструментов, которые позволяют очистить и преобразовать данные, является библиотека pandas для языка программирования Python.

Я собираюсь рассмотреть задачу по очистке данных с помощью pandas. Для этого возьмем данные, содержащие дубликаты строк, неправильные типы данных, пропуски и отрицательные значения. Затем я буду использовать функциональные возможности pandas для очистки и преобразования этих данных в форму, пригодную для дальнейшего анализа.

Предположим, у вас есть набор данных, содержащий информацию о продажах компании за последние несколько лет. Но данные не очень чистые, и вы заметили, что есть некоторые проблемы с форматированием и некоторые строки содержат ошибки.

Задача: Необходимо очистить данные о продажах компании за последние несколько лет с помощью библиотеки Pandas.

teplovden Aug 18 2022 at 15:39

Как оценивать эффективность продуктовых команд. Часть 1: процессные метрики

5 min

11K

Development Management*Project management*Agile*Product Management*Liga Stavok corporate blog

Recovery Mode

Хабр, привет! Я Денис Теплов, Директор по продукту в Лиге Ставок.

В нашей компании продуктовая структура представляет из себя 9 продуктовых end-to-end команд общей численностью ~130 человек, работающих над развитием одного продукта. Каждая из команд укомплектована всеми необходимыми компетенциями. Все живут в одном релизном процессе, делают задачи из одного бэклога (и проекта в Jira), и следят за одними метриками в Amplitude.

В условиях такого тесного взаимодействия естественным образом возникает вопрос: А как оценивать их эффективность?

Об этом мы и поговорим.

yakoeka Feb 5 2021 at 17:10

UI-элементы и жесты в мобильных приложениях

4 min

226K

Development of mobile applications*Mobile applications testing*Mobile applications design*Юла corporate blog

Technotext 2021

Хабр, привет! Вы часто задумывались, обнаружив баг в мобильном приложении и заводя его в баг-трекер, как правильно назвать ту или иную часть интерфейса или действие, которые привели к ошибке? Или читаешь описание задачи и задумываешься, как должен выглядеть какой-то экран и что должно появиться при тапе на кнопку. А может, вы описываете продуктовые задачи и не всегда чувствуете себя на одной волне с дизайнерами и разработчиками, которые иногда начинают говорить на эльфийском? Чтобы исключить недопонимание, неясности и вопросы, мы решили создать перечень наиболее распространенных элементов и жестов и показать их на примере Юлы.

А вы знали, как называется «та самая выезжающая снизу экрана шторка» или несколько (три и более) тапов подряд? Ответы на эти вопросы и названия многих других элементов читайте в нашей статье.

Читать дальше →

+19

2 3 ...

6 7