Articles / Bookmarks / Profile of Ananiev

Генрих @Ananiev_Genrih

аналитика и визуализация данных

Profile Publications 7 Comments 124 Bookmarks 122

X5Tech Aug 31 2022 at 18:47

Оптимизационные задачи в ритейле

6 min

7.9K

Python *Mathematics *X5 Tech corporate blog

Привет, Habr! На связи отдел аналитики данных X5 Tech.

Сегодня мы поговорим об очень интересном разделе прикладной математики — оптимизации.

+13

muxeu Dec 28 2023 at 13:31

Многорукие бандиты в задаче ритейла

9 min

3.1K

Algorithms *Mathematics *Machine learning *X5 Tech corporate blog

Review

В настоящее время набирают популярность модели Reinforcement Learning для решения прикладных задач бизнеса. В этой статье мы рассмотрим подмножество этих моделей, а именно многоруких бандитов (multi-armed bandits). Также мы:

- обсудим, какие задачи теоретически могут быть решены с помощью этих моделей;
- рассмотрим некоторые популярные реализации моделей многоруких бандитов;
- опишем симулятор ценообразования, применим эти алгоритмы в нём и сравним их эффективность.

beeline_cloud Apr 10 at 20:13

Векторные СУБД и другие инструменты для разработки ML-моделей

Medium

6 min

High performance *Data Mining *Data storage *Machine learning *beeline cloud corporate blog

Review

На фоне развития генеративных и больших языковых моделей набирают обороты векторные базы данных. В прошлый раз в блоге beeline cloud мы обсудили, насколько этот тренд устойчив, а также предложили несколько книг для желающих погрузиться в тему. Сегодня же мы собрали компактную подборку открытых СУБД и поисковых движков, способных помочь в разработке систем ИИ. Обсуждаем такие инструменты, как Lantern, LanceDB, CozoDB, ArcadeDB, Dart Vector DB, Marqo и Orama.

NechkaP Apr 3 at 21:02

Парадоксы в данных, и почему визуализация бывает необходима

Easy

6 min

7.2K

Mathematics *Data visualization *Statistics in IT

В этой заметке я хочу разобрать несколько «парадоксов» в данных, о которых полезно знать как начинающему аналитику данных, так и любому человеку, кто не хочет быть введенным в заблуждение некорректными статистическими выводами.

За рассматриваемыми примерами не кроется сложной математики помимо базовых свойств выборки (таких, как среднее арифметическое и дисперсия), зато такие кейсы могут встретиться и на собеседовании, и в жизни.

Погнали!

+40

AlexMFL Jul 2 2020 at 11:56

FAISS: Быстрый поиск лиц и клонов на многомиллионных данных

14 min

30K

Python *Big Data *Machine learning *OKKAM Group corporate blog

Technotext 2020

Однажды в преддверии клиентской конференции, которую ежегодно проводит группа DAN, мы размышляли над тем, что интересного можно придумать, чтобы у наших партнеров и клиентов остались приятные впечатления и воспоминания о мероприятии. Мы решили разобрать архив из тысяч фотографий с этой конференции и нескольких прошлых (а всего их к тому моменту было 18): человек отправляет нам свою фотографию, а мы ему через пару секунд отправляем подборку фотографий с ним за несколько лет из наших архивов.

Велосипед мы не придумывали, взяли всем известную библиотеку dlib и получили эмбеддинги (векторные представления) каждого лица.

Добавили Telegram-бота для удобства, и всё было отлично. С точки зрения алгоритмов распознавания лиц всё работало на ура, но конференция завершилась, а расставаться с опробованными технологиями не хотелось. От нескольких тысяч лиц хотелось перейти к сотням миллионов, но конкретной бизнес-задачи у нас не было. Через некоторое время у наших коллег появилась задача, которая требовала работы с такими большими объемами данных.

Читать дальше →

+14

Newchronik Nov 10 2020 at 15:01

Умная нормализация данных

8 min

94K

Python *Algorithms *Machine learning *Artificial Intelligence Data Engineering *

From sandbox

Эта статья появилась по нескольким причинам.

Во-первых, в подавляющем большинстве книг, интернет-ресурсов и уроков по Data Science нюансы, изъяны разных типов нормализации данных и их причины либо не рассматриваются вообще, либо упоминаются лишь мельком и без раскрытия сути.

Во-вторых, имеет место «слепое» использование, например, стандартизации для наборов с большим количеством признаков — “чтобы для всех одинаково”. Особенно у новичков (сам был таким же). На первый взгляд ничего страшного. Но при детальном рассмотрении может выясниться, что какие-то признаки были неосознанно поставлены в привилегированное положение и стали влиять на результат значительно сильнее, чем должны.

И, в-третьих, мне всегда хотелось получить универсальный метод учитывающий проблемные места.

Читать дальше →

+19

Dreamastiy Jul 9 2019 at 11:50

How do you choose products in stores?

4 min

1.4K

Data Mining *Machine learning *SAS corporate blog Social networks and communities

Translation

The most important single ingredient in the formula of success is knowing how to get along with people. Theodore Roosevelt

In the previous article I tried to cover the basics of pricing analytics. Now I'd like to talk about something more interesting.

Have you ever thought about why you choose certain products in stores, why you prefer them to other similar ones? Many shopping trips are spontaneous, so it's probably impossible to give a clear answer for all the times you go shopping. But the general idea is obvious: you go shopping for a specific reason (to get food, a gadget, for entertainment, to play blackjack). In this article I'm going to use available data from grocery retailers to talk about how a set of basic logical assumptions and community analysis can help us determine the way customers choose products.

Dreamastiy Sep 27 2018 at 12:00

Оптимизация цен в оффлайн ритейле

8 min

9.1K

Machine learning *Business Models *SAS corporate blog

Данная статья открывает цикл, посвященный розничной торговле. Идею использования аналитики в ритейле можно изобразить в виде вот такого маркетингового круга:

Основная идея, на первый взгляд, бесполезной картинки – показать, что аналитика позволяет предсказать последствия принятия тех или иных бизнес решений, основываясь на последующем изменении покупательского спроса. И чем лучше мы понимаем спрос, агрегируя информацию из разных каналов, тем лучше мы будем предсказывать результат. Короче говоря, картинка идеального мира, и каждый идет к этому миру своим путем.

Сегодня речь пойдет об аналитике ценообразования в офлайн ритейле.

Читать дальше →

+11

marieee Nov 16 2022 at 12:52

Как построить прогноз спроса и не потерять голову

13 min

13K

Algorithms *Big Data *Mobile App Analytics *Data Engineering *Samokat.tech corporate blog

Всем привет! Представьте себе ситуацию: ваша уютная маленькая команда Data Science занимается прогнозированием спроса для пары десятков дарксторов с помощью какого-нибудь коробочного Prophet. И в один прекрасный день к вам приходит бизнес. Бизнес садится, закидывает ногу на ногу, закуривает сигару и говорит:

«Мы хотим максимально автоматизировать закупки. Нам нужно, чтобы вы умели строить прогноз по всем товарам, старым и новым, для всех дарксторов, старых и новых. А их будет много, их будут сотни, тысячи, миллионы. А ещё у нас будет миллион видов скидок и разные типы ценообразования, и ещё куча промо-механик и конкурсов интересных. Мы хотим, чтобы прогноз обязательно адекватно на всё это реагировал». (с) Типичный Бизнес

Хорошо, думаем мы, кажется, что это звучит нетрудно…

С этой задачи начинается моя история о прогнозе спроса в Самокате. Меня зовут Мария Суртаева, я Data Scientist и расскажу о концепции прогноза спроса, его практических задачах и роли градиентного бустинга.

+27

noviqohabr Mar 31 2023 at 18:27

Вкатываемся в ангельский без репетиторов

Easy

4 min

18K

Learning languages

From sandbox

Привет, {{ username }}!

Добро пожаловать в очередную статью про изучение английского.

Постараюсь емко обобщить свой опыт самостоятельного изучении языка от A1 до B2 за 1-2 года. Информация релеванта для технарей 25+ лет, однако подойдет для широкого круга интересующихся.

Мнение автора субъективно. Представленные материалы, инструменты и best practices дадут вам базовое знание языка, однако не смогут подготовить к собеседованию, IELTS/TOEFL, чтению классической литературы и т.п.

Вкатиться

+12

m1rko Apr 2 2019 at 21:12

Word2vec в картинках

14 min

132K

Machine learning *

Translation

«Во всякой вещи скрыт узор, который есть часть Вселенной. В нём есть симметрия, элегантность и красота — качества, которые прежде всего схватывает всякий истинный художник, запечатлевающий мир. Этот узор можно уловить в смене сезонов, в том, как струится по склону песок, в перепутанных ветвях креозотового кустарника, в узоре его листа.

Мы пытаемся скопировать этот узор в нашей жизни и нашем обществе и потому любим ритм, песню, танец, различные радующие и утешающие нас формы. Однако можно разглядеть и опасность, таящуюся в поиске абсолютного совершенства, ибо очевидно, что совершенный узор — неизменен. И, приближаясь к совершенству, всё сущее идёт к смерти» — Дюна (1965)

Я считаю, что концепция вложений (embeddings) — одна из самых замечательных идей в машинном обучении. Если вы когда-нибудь использовали Siri, Google Assistant, Alexa, Google Translate или даже клавиатуру смартфона с предсказанием следующего слова, то уже работали с моделью обработки естественного языка на основе вложений. За последние десятилетия произошло значительное развитие этой концепции для нейронных моделей (последние разработки включают контекстуализированные вложения слов в передовых моделях, таких как BERT и GPT2).

Читать дальше →

+43

StrDA Jul 20 2023 at 10:11

Модели прогнозирования продаж в «Магните»: Легенда об Ансамбле

22 min

6.9K

Algorithms *Big Data *Machine learning *Data Engineering *Magnit Tech corporate blog

Привет, Хабр! ~~Легендарная~~ команда прогнозирования промо сети магазинов «Магнит» снова в эфире. Ранее мы успели рассказать о целях и задачах, которые мы решаем: «Магнитная аномалия: как предсказать продажи промо в ритейле», а также поделиться основными трудностями, с которыми приходится сталкиваться в нашем ~~опасном~~ бизнесе: «Божественная комедия», или Девять кругов прогнозирования промо в «Магните».

Сегодня подробнее расскажем о типах и особенностях используемых нами моделей прогнозирования продаж.

He6puToCTb May 5 2022 at 09:14

«Божественная комедия», или Девять кругов прогнозирования промоспроса в «Магните»

27 min

8.5K

Algorithms *Big Data *Data Engineering *Magnit Tech corporate blog

Привет, Хабр! На связи команда направления прогнозирования промо в «Магните». В предыдущей статье «Магнитная аномалия: как предсказать продажи промо в ритейле» мы дали читателю общее представление о том, чем занимается наша команда. Теперь поговорим о конкретных сложностях и методах их решения, с которыми нам приходится сталкиваться в работе.

Чтобы лучше разобраться во внутренней кухне, предлагаем читателю вместе прогуляться по нашим «девяти кругам прогнозирования промо спроса».

ragequit Nov 2 2018 at 14:50

Прекратите нанимать «эффективных менеджеров». Они не только бесполезны, но и вредны

7 min

232K

Development Management *Personnel Management *Crossover corporate blog

Каждая компания проходит несколько жизненных циклов от момента своего основания до собственной «крышки гроба». Конец у разных компаний разный: кто-то не выдерживает конкуренции с более молодыми и гибкими командами, продукты которых годами не вылазят из состояния ранней беты, но все же являются более успешными, другие — становятся частью более крупных корпораций.

Однако в цикле жизни любой компании есть период взрывного кадрового роста с поиском путей решения этой проблемы. Все вы знаете этот этап. Вот, вчерашний локальный продукт захватывает ощутимую долю рынка, аудитория кратно увеличивается и команда сталкивается с проблемами, о которых даже не подозревала. Как-то незаметно у руководителей отделов появляются «приемные часы» и согласование совещаний через почту, заметно разрастается HR-департамент, а времена, когда весь коллектив мог заказать десяток пицц по акции и устроить пятничные посиделки в офисе остались в прошлом. Владелец компании и по совместительству ее директор набирает 15-20 кило лишнего веса, все меньше появляется в коридорах и кабинетах, и все больше времени проводит в своем кабинете куда ему носит кофе личный секретарь, либо вовсе улетает на Кипр.

Вот как раз в этот момент компанию начинают захватывать «эффективные менеджеры».

Читать дальше →

+109

276

nkxxv Aug 11 2023 at 14:45

Как мы научили ML-модель выбирать товары для акций в СберМаркете и увеличили ROI скидок в 8 раз

7 min

4.1K

Development for e-commerce *Machine learning *Increasing Conversion Rate *Product Management *СберМаркет corporate blog

Case

✏️ Technotext 2023

Всем привет! На связи Никита Губин, менеджер продуктов машинного обучения в СберМаркете. Моя команда занимается внедрением ML-решений в маркетинге. И сегодня хочу рассказать, как нам удалось в 8 раз увеличить ROI одного регулярного промо, которое вы можете увидеть в нашем приложении ежедневно.

Статья будет полезна:

Продактам и менеджерам по маркетингу. Разберем конкретный кейс, эффект от которого мы получаем уже более 6 месяцев. Можно забирать на инсайты и гипотезы 😉

Лидам и инженерам машинного обучения. Расскажу про конкретные алгоритмы при помощи которых получили высокий импакт.

Поехали!

+13

yorko Apr 17 2017 at 14:02

Открытый курс машинного обучения. Тема 8. Обучение на гигабайтах с Vowpal Wabbit

26 min

125K

Python *Data Mining *Algorithms *Machine learning *Open Data Science corporate blog

Всем привет!

Вот мы постепенно и дошли до продвинутых методов машинного обучения. Сегодня обсудим, как вообще подступиться к обучению модели, если данных гигабайты или десятки гигабайт. Обсудим приемы, позволяющие это делать: стохастический градиентный спуск (SGD) и хэширование признаков, посмотрим на примеры применения библиотеки Vowpal Wabbit.

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).

Читать дальше →

+39

nikolay-shikunov Dec 9 2022 at 09:14

ML-модель out-of-stock. Как контролировать доступность 200 млн товаров на рынке e-grocery?

9 min

4.3K

Development for e-commerce *Machine learning *E-commerce management *Increasing Conversion Rate *СберМаркет corporate blog

Привет! На связи Николай Шикунов и Леонид Сидоров из ML-команды СберМаркета. Модель, над которой мы работаем, прогнозирует наличие товаров на полках во всех точках, представленных в нашем приложении, и называется out-of-stock model. В этой статье хотим рассказать, какую проблему бизнеса мы решаем, как эволюционировал наш подход к управлению остатками с 2019 года и к чему мы пришли сейчас.

Product_Analyst Dec 10 2023 at 20:20

Расчет АБ T-тестом

Easy

6 min

Mobile App Analytics *Statistics in IT

Tutorial

Продолжаем нырять в тему АБ и разбираться как считают тесты в большинстве продуктовых команд, где нет отдельного АБ-департамента.

Если ты еще не видел, то глянь вот здесь про дизайн тестов, как принять гипотезу от менеджера и привести ее в формат документации.

Примеры будут на R, но если ты питонист, можешь найти эти темы у меня в ТГ, там версия для Python тоже присутствует.

А теперь про сам тест.

Ales_Ivanov Nov 9 2023 at 13:05

Как жизнь сортирует нас пузырьком, или Почему в ИТ войдут не все

Easy

7 min

53K

Альфа-Банк corporate blog Studying in IT IT career

Opinion

✏️ Technotext 2023

Год назад я написал бы о том, что каждый может стать программистом, нужно лишь верить в себя, и всё получится. Два года назад я бы добавил пару строк про нити Вселенной, Закон притяжения и материальность мыслей.

Три года назад я бы стучался в каждую дверь с непрошенными советами, убеждая, что нужно срочно начать учить Java, вставать в 5 утра и ходить в бассейн, потому что это круто, полезно, а первый пункт еще и принесет высокооплачиваемую профессию.

Что я хочу сказать сегодня? Нет никакой гарантии, что все из вас, взявшиеся за изучение ИТ-профессии, в конце концов получат работу. Если ты остановил свой взгляд на этой статье в поисках решения своей проблемы, всё уже не замечательно. В статье расскажу, почему.

+57

207

X5Tech Sep 12 2022 at 18:00

Кто такой дата-аналитик в X5 Tech

11 min

15K

Big Data *X5 Tech corporate blog

Привет, Хабр! На связи отдел аналитики данных X5 Tech.

По мере развития технологий больших данных в сфере Data Science продолжает оформляться всё большее количество направлений, а уже существующие становятся более обособленными. Тем не менее, до сих пор многие с трудом могут ответить на вопрос: чем занимается дата-аналитик. В одной компании в его сферу обязанностей входит построение отчётов для бизнеса, в другой — дизайн и проведение АБ-экспериментов, а в третьей — подготовка витрин данных. Поэтому вопрос "Так кто же такой этот ваш дата-аналитик?" мы слышим часто и хотим об этом поговорить.

2 3 4 5 6

Оптимизационные задачи в ритейле

Многорукие бандиты в задаче ритейла

Векторные СУБД и другие инструменты для разработки ML-моделей

Парадоксы в данных, и почему визуализация бывает необходима

FAISS: Быстрый поиск лиц и клонов на многомиллионных данных

Умная нормализация данных

How do you choose products in stores?

Оптимизация цен в оффлайн ритейле

Как построить прогноз спроса и не потерять голову

Вкатываемся в ангельский без репетиторов

Word2vec в картинках

Модели прогнозирования продаж в «Магните»: Легенда об Ансамбле

«Божественная комедия», или Девять кругов прогнозирования промоспроса в «Магните»

Прекратите нанимать «эффективных менеджеров». Они не только бесполезны, но и вредны

Как мы научили ML-модель выбирать товары для акций в СберМаркете и увеличили ROI скидок в 8 раз

Открытый курс машинного обучения. Тема 8. Обучение на гигабайтах с Vowpal Wabbit

ML-модель out-of-stock. Как контролировать доступность 200 млн товаров на рынке e-grocery?

Расчет АБ T-тестом

Как жизнь сортирует нас пузырьком, или Почему в ИТ войдут не все

Кто такой дата-аналитик в X5 Tech

Information

Specialization