Статьи / Закладки / Профиль Nastaa / Хабр

Маркианова Анастасия @Nastaa

AI Lead at Flocktory

Профиль Публикации 7Комментарии 15Закладки 29

ivantipow 7 фев в 09:59

Два сапога — пара, а три — уже community: как алгоритмы на графах помогают собирать группы товаров

14 мин

25K

Блог компании Ozon TechData Mining*Алгоритмы*Big Data*Машинное обучение*

Кейс

✏️ Технотекст 2023

Привет, Хабр! Меня зовут Иван Антипов, я занимаюсь ML в команде матчинга Ozon. Наша команда разрабатывает алгоритмы поиска одинаковых товаров на сайте. Это позволяет покупателям находить более выгодные предложения, экономя время и деньги.

В этой статье мы обсудим кластеризацию на графах, задачу выделения сообществ, распад карате-клуба, self-supervised и unsupervised задачи — и как всё это связано с матчингом.

+127

IgnatChuker 26 янв в 18:00

Разговор с директором по ИИ «Яндекс Рекламы» Алексеем Штоколовым о применении ИИ, AI‑тренерах и рутинных задачах

Простой

7 мин

2.6K

Интернет-маркетинг*Медийная реклама*Карьера в IT-индустрииИскусственный интеллектИнтервью

Интервью

В конце ноября 2023 года информационная служба Хабра сходила на #Reconfa — конференцию «Яндекс Рекламы». Неформат для Хабра, но в этот раз на конференции обсуждалось применение ИИ и нейросетей, поэтому я решил сходить, посмотреть. Об этом есть отдельный материал. Там же мне удалось поймать директора по искусственному интеллекту (ИИ) «Яндекс Рекламы» Алексея Штоколова. Я задал ему несколько вопросов про ИИ и использование его в рекламе. Плавно разговор перетёк в обсуждение профессии AI‑тренера и возможности автоматизации рутинных задач. Приятного чтения!

+17

Eth_Moses 30 мая 2023 в 10:48

Контекст, награда, много рук. Многорукие бандиты как метод принятия решений

Средний

12 мин

7.8K

Блог компании Ozon TechАлгоритмы*Математика*Машинное обучение*Статистика в IT

Туториал

Всем привет! В предыдущих двух статьях мы подробно рассмотрели технические и методологические аспекты A/B-тестирования в Ozon. А сейчас время перейти к не менее интересным темам. Так как наша команда занимается не только A/B-тестами, но и в целом развитием методов принятия решений с помощью causal inference, стоит уделить внимание многоруким бандитам.

В этой статье мы рассмотрим методологию и границы применимости классических многоруких и контекстуальных бандитов, а также реализуем контекстного бандита, в основе которого будут сэмплирование Томпсона и нейронная сеть. Ну и, конечно, мы постараемся ответить на главный вопрос: могут ли многорукие бандиты заменить A/B-тесты?

+33

Makoomaky 30 июн 2022 в 17:35

Контекстные многорукие бандиты для рекомендации контента, или Не Бернулли единым

17 мин

11K

Блог компании VKМашинное обучение*Математика*Алгоритмы*Data Mining*

Туториал

Победитель Технотекст 2022

Привет, Хабр! Меня зовут Александр Сухочев, я занимаюсь машинным обучением и руковожу командой рекомендаций и развития сервисов ВКонтакте. Сегодня хочу поделиться нашим опытом и результатами внедрения контекстуальных многоруких бандитов для рекомендации контента на примере игр и стикеров.

Статья состоит из четырёх частей, переходите сразу ко второй или третьей, если знакомы с проблематикой, или читайте по порядку, чтобы составить полную картину:

Введение расскажет о том, какие бывают подходы к построению рекомендательных систем и при чём здесь многорукие бандиты — это раздел для тех, кто раньше не был знаком с данным подходом.

Основные алгоритмы решения задачи многорукого бандита: эпсилон-жадный подход, сэмплирование Томпсона, Upper Confidence Bound.

Алгоритм контекстных многоруких бандитов — о контекстных многоруких бандитах и способе их обучения в частном случае, который мы использовали в нашем решении.

Заметки о практической реализации — о тонкостях внедрения, бизнес-требованиях и результатах на примере сервиса рекомендации игр и стикеров.

+55

slivka_83 27 сен 2022 в 12:05

Dagster | Туториал

9 мин

13K

Data Mining*Big Data*Машинное обучение*Data Engineering*

Туториал

Cезон Data Mining

Dagster — это оркестратор, предназначенный для организации конвейеров обработки данных: ETL, проведение тестов, формирование отчетов, обучение ML-моделей и т.д.

На паре несложных примеров посмотрим как его развернуть, настроить и работать с ним.

muxeu 28 дек 2022 в 20:09

Обзор пакетов SciPy, Pyomo и CVXPY для решения задач условной оптимизации

15 мин

11K

Блог компании X5 TechPython*Алгоритмы*Математика*

Привет, Habr! На связи Михаил Будылин и Антон Денисов, мы работаем в отделе аналитики данных X5 Tech.

В этой статье мы продолжаем говорить про прикладное применение теории оптимизации. В частности, делаем краткий обзор существующих open-source решений в Python, с которыми мы сталкивались на практике. Затрагиваем их различия и особенности, приводим примеры задач, которые можно решать с их помощью.

Karablinov 4 мая 2023 в 10:33

Бустим топ: внедрение ML в ранжирование каталога

Средний

9 мин

5.9K

Блог компании Lamoda TechИскусственный интеллектМашинное обучение*Разработка под e-commerce*Big Data*

Ретроспектива

Привет! Я Артем Караблинов, data scientist направления ранжирования и навигации в Lamoda Tech. В середине 2021 года мы запустили новый алгоритм ранжирования каталога, основанный на машинном обучении. С его помощью мы добились существенного улучшения продуктовых метрик за счет внедрения learning-to-rank подхода машинного обучения.

Это стало прочной основой перед этапом полностью персонализированного каталога, который мы выпустили в начале 2023 года.

В этой статье я расскажу, почему задача ранжирования каталога важна для бизнеса, как мы построили систему ранжирования каталога на основе ML и перешли на нее с эвристик. Здесь не будет хардкор-подробностей про начинку алгоритмов, но для понимания статьи пригодятся базовые знания ML.

+27

kmeans 29 сен 2023 в 10:00

Яндекс Карты открывают крупнейший русскоязычный датасет отзывов на организации

6 мин

11K

Блог компании ЯндексOpen source*Алгоритмы*Открытые данные*Машинное обучение*

Сегодня мы хотим поделиться новостью для всех, кто занимается анализом данных в области лингвистики и машинного обучения. Яндекс выкладывает в открытый доступ крупнейший русскоязычный датасет отзывов об организациях, опубликованных на Яндекс Картах. Это 500 тысяч отзывов со всей России с января по июль 2023 года.

В этой статье я расскажу, чем полезны отзывы с точки зрения исследований, в чём особенность этого датасета, а также покажу примеры задач, которые можно решать с его помощью.

+38

blondered 25 авг 2023 в 12:47

Дропаем ранжирующие метрики в рекомендательной системе, часть 3: платформа для экспериментов

Средний

11 мин

Блог компании Open Data ScienceМашинное обучение*

Кейс

В прошлых частях статьи я описывала, как мы экспериментировали с рекомендательными моделями на датасете онлайн-кинотеатра Kion. Считали метрики, проводили визуальный анализ, диагностировали popularity bias и другие проблемы алгоритмов, строили двухэтапные модели.

Кроме онлайн приложения мы построили небольшую, но цельную платформу для экспериментов с рекомендательными моделями. Сегодня я подробно на ней остановлюсь:
- Расскажу о workflow экспериментов и пайплайнах обработки данных.
- О том, какие инструменты мы использовали для реализации платформы.
- Нарисую полную инфраструктуру проекта.

А также опишу, как мы построили эксперименты с кросс-валидацией скользящим окном для моделей, которые используют фичи, зависящие от времени. В том числе как мы сделали валидацию для двухэтапной модели с градиентным бустингом.

Будет много MLOps для RecSys.

RecSys dive ->

blondered 11 авг 2023 в 12:45

Дропаем ранжирующие метрики в рекомендательной системе, часть 1: визуальный анализ и popularity bias

Средний

12 мин

7.5K

Блог компании Open Data ScienceМашинное обучение*

Кейс

Привет, Хабр! Поговорим о RecSys?

Что нужно для построения рекомендательной системы, которая будет полезна бизнесу? Топовые метрики, максимум предсказательной силы, machine learning на полную? Проверим. Сегодня покажу:

• Как (и почему) мы дропнули в 3 раза ранжирующие метрики в пет-проекте по рекомендациям фильмов
• Как искали свой идеальный алгоритм
• Как подобрали релевантные рекомендации на самые разные запросы

Будем говорить обо всех аспектах экспериментов в RecSys: метрики, визуальный анализ, workflow. А результат проверим в онлайн-приложении.

RecSys dive ->

+18

nkxxv 11 авг 2023 в 14:45

Как мы научили ML-модель выбирать товары для акций в СберМаркете и увеличили ROI скидок в 8 раз

7 мин

5.4K

Блог компании КуперПовышение конверсии*Машинное обучение*Разработка под e-commerce*Управление продуктом*

Кейс

Лучший Техноавтор 2023

Всем привет! На связи Никита Губин, менеджер продуктов машинного обучения в СберМаркете. Моя команда занимается внедрением ML-решений в маркетинге. И сегодня хочу рассказать, как нам удалось в 8 раз увеличить ROI одного регулярного промо, которое вы можете увидеть в нашем приложении ежедневно.

Статья будет полезна:

Продактам и менеджерам по маркетингу. Разберем конкретный кейс, эффект от которого мы получаем уже более 6 месяцев. Можно забирать на инсайты и гипотезы ?

Лидам и инженерам машинного обучения. Расскажу про конкретные алгоритмы при помощи которых получили высокий импакт.

Поехали!

+13

rcanedu 19 фев 2019 в 20:17

Я провел сто собеседований, отказал сотне людей — и только потом научился собеседовать

7 мин

114K

Карьера в IT-индустрииУправление персоналом*

Не желал бы я вам попасть ко мне на собеседование года два назад. Я провел их около сотни, и за все время взял может человек четырех. Не знаю почему, но эйчары считали, что это круто. Слава строгого интервьюера шла впереди меня. Знакомые звали меня собеседовать для чужих команд, и даже для чужих компаний, о которых вы слышите каждый день. И везде — не проходил никто.

Читать дальше →

+203

431

shpringer 10 мая 2023 в 15:10

Как структурировать проекты машинного обучения с помощью GitHub и VS Code: полная инструкция с настройками и шаблонами

10 мин

3.7K

Блог компании VKBig Data*GitHub*Машинное обучение*

Перевод

Хорошо продуманный процесс структурирования проектов машинного обучения поможет быстро создавать новые репозитории GitHub и с самого начала ориентироваться на элегантную программную архитектуру. Команда VK Cloud перевела статью о том, как организовать файлы в проектах машинного обучения, используя VS Code. Шаблон для создания проектов машинного обучения можно скачать на GitHub.

Читать дальше →

+14

slivka_83 3 окт 2022 в 21:19

ClearML | Туториал

9 мин

23K

Data Mining*Big Data*Машинное обучение*

Туториал

Cезон Data Mining

ClearML — это довольно мощный фреймворк, основным предназначением которого является трекинг ML-экспериментов. Для рассмотрения его возможностей построим небольшой пайплайн обучения ML-модели...

+11

zag2art 10 сен 2012 в 20:37

Курс лекций «Стартап». Питер Тиль. Стенфорд 2012. Занятие 1

11 мин

720K

Исследования и прогнозы в IT*

Туториал

Этой весной, Питер Тиль (Peter Thiel), один из основателей PayPal и первый инвестор FaceBook, провел курс в Стенфорде — «Стартап». Перед началом Тиль заявил: «Если я сделаю свою работу правильно, это будет последний предмет, который вам придется изучать».

Один из студентов лекции записывал и выложил транскипт. В данном хабратопике я делаю перевод первого занятия. Если пост покажется стоящим — продолжу переводить и выкладывать.

Конспект лекций — Питер Тиль (курс: CS183) Стартап — Стэнфорд, весна 2012 г.

Занятие 1: Вызов будущего
Занятие 2: Снова как в 1999?
Занятие 3: Системы ценностей
Занятие 4: Преимущество последнего хода
Занятие 5: Механика мафии
Занятие 6: Закон Тиля
Занятие 7: Следуйте за деньгами
Занятие 8: Презентация идеи (питч)
Занятие 9: Все готово, а придут ли они?
Занятие 10: После Web 2.0
Занятие 11: Секреты
Занятие 12: Война и мир
Занятие 13: Вы — не лотерейный билет
Занятие 14: Экология как мировоззрение
Занятие 15: Назад в будущее
Занятие 16: Разбираясь в себе
Занятие 17: Глубокие мысли
Занятие 18: Основатель — жертва или бог
Занятие 19: Стагнация или сингулярность?

Читать дальше →

+66

AntonyZak 12 дек 2022 в 11:51

Ускорение инференса модели BERT с помощью ONNX и ONNX Runtime на примере решения задачи классификации текста

12 мин

Блог компании РостелекомNatural Language Processing*Искусственный интеллектМашинное обучение*

Технотекст 2022

В статье на примере определения интента по фразе клиента, полученной в текстовом виде показаны подходы для решения поставленной задачи, выбор метрик и моделей.

Сделан обзор на актуальные подходы для ускорения работы нейронных сетей, представлены библиотеки ONNX и ONNX Runtime.

Проведены тесты с использованием фреймоворков ONNX и ONNX Runtime, используемых для ускорения работы моделей перед выводом их в продуктовую среду.

Представлены графические зависимости и блоки кода.

+22

smirnovevgeny 23 янв 2023 в 10:10

Не принимай оффер в Data Science, пока…

20 мин

19K

Блог компании Альфа-БанкИскусственный интеллектКарьера в IT-индустрииМашинное обучение*

Переход на мою текущую позицию занял около четырёх месяцев: с мая по сентябрь я проходил HR, будущего руководителя, его команду, руководителя руководителя и руководителя руководителя руководителя. Почти всё это время я задавал вопросы, чтобы понять подходит мне эта позиция или нет. В итоге, когда ответы меня удовлетворили — я согласился на предложение, и сейчас я Head of Machine Learning Laboratory в Альфа-Банке.

Но мой кейс не такой распространённый — чаще всего собеседования затягиваются «всего» до 5 часов в виде увлекательного квеста проверки хард и софт скиллов. Но и на собеседование ещё надо попасть — ведь отклик на позицию не гарантирует приглашение на интервью или даже формального ответа на заявку, потому что желающих обычно порядка 100 человек на одно место даже с учётом огромного количества предложений от всевозможных работодателей.

Как вы понимаете, нанимающая сторона на рынке вакансий Data Science проводит очень тщательный отбор в свою команду. К сожалению, дата сайентист не может поступать аналогичным образом и прособеседовать своего работодателя, но может задать интересующие его вопросы после интервью и найти много полезной информации самостоятельно в сети. В этой статье расскажу о 10 ключевых вопросах, на которые крайне желательно получить ответ до вашего трудоустройства. Ведь от них будет зависеть не только как вы проведёте несколько часов на собеседовании, но и как скоро будете искать новую работу, когда поймёте, что надо было вопросы всё-таки задавать.

Простым перечислением не ограничусь — попытаюсь донести, почему считаю их крайне важными. Более того, под капотом вы сможете узнать мои ответы на эти вопросы.

+23

Gradiens 7 апр 2023 в 15:42

Собеседование как экзамен

Простой

9 мин

21K

Блог компании Цифровой СИБУРУправление персоналом*Карьера в IT-индустрии

Кейс

Вам знакомо чувство, когда пришел на собеседование на людей посмотреть, себя показать, а ушел со вспотевшими ладошками и в смешанных чувствах? С мыслями: «Ребята, ну неужели не понимаете, что так нельзя?». Недоумевая, почему собеседование превратилось в экзамен.

Много лет назад я был уверен, что когда «подрасту», точно не стану повторять ошибок моих нанимателей. Но увы. Как только начал сам проводить собеседования — все повторилось.

Я угодил в ту же ловушку, что и они.

+62

100

shpringer 16 июн 2022 в 14:01

[Карьера в IT] Собеседование в стартап: как пройти и к каким сюрпризам подготовиться

6 мин

7.3K

Блог компании getmatchРазвитие стартапаКарьера в IT-индустрииIT-компании

В прошлой статье нашей серии «Карьера в IT» рассказывали, где искать вакансии. Представим, что она найдена — отыскалось крутое место в стартапе, как раз под ваши умения и с подходящей зарплатой. Как теперь пройти собеседование, к чему подготовиться и как убедиться, что работать там вам будет комфортно? Рассказываем с практическими примерами. Полезно будет тем, кто устраивается не только в стартап, но и просто в не очень большую, пускай и стабильную, компанию.

+13

Maxilect 10 мар 2021 в 14:41

Оцениваем работодателя на собеседовании. Как понять, что за компания перед тобой?

12 мин

50K

Блог компании MaxilectУправление персоналом*Карьера в IT-индустрииЛайфхаки для гиков

Технотекст 2021

Эта статья не о том, как проходить собеседования, чтобы вас взяли. Она о том, как смотреть на работодателей, чтобы сделать выбор в условиях, когда тексты вакансий, рекрутеры, да и весь процесс найма копируют друг друга. Все работают итерациями, используют Jira, технический стек тоже часто идентичен. С первого взгляда кажется, что это одна и та же кухня. Стоит ли сменить поднадоевшее, но привычное место работы на новое и неизведанное? Как выбрать между двумя офферами с похожими условиями? Как понять, где работать будет комфортно, а где придется терять нервы и интерес к делу?

В этой статье я расскажу, что делаю, чтобы узнать больше о потенциальном работодателе, его процессах, внутренней атмосфере и людях, с которыми предстоит работать. А вот как выбить себе условия покруче, обсуждать не будем. Про плюшки, бонусы и торги по зарплате - это не сюда.

+39