Как стать автором
Обновить

Устроиться ВКонтакте за два дня: Weekend Offer для ML- и RecSys-разработчиков

Блог компании VK Машинное обучение *Карьера в IT-индустрии IT-компании Удалённая работа

2 и 3 июля приглашаем ML- и RecSys-разработчиков на Weekend Offer. За одни выходные вы познакомитесь с тимлидами, узнаете о работе ВКонтакте, побываете на всех собеседованиях и, возможно, присоединитесь к нашей команде. Регистрируйтесь.

Узнать подробности
Всего голосов 5: ↑4 и ↓1 +3
Просмотры 844
Комментарии 0

Пишем простую систему рекомендаций на примере Хабра

Data Mining *

Сегодня мы поговорим о рекомендательных системах, а точнее о самой простой форме коллаборативной фильтрации. В программе передач: что такое рекомендательная система, на чем основана, каков математический аппарат и как её можно воплотить в код. В качестве бонуса предоставим результаты в виде простого сервиса.

  1. Что такое рекомендательная система
  2. Интуиция
  3. Теория
  4. Реализация: код и данные
  5. Сервис Хабра-рекомендаций
  6. Хабра-аналитика

Читать дальше →
Всего голосов 28: ↑24 и ↓4 +20
Просмотры 37K
Комментарии 16

Эволюция списка рекомендаций в SmartProgress

Блог компании SmartProgress Data Mining *Big Data *
Выборка наиболее интересного пользовательского контента для пользователей — актуальная задача для многих проектов, и мы не исключение. В этой статье я хочу рассказать про то как мы решали эту задачу с момента старта проекта и до сегодняшнего дня на примере списка целей в SmartProgress.



Читать дальше →
Всего голосов 18: ↑17 и ↓1 +16
Просмотры 5.4K
Комментарии 4

Рекомендательные системы в онлайн-образовании

Блог компании Stepik.org Исследования и прогнозы в IT *Учебный процесс в IT
28 апреля 2016 года мы официально объявили о запуске первого адаптивного курса на Stepic.org, который подбирает задачи по Python в зависимости от уровня учащегося. До этого мы ещё реализовали на платформе рекомендованные уроки, чтоб учащиеся как не забывали, что они уже прошли, так и открывали для себя новые темы, которые могут их заинтересовать.

Этой статьёй мы начинаем цикл о рекомендательных системах и адаптивном обучении.

Под катом две основные темы:
  • про онлайн-образование, плюсы/минусы/подводные камни;
  • классификация рекомендательных систем, их применимость в образовании, примеры.



Читать дальше →
Всего голосов 16: ↑14 и ↓2 +12
Просмотры 14K
Комментарии 4

Рекомендательные системы в онлайн-образовании. Продолжение

Блог компании Stepik.org Анализ и проектирование систем *Алгоритмы *Математика *Машинное обучение *

Мы продолжаем рассказывать о системе адаптивного обучения на Stepic.org. Первую вводную часть этой серии можно почитать здесь.


В данной статье мы расскажем о построении рекомендательной системы (которая и лежит в основе адаптивности). Расскажем о сборе и обработке пользовательских данных, о графах переходов, хендлерах, оценке реакции пользователя, формировании выдачи.


Вспомним про линейную регрессию, регуляризацию и даже поймём, почему в нашем случае лучше использовать гребневую регрессию, а не какую-нибудь там ещё.



Ну, поехали
Всего голосов 21: ↑20 и ↓1 +19
Просмотры 9.8K
Комментарии 5

Глобальный конкурс задач Stepik Contest

Блог компании Stepik.org Хакатоны Исследования и прогнозы в IT *Учебный процесс в IT
Образовательная платформа Stepik объявляет о старте конкурса по созданию IT-задач. Результатом Stepik Contest станет уникальная система онлайн-обучения, основанная на персональных рекомендациях учащимся. Победители конкурса получат денежные призы до $10K.


Читать дальше →
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 6.2K
Комментарии 6

Дедлайн конкурса Stepik Contest продлен до 31 марта, самое время создавать IT-задачи

Блог компании Stepik.org Занимательные задачки Python *JavaScript *Java *
Новогодние праздники и январь прошли очень быстро и вместо большого количества курсов для конкурса Stepik Contest команда Stepik получила множество запросов с просьбами продлить дедлайн. Мы решили продлить срок конкурса до 31 марта, а сейчас — подвести промежуточные итоги, ответить на вопросы и разъяснить все неочевидные моменты конкурса.

Итак, конкурс Stepik Contest, дедлайн 31 марта, чтобы выиграть от $2K до $10K, нужно создать 20+ задач по темам IT на платформе Stepik (adaptive.stepik.org).


Подробности про конкурс
Всего голосов 18: ↑17 и ↓1 +16
Просмотры 4.5K
Комментарии 8

MVP системы рекомендаций для GitHub за неделю

Data Mining *MongoDB *Big Data *GitHub *Машинное обучение *
Перевод

logo Напомним на всякий случай, если кто-то забыл, что GitHub – это одна из крупнейших платформ для разработки программного обеспечения и дом для многих популярных проектов с открытым исходным кодом. На страничке «Explore» GitHub вы можете найти информацию о проектах, которые набирают популярность, проектах, понравившихся людям, на которых вы подписаны, а также популярные проекты, объединенные по направлениям или языкам программирования.


Чего вы не найдете, так это персональных рекомендаций проектов, основанных на вашей активности. Это несколько удивляет, поскольку пользователи ставят огромное количество звезд различным проектам ежедневно, и это информация может быть с легкостью использована для построения рекомендаций.


В этой статье мы делимся нашим опытом построения системы рекомендаций для GitHub от идеи до реализации.

Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 4.7K
Комментарии 7

10 материалов RecSys о рекомендательных системах, которые должен прочитать каждый

Блог компании Retail Rocket Профессиональная литература *
Привет, Хабр! Сегодня мы хотим поделиться с сообществом подборкой лучших материалов конференции ACM Recommender Systems (RecSys), которые обязательно нужно прочитать каждому специалисту, который занимается рекомендательными системами.


Читать дальше →
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 5.1K
Комментарии 0

Как обмен данными влияет на качество рекомендаций

Блог компании Retail Rocket Big Data *Хранение данных *
Привет, Хабр!

Мы уделяем особенное внимание проверке интеграции при подключении нового клиента к платформе и постоянно отслеживаем статус интеграции в процессе работы. Почему это критически важно? Потому что сбор данных — основа формирования качественных рекомендаций.



Работа рекомендательной системы строится на нескольких важных составляющих: сбор данных, их хранение, обработка, выдача рекомендаций и growth hacking. Плюс «железо» для обеспечения вычислительных мощностей алгоритмов и процесс верстки. Таким образом мы получаем как минимум 7 пунктов, от которых зависит качество рекомендаций, не говоря уже о дорогой команде аналитиков. Как внешний сервис, так и внутренняя система рекомендаций интернет-магазина, должны охватывать все эти пункты и качественно обеспечивать работу на всех этапах.
Читать дальше →
Всего голосов 9: ↑8 и ↓1 +7
Просмотры 2.8K
Комментарии 0

Опыт персонализации интернет-магазина на примере динамической рекомендации

Ненормальное программирование *Data Mining *MongoDB *Разработка под e-commerce *Машинное обучение *
Привет, Хабр!

Поделюсь опытом о том, как собрали собственную систему персонализации на базе «знаний» о потенциальном покупателе.

image

Единственное чем отличалось наше решение от классических — это использование комбинированной связки ряда решений и удовлетворял списку требований:

  • сервис должен был работать сразу на N сайтах
  • динамическая сегментация аудитории
  • Коллаборативная фильтрация для целей прогнозирования в разных состояниях сегментов аудитории
  • предварительно сгенеренная статика в виде рекомендованного контента + динамический подмес товаров на основе анализа кликстрима
  • изменение контента, практически в реал-тайме, из оперативной памяти, с учетом динамических коэффициентов

Об этом подробнее :) И о тех граблях, которые помогали нам меняться стек в лучшую сторону.
Читать дальше →
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 3K
Комментарии 4

ок.tech Data Толк #3: Рекомендательные системы

Блог компании Одноклассники Data Mining *Big Data *Машинное обучение *Искусственный интеллект


6 ноября в московском офисе компании Одноклассники состоится ок.tech Data Толк #3, в этот раз мы решили посвятить мероприятие рекомендательным системам. Вместе с коллегами из OK.ru, Joom и СколТеха поговорим про прошедший RecSys19, а также о теории, практике и трендах рекомендательных систем. Влад Грозин сделает обзор культовой конференции RecSys19. Евгений Фролов расскажет один из докладов о HybridSVD, которую используют для построения гибридных рекомендательных систем. Затем перейдем от теории к практике, и Андрей Кузнецов поделится практическим опытом улучшения рекомендательных систем для групп Одноклассников. Как всегда, после докладов будет дискуссия, где каждый сможет задать любой вопрос спикерам. Вести мероприятие будет Алексей Чернобровов.

Ждем всех, кому интересна тема создания, улучшения и эксплуатации рекомендательных систем.

Зарегистрироваться на мероприятие.
Читать дальше →
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 1.4K
Комментарии 0

ок.tech Data Толк #3: мини-интервью спикеров

Блог компании Одноклассники Data Mining *Big Data *Машинное обучение *Искусственный интеллект


Проект ок.tech Data Толк родился как дискуссионная площадка для специалистов, занимающихся обработкой и аналитикой больших данных. Каждый раз мы подчеркиваем, что основная задача наших митапов – это не доклады, хотя они тоже очень важны, а открытая дискуссия аудитории со спикерами, во время которой у участников есть время обсудить любые вопросы в рамках тематики мероприятия. Мы считаем, что в сложившейся ситуации когда количество проблем и нерешенных задач в области Data Science стремительно растет, открытый диалог очень важен.

Мы провели 2 встречи, на первой обсуждали достоинства и недостатки разных подходов к хранению данных и то, как эти подходы влияют на работу разных команд, а также коснулись вопросов эволюции хранилищ данных. Вторая встреча была посвящена образованию в Data Science, на площадке встретились представители разных мнений, спикеры поговорили о важности университетского образования, разнообразии онлайн-курсов и их особенностях, а также о том, какими навыками необходимо обладать, чтобы стать крутым и востребованным датасаентистом.

В преддверии третьего митапа, который пройдет 6 ноября в Москве и будет посвящен рекомендательным системам, мы поговорили со спикерами об их пути в разработку рекомендательных систем, о том как им видится их будущее этого направления и попросили порекомендовать, что надо делать сейчас, чтобы знания и умения оставались актуальными даже через несколько лет. Также мы поинтересовались, о чем они будут рассказывать на митапе и почему стоит посетить это мероприятие.

Зарегистрироваться на Data Толк #3
Читать дальше →
Всего голосов 21: ↑21 и ↓0 +21
Просмотры 1.1K
Комментарии 0

Как мы кратно улучшили качество рекомендаций в оффлайн ритейле

Python *Data Mining *Big Data *Машинное обучение *Data Engineering *
🔥 Технотекст 2020

Всем привет! Меня зовут Саша, я CTO & Co-Founder в LoyaltyLab. Два года назад я с друзьями, как и все бедные студенты, ходил вечером за пивом в ближайший магазин у дома. Нас очень расстраивало, что ритейлер, зная, что мы придём за пивом, не предлагает скидку на чипсы или сухарики, хотя это так логично! Мы не поняли, почему такая ситуация происходит и решили сделать свою компанию. Ну и как бонус выписывать себе скидки каждую пятницу на те самые чипсы.


image


И дошло всё до того, что с материалом по технической стороне продукта я выступаю на NVIDIA GTC. Мы рады делиться наработками с коммьюнити, поэтому я выкладываю свой доклад в виде статьи.

Читать дальше →
Всего голосов 13: ↑12 и ↓1 +11
Просмотры 5K
Комментарии 5

Рекомендации с обоснованием (2020). Часть первая

Data Mining *Алгоритмы *Big Data *Машинное обучение *
Из песочницы
Перевод

Здравствуйте, уважаемая аудитория! Предлагаю вашему вниманию первую часть перевода большой обзорной статьи на тему рекомендательных систем, а именно - одной из ее областей, рекомендаций с обоснованием.

С работой алгоритмов рекомендаций большинство пользователей сталкивается ежедневно - в соцсетях, при походах в магазин, выборе товаров в онлайн-магазинах, при поиске информации. Рекомендации с обоснованием не только предлагают вариант выбора, но также объясняют, почему именно этот вариант подходит пользователю лучше остальных. C этой точки зрения проблема рекомендаций с обоснованием также затрагивает исследование поведения пользователей и процессов принятия решений.

В статье проблема обоснований в рекомендательных системах рассматривается с нескольких точек зрения, анализируются открытые проблемы и задачи в данной области и затрагивается тема обоснований в глубоком обучении и ИИ в целом.

Статья может быть интересна всем, кто желает составить целостное и подробное представление о истории развития рекомендательных систем, методах, которые в них применяются, методах оценки моделей с обоснованием и посмотреть на примеры использования рекомендаций с обоснованием в приложениях.

Читать далее
Всего голосов 6: ↑5 и ↓1 +4
Просмотры 2.3K
Комментарии 0

Рекомендательные системы: проблемы и методы решения. Часть 2

Блог компании Prequel Алгоритмы *Машинное обучение *Искусственный интеллект

Привет! Меня зовут Екатерина Ванская, и я занимаюсь data science в компании Prequel. В этой статье я продолжу обзор рекомендательных алгоритмов, которым мы начали в предыдущем моем материале

(вот ссылка на первую часть).

Область рекомендаций усложняется по мере расширения сферы ее применения, с каждым новым вызовом и нюансом использования. По мере увеличения объемов данных и усложнения задач появлялись новые подходы, отличные от рассмотренных ранее простых коллаборативных моделей.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 6.5K
Комментарии 6

Масштабируемый подход к частично локальному федеративному обучению

Машинное обучение *
Перевод

Данный текст является авторским переводом поста A Scalable Approach for Partially Local Federated Learning (https://ai.googleblog.com/2021/12/a-scalable-approach-for-partially-local.html).


Примечания: 

Меня довольно сильно интересует тема распределенного обучения ML моделей и в свободное время стараюсь изучать материалы, связанные с этой темой. Материалов не так уж и много, на самом деле, поэтому любая новая публиках на эту тему привлекает внимание. И 16 декабря в блоге Google AI был опубликован новый пост на эту тему, в котором авторы описывают новый подход в Федеративному обучения и я решил перевести его на русский язык, наедаясь, что кому нибудь этот материал так же может показаться интересным.

Для тех, кто не сильно знаком с этом темой, хочется сделать несколько вводных пояснений. Federated Learning (далее FL для сокращения) (так называется совокупность методов обучения ML моделей на распределённых данных) в общем то изначально дразнится Google и поддерживается в наборе инструментов TensorFlow. Почему именно Google? Дело в том, что FL решает следующую проблему: в стандартных подходах ML все базируется на том, что все данные, необходимые для обучения, доступны в рамках единого пространства памяти (централизованы на одном сервере/кластере), но есть много случаем, когда по соображениям конфиденциальности (связанными как с коммерческой тайной, так и с вопросами privacy и защиты пользовательских данных) мы не может все данные скопировать в единое хранилище. Вот FL и предлагает различные методики обучения, которые позволяют натренировать модель без централизации данных. Google с этой проблематикой сталкивается потому что является разработчиком мобильной операционной системы Android, многие функции которой требуют применения ML подходов. В частности, у них есть приложение GBoard - это мобильная клавиатура, которая подсказывает пользователю следующее слово в набираемой фразе, тем самым позволяя экономить время пользователю при наборе текста. Для того, что бы натренировать предсказательную модель, требуется обработка текстов, которые пользователи вводят в рамках переписки в мессенджерах и тп, и тут как раз и возникает проблема работы с приватными данными. Поэтому надо еще раз подчеркнуть, что текст ниже и прочие публикации Google на эту тему следует воспринимать в контексте именно этой проблематики, хотя подобные методы можно применять и в большом количестве других кейсов.

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 2K
Комментарии 1

Эволюция рекомендаций ресторанов в Delivery Club. Часть 2

Блог компании Delivery Club Tech Big Data *Машинное обучение *Управление e-commerce *Data Engineering *

Всем привет! Это вторая часть статьи об изменении подхода к рекомендациям в Delivery Club. В первой части я подробно описал текущие проблемы нашей рекомендательной системы: локально оптимальный баланс exploitation и cold start, а также недостаточно развитый механизм exploration. А также рассказал, как мы решали проблему exploitation через карусель «Вы заказывали», а проблему cold start — через карусель популярных фастфуд-ресторанов. 

Читать далее
Всего голосов 16: ↑15 и ↓1 +14
Просмотры 2.4K
Комментарии 4

Контекстные многорукие бандиты для рекомендации контента, или Не Бернулли единым

Блог компании VK Data Mining *Алгоритмы *Математика *Машинное обучение *
Туториал
✏️ Технотекст 2022

Привет, Хабр! Меня зовут Александр Сухочев, я занимаюсь машинным обучением и руковожу командой рекомендаций и развития сервисов ВКонтакте. Сегодня хочу поделиться нашим опытом и результатами внедрения контекстуальных многоруких бандитов для рекомендации контента на примере игр и стикеров.

Статья состоит из четырёх частей, переходите сразу ко второй или третьей, если знакомы с проблематикой, или читайте по порядку, чтобы составить полную картину:

Введение расскажет о том, какие бывают подходы к построению рекомендательных систем и при чём здесь многорукие бандиты — это раздел для тех, кто раньше не был знаком с данным подходом.

Основные алгоритмы решения задачи многорукого бандита: эпсилон-жадный подход, сэмплирование Томпсона, Upper Confidence Bound.

Алгоритм контекстных многоруких бандитов — о контекстных многоруких бандитах и способе их обучения в частном случае, который мы использовали в нашем решении.

Заметки о практической реализации — о тонкостях внедрения, бизнес-требованиях и результатах на примере сервиса рекомендации игр и стикеров.

Читать далее
Всего голосов 55: ↑55 и ↓0 +55
Просмотры 5.8K
Комментарии 4

Как и почему перешли с Python на Go в основном сервисе рекомендаций Авито

Блог компании AvitoTech Высокая производительность *Python *Go *Машинное обучение *
✏️ Технотекст 2022

Привет! Меня зовут Василий Копытов, я руковожу группой разработки рекомендаций в Авито. Мы занимается системами, которые предоставляют пользователю персонализированные объявления на сайте и в приложениях. На примере нашего основного сервиса покажу, когда стоит переходить с Python на Go, а когда нужно оставить всё как есть. В конце дам несколько советов по оптимизации сервисов на Python.

Читать далее
Всего голосов 50: ↑46 и ↓4 +42
Просмотры 20K
Комментарии 40