Как стать автором
Обновить

ВТБ запускает онлайн-соревнование для data scientists – Data Fusion Contest 2022

Время на прочтение 2 мин
Количество просмотров 719
Блог компании ВТБ

Соревнование пройдет с 3 февраля по 3 апреля. Участников ждет призовой фонд в размере 2 000 000 рублей.

С помощью инструментов Platforma, а также технологии безопасного метчинга data exchange был сформирован синтетический датасет на обезличенных данных от ВТБ и «Ростелекома». При этом данные генерировались таким образом, чтобы сохранить необходимую для решения задачи информацию о пользовательском поведении.

Участникам необходимо построить решение, способное по последовательности транзакций пользователей ВТБ соотнести их с цифровым следом кликстрима пользователей «Ростелекома». Можно поучаствовать в любой из 3 задач и 2 специальных номинаций:

Задача 1: Matching. По данным транзакций и кликстримов построить обезличенные вектора, чтобы сопоставить и отранжировать пользователей. Контейнерный формат с 1 450 000 рублей призовых.

Задача 2: Puzzle. Разминка с соотнесением пользователей ВТБ и «Ростелекома» в ситуации, когда известны только кандидаты для сопоставления, но не сами пары. Формат разметки тестового файла с 300 000 рублей призовых.

Задача 3: Education. Образовательная задача с предсказанием уровня образования клиента по данным транзакций и кликстрима. Формат разметки тестового файла, с брендированным мерчом в качестве призов. 

Номинация 1: Companion. Номинация за лучшие публичные решения и материалы участников соревнований. Призовой фонд номинации 150 000 рублей.

Номинация 2: Insight. Номинация за интересные и нестандартные решения задач соревнования. Оценивается исследовательская новизна, инженерная эффективность, уникальность подхода. Победителей номинации определяет жюри, призовой фонд номинации: 100 000 рублей.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 0

Platforma и HFLabs выпустили решение для матчинга

Время на прочтение 3 мин
Количество просмотров 734
Big Data *Финансы в IT IT-компании

Разработчик решений для бизнеса на основе big data компания Platforma и HFLabs, создатель программных продуктов, дающих бизнесу точную информацию о своих клиентах, протестировали технологию безопасного матчинга данных двух разных игроков рынка. IT- компании разработали алгоритм преобразования и совмещения баз данных, учитывающий требования существующего законодательства и позволяющий выявлять общих клиентов и предлагать им совместные программы лояльности, новые продукты и сервисы. Кроме того, он может улучшать коммуникацию с пользователями, увеличивать конверсию и прочие подобные вещи.

Читать далее
Всего голосов 9: ↑9 и ↓0 +9
Комментарии 0

Функционал F#, который потихоньку появляется и в C#

Время на прочтение 7 мин
Количество просмотров 15K
.NET *C# *F# *

Почему-то мы зачастую не используем этот функционал. Может быть еще не успели к нему привыкнуть. А иногда используем, при этом не имея представления, что это функционал из F#.
Читать дальше →
Всего голосов 33: ↑26 и ↓7 +19
Комментарии 42

Проблемы матчинга и как можно с ними бороться

Время на прочтение 8 мин
Количество просмотров 16K
Блог компании Сбер Java *Big Data *Hadoop *
Добрый день! Меня зовут Алексей Булавин, я представляю центр компетенций Сбертеха по Big Data. Представители бизнеса, владельцы продуктов и аналитики часто задают мне вопросы по одной и той же теме — матчинг. Что это такое? Зачем и как его делать? Особенно популярен вопрос «Почему он может не получиться?» В этой статье я постараюсь на них ответить.

Читать дальше →
Всего голосов 23: ↑20 и ↓3 +17
Комментарии 8

Uber: Обзор главных алгоритмов управления платформой

Время на прочтение 10 мин
Количество просмотров 15K
Алгоритмы *Профессиональная литература *Машинное обучение *Научно-популярное Транспорт
Из песочницы

1. Введение


Онлайн-платформы пассажироперевозок, такие как Uber, DiDi и Yandex возникли достаточно недавно, при этом они быстро достигли внушительных размеров и, несмотря на свой небольшой возраст, существенно видоизменили и дополнили систему городского транспорта. Технологии и теоретические модели, используемые этими платформами (или разрабатываемые для них), на данный момент являются областью активных исследований для широкого спектра специалистов научного сообщества: экономистов, математиков, программистов и инженеров.

В этой статье мы (как представители команды Uber Marketplace Optimization) коротко представим взгляд изнутри на главные рычаги управления эффективностью онлайн-платформ: алгоритмы, отвечающие за диспетчерские решения (matching), динамическое ценообразование (dynamic pricing), а также представим одну из новых концепций — динамическое время назначения автомобиля (dynamic waiting). Основываясь на реальном практическом опыте, мы покажем, что все три алгоритма играют важную роль для создания системы с высокой производительностью и низким временем ожидания заказов как для пассажиров, так и для водителей.

Представленное описание алгоритмов будет носить ознакомительных характер и намеренно лишено технической глубины и строгости. Заинтересовавшийся читатель приглашается изучить оригинал статьи (Dynamic Pricing and Matching in Ride-Hailing PlatformsN.Korolko, D.Woodard, C.Yan, H.Zhu — 2019), опубликованной исследователями из отдела Uber Marketplace, по мотивам которой этот краткий ознакомительный обзор и создан.
Читать дальше →
Всего голосов 13: ↑12 и ↓1 +11
Комментарии 2

Как работать со смещениями онлайн-панелей: методы и ML-алгоритмы коррекции

Время на прочтение 6 мин
Количество просмотров 1.7K
Блог компании Mediascope Data Mining *Big Data *Математика *Машинное обучение *

Если вы проводите панельные исследования, то обязательно столкнетесь с одним из главных вызовов – набрать выборку достаточного размера, которая будет достоверно отражать важные для исследования параметры генеральной совокупности. Набрать большую и качественную, а значит несмещенную выборку с применением оффлайн-рекрутмента дорого и проблематично. Однако существует альтернативный вариант – это онлайн-рекрутмент, который давно зарекомендовал себя как максимально быстрый, простой и дешевый способ привлечь респондентов для различных исследований. В то же время выборки, набранные в интернете, являются неслучайными и, как правило, искажены по ряду параметров, даже если процедура рекрутирования была хорошо  спланирована.  В этой статье мы расскажем о методе  Propensity Score Adjustment, который применили для коррекции смещений и улучшения данных, полученных на онлайн-панелях. Этот алгоритм помогает калибровать (уточнять) вклад респондентов, набранных в панель онлайн.

Читать
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 0

Матчинг преподавателей и учеников с помощью ML

Время на прочтение 4 мин
Количество просмотров 2.1K
Блог компании Skyeng Машинное обучение *

Недавно перед командой аналитики подбора преподавателей встала задача усовершенствования модели матчинга учеников преподавателей. Перед вами статья о том, как мы это делали.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 7

Realtime-матчинг: находим матчи за считанные минуты вместо 24 часов

Время на прочтение 11 мин
Количество просмотров 8K
Блог компании Ozon Tech Python *Обработка изображений *Машинное обучение *Natural Language Processing *
✏️ Технотекст 2022

Задача матчинга в последнее время набирает всё большую популярность и используется во многих сферах: банки матчат транзакции, маркетплейсы – товары, а Google и другие IT-гиганты проводят соревнования по решению таких задач на Kaggle.

Для маркетплейса матчинг – очень важный процесс, который решает сразу несколько задач:

1. При поисковом ранжировании из множества товаров показывать сначала самые выгодные предложения.

2. Объединять множество товаров в одну сущность и показывать предложения одного и того же товара от разных селлеров.

3. Понимать, как предложения селлеров выглядят относительно друг друга, и поощрять их дополнительными бонусами.

Сегодня мы поговорим не только о решении этой задачи, но и о способах её реализации: offline (batch) vs online (realtime). Также обсудим, как и зачем переходить от первого ко второму.

Читать далее
Всего голосов 42: ↑42 и ↓0 +42
Комментарии 8

От рандома до модели: как мы улучшали мэтчинг в Random Coffee

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 827
Big Data *Управление продуктом *Data Engineering *
Кейс
Из песочницы

Дано: сервис для профессиональных и дружеских знакомств. Основной продукт Random Coffee — встречи один на один внутри тематических сообществ на базе Телеграма. Каждый понедельник боты сообществ распределяют внутри них пользователей по парам, чтобы те самостоятельно списались и договорились о встрече вживую или онлайн.

Пользователей становилось больше, и нужно было уходить от случайного распределения пар, чтобы увеличить количество успешных состоявшихся встреч.В этой статье я, кофаундер Random Coffee Паша Козлов, и Пётр Пушкарь из компании ACMetric рассказываем, как мы перешли к умному мэтчингу, какие данные используем при подборе собеседников и что из этого вышло.

Читать далее
Всего голосов 2: ↑1 и ↓1 0
Комментарии 0