Как стать автором
Обновить

ВТБ запускает онлайн-соревнование для data scientists – Data Fusion Contest 2022

Время на прочтение 2 мин
Количество просмотров 690
Блог компании ВТБ

Соревнование пройдет с 3 февраля по 3 апреля. Участников ждет призовой фонд в размере 2 000 000 рублей.

С помощью инструментов Platforma, а также технологии безопасного метчинга data exchange был сформирован синтетический датасет на обезличенных данных от ВТБ и «Ростелекома». При этом данные генерировались таким образом, чтобы сохранить необходимую для решения задачи информацию о пользовательском поведении.

Участникам необходимо построить решение, способное по последовательности транзакций пользователей ВТБ соотнести их с цифровым следом кликстрима пользователей «Ростелекома». Можно поучаствовать в любой из 3 задач и 2 специальных номинаций:

Задача 1: Matching. По данным транзакций и кликстримов построить обезличенные вектора, чтобы сопоставить и отранжировать пользователей. Контейнерный формат с 1 450 000 рублей призовых.

Задача 2: Puzzle. Разминка с соотнесением пользователей ВТБ и «Ростелекома» в ситуации, когда известны только кандидаты для сопоставления, но не сами пары. Формат разметки тестового файла с 300 000 рублей призовых.

Задача 3: Education. Образовательная задача с предсказанием уровня образования клиента по данным транзакций и кликстрима. Формат разметки тестового файла, с брендированным мерчом в качестве призов. 

Номинация 1: Companion. Номинация за лучшие публичные решения и материалы участников соревнований. Призовой фонд номинации 150 000 рублей.

Номинация 2: Insight. Номинация за интересные и нестандартные решения задач соревнования. Оценивается исследовательская новизна, инженерная эффективность, уникальность подхода. Победителей номинации определяет жюри, призовой фонд номинации: 100 000 рублей.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 0

Осталось 12 дней до конца регистрации на Data Fusion Contest. Призовой фонд — 2 млн рублей

Время на прочтение 1 мин
Количество просмотров 266
Блог компании ВТБ Big Data *Машинное обучение *Data Engineering *

Уважаемые друзья! Соревнование ВТБ по машинному обучению Data Fusion Contest 2023 в самом разгаре. Уже определены победители первого турнира, которые разделят 600 тыс. рублей. А это значит, что в призовом фонде остались еще 1,4 млн рублей, за которые вы можете побороться до 2 апреля. Попробуйте свои силы в организации атак на модели машинного обучения и защиты от них (Adversarial Machine Learning). Соревнование проходит в турнирном формате и состоит из двух противоположных задач: «Атака» и «Защита».

И еще немного хороших новостей:
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 3

Kaggle-подходы для CV в проде: внедрить нельзя выпилить

Время на прочтение 6 мин
Количество просмотров 11K
Блог компании Open Data Science Обработка изображений *Машинное обучение *Управление проектами *Искусственный интеллект
Среди дата сайнтистов ведется немало холиваров, и один из них касается соревновательного машинного обучения. Действительно ли успехи на Kaggle показывают способности специалиста решать типичные рабочие задачи? Арсений arseny_info (R&D Team Lead @ WANNABY, Kaggle Master, далее в тексте A.) и Артур n01z3 (Head of Computer Vision @ X5 Retail Group, Kaggle Grandmaster, далее в тексте N.) отмасштабировали холивар на новый уровень: вместо очередного обсуждения в чате взяли микрофоны и устроили публичное обсуждение на митапе, по мотивам которого и родилась эта статья.
Читать дальше →
Всего голосов 54: ↑53 и ↓1 +52
Комментарии 4

Нейронные сети предпочитают текстуры и как с этим бороться

Время на прочтение 7 мин
Количество просмотров 30K
Блог компании Open Data Science Обработка изображений *Машинное обучение *Искусственный интеллект Мозг


В последнее время вышло несколько статей с критикой ImageNet, пожалуй самого известного набора изображений, использующегося для обучения нейронных сетей.


В первой статье Approximating CNNs with bag-of-local features models works surprisingly well on ImageNet авторы берут модель, похожую на bag-of-words, и в качестве "слов" используют фрагменты из изображения. Эти фрагменты могут быть вплоть до 9х9 пикселей. И при этом, на такой модели, где полностью отсутствует какая-либо информация о пространственном расположении этих фрагментов, авторы получают точность от 70 до 86% (для примера, точность обычной ResNet-50 составляет ~93%).


Во второй статье ImageNet-trained CNNs are biased towards texture авторы приходят к выводу, что виной всему сам набор данных ImageNet и то, как изображения воспринимают люди и нейронные сети, и предлагают использовать новый датасет – Stylized-ImageNet.


Более подробно о том, что на картинках видят люди, а что нейронные сети

Читать дальше →
Всего голосов 100: ↑100 и ↓0 +100
Комментарии 68

TensorRT 6.x.x.x — высокопроизводительный инференс для моделей глубокого обучения (Object Detection и Segmentation)

Время на прочтение 9 мин
Количество просмотров 16K
Блог компании Open Data Science Python *Обработка изображений *Машинное обучение *DevOps *
Туториал
image
Больно только в первый раз!

Всем привет! Дорогие друзья, в этой статье я хочу поделиться своим опытом использования TensorRT, RetinaNet на базе репозитория github.com/aidonchuk/retinanet-examples (это форк официальной репы от nvidia, который позволит начать использовать в продакшен оптимизированные модели в кратчайшие сроки). Пролистывая сообщения в каналах сообщества ods.ai, я сталкиваюсь с вопросами по использованию TensorRT, и в основном вопросы повторяются, поэтому я решил написать как можно более полное руководство по использованию быстрого инференса на основе TensorRT, RetinaNet, Unet и docker.
Читать дальше →
Всего голосов 57: ↑56 и ↓1 +55
Комментарии 10

SVM. Подробный разбор метода опорных векторов, реализация на python

Время на прочтение 15 мин
Количество просмотров 94K
Блог компании Open Data Science Python *Data Mining *Алгоритмы *Машинное обучение *

Привет всем, кто выбрал путь ML-самурая!


Введение:


В данной статье рассмотрим метод опорных векторов (англ. SVM, Support Vector Machine) для задачи классификации. Будет представлена основная идея алгоритма, вывод настройки его весов и разобрана простая реализация своими руками. На примере датасета $Iris$ будет продемонстрирована работа написанного алгоритма с линейно разделимыми/неразделимыми данными в пространстве $R^2$ и визуализация обучения/прогноза. Дополнительно будут озвучены плюсы и минусы алгоритма, его модификации.


image
Рисунок 1. Фото цветка ириса из открытых источников

Читать дальше →
Всего голосов 52: ↑51 и ↓1 +50
Комментарии 5

Материалы NLP курса от DeepPavlov

Время на прочтение 4 мин
Количество просмотров 24K
Блог компании Open Data Science Python *Машинное обучение *Искусственный интеллект Natural Language Processing *

В этой статье вы найдете материалы очных курсов «Deep Learning in NLP», которые запускались командой DeepPavlov в 2018-2019 годах и которые являлись частичной адаптацией Stanford NLP course — cs224n. Статья будет полезна любым специалистам, погружающимися в обработку текста с помощью машинного обучения. Благодарю физтехов, разрабатывающих открытую библиотеку для разговорного искусственного интеллекта в МФТИ, и Moryshka за разрешение осветить эту тему на Хабре в нашем ods-блоге.


Читать дальше →
Всего голосов 63: ↑61 и ↓2 +59
Комментарии 6

Data science vs COVID-19_Часть 1

Время на прочтение 6 мин
Количество просмотров 2.4K
Блог компании Центр Финансовых Технологий (ЦФТ) Машинное обучение *


Уже очевидно, что в 2021-м COVID-19 все еще будет оставаться, как говорится, на повестке дня. А значит, закономерно возникают вопросы: есть ли у нас инструменты для прогнозирования роста и снижения заболеваемости, можем ли мы предсказать развитие событий через неделю, месяц или даже год? Давайте разбираться.

Дано: колоссальные возможности data science, три талантливых специалиста.
Найти: способы предсказать распространение COVID-19 на неделю вперёд.

Решение:

На самом деле решений будет три, следите за публикациями. А сегодня мы обсудим одно из них, с Владиславом Крамаренко. Он нашёл модель, способную построить самый точный прогноз* для всего мира на неделю вперёд.
Читать дальше →
Всего голосов 13: ↑10 и ↓3 +7
Комментарии 6

Data science vs COVID-19_Часть 2

Время на прочтение 7 мин
Количество просмотров 1.4K
Блог компании Центр Финансовых Технологий (ЦФТ) Машинное обучение *


Всем привет. Мы продолжаем серию статей о том, какие ответы может дать data science о прогнозировании COVID-19. Первая статья здесь. Сегодня поговорим о втором классе моделей по предсказанию динамики распространения COVID-19. Они основаны на предположениях о росте заболеваемости и описывают ситуацию в средне- и долгосрочной перспективе. Беседуем с Николаем Кобало, старшим инженером данных ЦФТ.

Напомним, какие у нас условия:
Дано:
Колоссальные возможности data science, три талантливых специалиста.
Найти: Способы предсказать распространение COVID-19 на неделю вперёд.

Переходим ко второму решению.
Читать дальше →
Всего голосов 7: ↑3 и ↓4 -1
Комментарии 5

Data Science vs COVID-19_Часть 3

Время на прочтение 5 мин
Количество просмотров 1.7K
Блог компании Центр Финансовых Технологий (ЦФТ) Машинное обучение *


Всем привет. Выходим на финишную прямую: сегодня финальная статья о том, какие ответы может дать data science о прогнозировании COVID-19.

Первая статья здесь. Вторая здесь.

Сегодня мы общаемся с Александром Желубенковым о его решениях по предсказанию распространения COVID-19.

Условия у нас следующие:
Дано: Колоссальные возможности data science, три талантливых специалиста.
Найти: Способы предсказать распространение COVID-19 на неделю вперёд.

И вот решение от Александра Желубенкова
Читать дальше →
Всего голосов 10: ↑8 и ↓2 +6
Комментарии 4

Data Science Pet Projects. FAQ

Время на прочтение 13 мин
Количество просмотров 29K
Блог компании Open Data Science Data Mining *Машинное обучение *Управление проектами *Искусственный интеллект

Привет! Меня зовут Клоков Алексей, сегодня поговорим о пет-проектах по анализу данных. Идея написать эту статью родилась после многочисленных вопросов о личных проектах в сообществе Open Data Science (ODS). Это третья статья на Хабре, до этого был разбор алгоритма SVM и анонс крутого NLP курса от ребят из DeepPavlov. В этой статье вы найдете идеи для новых петов и другие полезности. Итак, разберем частые вопросы и дадим определение пет-проекта:


  1. Зачем делать пет-проекты?
  2. Из каких этапов может состоять разработка пет-проекта?
  3. Как выбрать тему и найти данные?
  4. Где найти вычислительные ресурсы?
  5. Как завернуть работающие алгоритмы в минимальный прод?
  6. Как оформить презентабельный вид проекта?
  7. Как и зачем искать коллабораторов?
  8. Когда проходит ODS pet project хакатон?
  9. Где посмотреть примеры пет-проектов и истории участников ODS?

Читать дальше →
Всего голосов 43: ↑43 и ↓0 +43
Комментарии 11

ИИ в играх в 2022 году

Время на прочтение 7 мин
Количество просмотров 2.1K
Блог компании Open Data Science Машинное обучение *Искусственный интеллект Игры и игровые консоли Логические игры
Обзор

Современная волна ИИ хайпа началась с вполне конкретного события: победы ИИ над чемпионом мира в игре в Го. Это вызвало шквал интереса к обучению с подкреплением и привело к запуску работ над созданием ИИ для других более сложных игр (Starcraft, Dota и.т.п.). Однако, с появлением трансформеров, фокус сместился на генеративные модели. Каждый месяц выходит новая модель вроде ChatGPT, поражающая своими возможностями и собирает на себе всё внимание. Однако, и в этих условиях, исследования ИИ с помощью игр продолжается. Каждая новая игра это упрощенная среда, все более сложная и близкая к реальному миру (обычно). В этой статье сделан обзор успехов и прогресса в этом направлении в 2022 году. С важным исключением, сюда включены только работы на настоящих играх (настольных и видеоиграх), но не на играх, созданных специально для тестирования ИИ агентов.

Читать далее
Всего голосов 15: ↑15 и ↓0 +15
Комментарии 2