Pull to refresh

Mail.ru Group открыла новый набор на бесплатное обучение в Академию больших данных MADE

Reading time 1 min
Views 1.5K
VK corporate blog Big Data *Studying in IT

За полтора года студенты Академии MADE смогут бесплатно освоить одну из востребованных специальностей – дата-аналитика, дата-инженера или специалиста по машинному обучению. Заявки принимаются по 31 июля на сайте Академии больших данных MADE.

Программа Академии больших данных MADE рассчитана на ИТ-специалистов с опытом от одного до трех лет, которые хотят построить карьеру в области работы с большими данными. Студенты Академии будут не только изучать теорию, но и решать реальные задачи из практики Mail.ru Group. Они научатся создавать модели машинного обучения для высоконагруженных сервисов, осуществлять прикладной анализ данных, обработку больших данных и естественного языка, работать с компьютерным зрением и распознаванием речи — и многому другому. 

Читать далее
Total votes 5: ↑5 and ↓0 +5
Comments 1

Первая публикация с участием ВТБ на главной конференции по Data Science — NeurIPS 2021

Reading time 1 min
Views 426
ВТБ corporate blog

NeurlPS — самая большая в мире и авторитетная среди data scientists конференция по машинному обучению и развитию искусственного интеллекта.

Алексей Пустынников (DS VTB Bank) и Дмитрий Еремеев (DS РОСГОССТРАХ) заняли 2 место в конкурсе Shifts Challenge в рамках NeurIPS 2021 и представили результаты своего исследования в рамках Bayesian Deep Learning workshop.

Конкурс, организованный коллаборацией Oxford Applied and Theoretical Machine Learning Group, Yandex Research и University of Cambridge, был посвящен применению и анализу техник байесовского глубокого обучения в промышленных задачах в условиях изменения распределения данных (distributional shift). Команда приняла участие в треке «Предсказание траекторий движения». Разработанное решение предсказывает наиболее вероятные будущие траектории участников дорожного движения, а также может оценить степень неуверенности модели в своих предсказаниях, что является ключевым элементом для безопасности беcпилотных автомобилей.

Команда заняла 2 место, опираясь на последние достижения в областях Bayesian Deep Learning и Vehicle Motion Prediction, при этом достигла наилучшей точности непосредственно в предсказании траекторий среди конкурентов. Для построения модели организаторы предоставили самый большой на текущий момент набор данных для задачи Motion Prediction, включающий в себя более 1600 часов движения, записанных во время поездок по городам России, Израиля и США в различных погодных условиях.

С результатами исследования можно ознакомиться в статье «Estimating Uncertainty For Vehicle Motion Prediction on Yandex Shifts Dataset» по ссылке arxiv.org/abs/2112.08355.

Читать далее
Total votes 11: ↑6 and ↓5 +1
Comments 0

ВТБ запускает онлайн-соревнование для data scientists – Data Fusion Contest 2022

Reading time 2 min
Views 690
ВТБ corporate blog

Соревнование пройдет с 3 февраля по 3 апреля. Участников ждет призовой фонд в размере 2 000 000 рублей.

С помощью инструментов Platforma, а также технологии безопасного метчинга data exchange был сформирован синтетический датасет на обезличенных данных от ВТБ и «Ростелекома». При этом данные генерировались таким образом, чтобы сохранить необходимую для решения задачи информацию о пользовательском поведении.

Участникам необходимо построить решение, способное по последовательности транзакций пользователей ВТБ соотнести их с цифровым следом кликстрима пользователей «Ростелекома». Можно поучаствовать в любой из 3 задач и 2 специальных номинаций:

Задача 1: Matching. По данным транзакций и кликстримов построить обезличенные вектора, чтобы сопоставить и отранжировать пользователей. Контейнерный формат с 1 450 000 рублей призовых.

Задача 2: Puzzle. Разминка с соотнесением пользователей ВТБ и «Ростелекома» в ситуации, когда известны только кандидаты для сопоставления, но не сами пары. Формат разметки тестового файла с 300 000 рублей призовых.

Задача 3: Education. Образовательная задача с предсказанием уровня образования клиента по данным транзакций и кликстрима. Формат разметки тестового файла, с брендированным мерчом в качестве призов. 

Номинация 1: Companion. Номинация за лучшие публичные решения и материалы участников соревнований. Призовой фонд номинации 150 000 рублей.

Номинация 2: Insight. Номинация за интересные и нестандартные решения задач соревнования. Оценивается исследовательская новизна, инженерная эффективность, уникальность подхода. Победителей номинации определяет жюри, призовой фонд номинации: 100 000 рублей.

Читать далее
Total votes 2: ↑2 and ↓0 +2
Comments 0

Подкаст Данные Люди

Reading time 1 min
Views 467
МегаФон corporate blog Python *Big Data *Data Engineering *

Привет, Хабра Пипл!

Наши тимлиды из команды BigData в новом выпуске подкаста "Данные люди" встретились с Александром Гусевым, к.т.н., директором по развитию бизнеса Webiomed, ст. научным сотрудником ЦНИИОИЗ Минздрава РФ.

Получился очень интересный и актуальный выпуск в сезон простуд.

Обменялись опытом, поговорили про применение DS в медицине, современные девайсы и этику работы с большими данными.

 Приятного прослушивания!

Подробнее
Rating 0
Comments 0

Осталось 12 дней до конца регистрации на Data Fusion Contest. Призовой фонд — 2 млн рублей

Reading time 1 min
Views 268
ВТБ corporate blog Big Data *Machine learning *Data Engineering *

Уважаемые друзья! Соревнование ВТБ по машинному обучению Data Fusion Contest 2023 в самом разгаре. Уже определены победители первого турнира, которые разделят 600 тыс. рублей. А это значит, что в призовом фонде остались еще 1,4 млн рублей, за которые вы можете побороться до 2 апреля. Попробуйте свои силы в организации атак на модели машинного обучения и защиты от них (Adversarial Machine Learning). Соревнование проходит в турнирном формате и состоит из двух противоположных задач: «Атака» и «Защита».

И еще немного хороших новостей:
Total votes 1: ↑1 and ↓0 +1
Comments 3

Исследование датасета с IMDB

Reading time 5 min
Views 24K
Data Mining *Data visualization *
Sandbox


Проблематика


Фильмы — это круто, фильмы вдохновляют нас, наполняют уверенностью, в общем дают нам многое. И поэтому в этой статье я бы хотел рассказать вам об исследовании тенденций современного кинематографа с помощью инструментов анализа данных, который уже был презентован в финале Science Slam ITMO University 2.0. Полный выпуск доступен здесь.
Читать дальше →
Total votes 39: ↑37 and ↓2 +35
Comments 27

Feature Engineering, о чём молчат online-курсы

Reading time 7 min
Views 25K
VK corporate blog Data Mining *Big Data *Machine learning *Studying in IT


Sherlock by ThatsWhatSheSayd


Чтобы стать великим сыщиком, Шерлоку Холмсу было достаточно замечать то, чего не видели остальные, в вещах, которые находились у всех на виду. Мне кажется, что этим качеством должен обладать и каждый специалист по машинному обучению. Но тема Feature Engineering’а зачастую изучается в курсах по машинному обучению и анализу данных вскользь. В этом материале я хочу поделиться своим опытом обработки признаков с начинающими датасаентистами. Надеюсь, это поможет им быстрее достичь успеха в решении первых задач. Оговорюсь сразу, что в рамках этой части будут рассмотрены концептуальные методы обработки. Практическую часть по этому материалу совсем скоро опубликует моя коллега Osina_Anya.


Один из популярных источников данных для машинного обучения — логи. Практически в любой строчке лога есть время, а если это web-сервис, то там будут IP и UserAgent. Рассмотрим, какие признаки можно извлечь из этих данных.

Читать дальше →
Total votes 55: ↑52 and ↓3 +49
Comments 11

Как стать датасайнтистом, если тебе за 40 и ты не программист

Reading time 8 min
Views 144K
QIWI corporate blog Data Mining *Machine learning *Studying in IT IT career
Бытует мнение, что стать датасайентистом можно только имея соответствующее высшее образование, а лучше ученую степень.

Однако мир меняется, технологии становятся доступны и для простых смертных. Возможно, я кого-то удивлю, но сегодня любой бизнес-аналитик в состоянии освоить технологии машинного обучения и добиться результатов, конкурирующих с профессиональными математиками, и, возможно, даже лучших.

Дабы не быть голословным, я расскажу вам свою историю — как из экономиста я стал дата-аналитиком, получив необходимые знания через онлайн-курсы и участвуя в соревнованиях по машинному обучению.



Сейчас я ведущий аналитик в группе больших данных в QIWI, но еще три года назад я был довольно далек от датасайнс и об искусственном интеллекте слышал только из новостей. Но потом все изменилось, во многом благодаря Coursera и Kaggle.

Итак, обо всем по порядку.
Читать дальше →
Total votes 124: ↑118 and ↓6 +112
Comments 98

ok.tech: Data Толк

Reading time 2 min
Views 3.3K
Одноклассники corporate blog Data Mining *Big Data *Machine learning *


UPD Презентации участников мероприятия доступны по ссылке

13 июня приглашаем всех, кто работает с данными, в московский офис Одноклассников, на ok.tech: Data Толк. Вместе с коллегами из OK.ru, Mail.ru Group, ivi.ru, Яндекс.Такси и других технологических компаний обсудим вопросы эволюции хранилищ и баз данных, поговорим о достоинствах и недостатках разных подходов к хранению данных, а также как эти подходы влияют на удобство разных команд по взаимодействию с данными.

Мероприятие пройдет в формате открытой дискуссии между спикерами и аудиторией, поэтому готовьте свои вопросы и не стесняйтесь их задавать. Модератором мероприятия будет Алексей Чернобровов.

Зарегистрироваться на мероприятие.

Под катом тезисы выступлений и расписание.
Читать дальше →
Total votes 13: ↑13 and ↓0 +13
Comments 1

Covid19, Ваше общество и Вы — с точки зрения Data Science. Перевод статьи Джереми Ховарда и Рейчел Томас (fast.ai)

Reading time 14 min
Views 5K
Data Mining *Health Data Engineering *
Sandbox
Привет, Хабр! Представляю вашему вниманию перевод статьи «Covid-19, your community, and you — a data science perspective» авторов Jeremy Howard (Джереми Ховарда) и Rachel Thomas.

От переводчика


В России проблема Covid-19 на данный момент стоит не так остро, но стоит понимать, что и в Италии две недели назад не было настолько критической ситуации. И лучше информировать общество заранее, чем сожалеть потом. В Европе многие не воспринимают эту проблему серьезно, и тем самым подвергают риску многих других людей — что сейчас видно на примере Испании (стремительный рост количества заболевших).

Статья


Мы — дата сайентисты, наша работа — анализировать и интерпретировать данные. И данные по covid-19 — повод для волнения. Наиболее уязвимые группы нашего общества, пожилые и малообеспеченные люди, находятся в зоне наибольшего риска, но для контроля распространения и влияния болезни мы все должны изменить наше привычное поведение. Мойте руки тщательно и часто, избегайте скоплений людей, отменяйте запланированные события и не трогайте лицо. В этом посте мы объясним, почему мы беспокоимся — и почему Вы тоже должны беспокоиться. Corona in Brief, написанная Итаном Элли (Ethan Alley) (президент нон-профита, который развивает технологии для уменьшения риска пандемий) — отличная статья, вкратце дающая всю ключевую информацию.
Читать дальше →
Total votes 12: ↑6 and ↓6 0
Comments 5

Распространение сферического коня в вакууме по территории РФ

Reading time 5 min
Views 49K
Open Data Science corporate blog Open source *Python *Data Mining *Health


Привет от ODS. Мы откликнулись на идею tutu.ru поработать с их датасетом пассажиропотока РФ. И если в посте Milfgard огромная таблица выводов и научпоп, то мы хотим рассказать что под капотом.


Что, опять очередной пост про COVID-19? Да, но нет. Нам это было интересно именно с точки зрения математических методов и работы с интересным набором данных. Прежде, чем вы увидите под катом красивые картинки и графики, я обязан сказать несколько вещей:


  • любое моделирование — это очень сложный процесс, внутри которого невероятное количество ЕСЛИ и ПРЕДПОЛОЖИМ. Мы о них расскажем.
  • те, кто работал над этой статьей — не эпидемиологи или вирусологи. Мы просто группа любителей теории графов, практикующих методы моделирования сложных систем. Забавно, но именно в биоинформатике сейчас происходит наиболее существенный прогресс этой узкой области математики. Поэтому мы понимаем язык биологов, хоть и не умеем правильно обосновывать эпидемиологические модели и делать медицинские заключения.
  • наша симуляция всего лишь распространение сферического коня в вакууме по территории РФ. Не стоит относиться к этому серьезно, но стоит задуматься об общей картине. Она определенно интересная.
  • эта статья не существовала бы без датасета tutu.ru, за что им огромное спасибо.
  • мы хотим пригласить других заинтересованных исследователей в ODS.ai и под инициативой ML for Social Good (канал #ml4sg в ODS) вместе улучшать эту модель, чтобы получить опыт и возможность применять ее в будущем. Все интересные задачи, которые мы еще не решили, будут помечены в статье как TODO.

Под катом — результаты нашего марш-броска на датасет.

Total votes 100: ↑89 and ↓11 +78
Comments 36

Простая модель эпидемии базовыми инструментами Python

Reading time 14 min
Views 5.7K
Python *Data visualization *
Sandbox

“Почему бы не разжечь эпидемию” — эта мысль пришла внезапно. Работа из дома при правильной организации может оказаться эффективнее офисной, в результате появляется честное дополнительное время на “подумать” над чем-нибудь еще.


Началось все, конечно, из построения ежедневной визуализации данных о COVID-19 Европейского центра контроля заболеваний. Простой алгоритм ежедневно в полдень рисует графики по обновляемым данным. В графиках привлекают внимание эффективные противоэпидемические действия Китая, когда эпидемия в начале марта пошла на спад. Но эстафету подхватывают страны Европы — сначала Италия (может помните как в конце февраля власти Милана просили вернуться туристов в город, т.к. страдает экономика?), дальше Испания.


image

Читать дальше →
Total votes 15: ↑12 and ↓3 +9
Comments 4

Роль математики в машинном обучении

Reading time 7 min
Views 8.1K
OTUS corporate blog Big Data *Mathematics *Machine learning *
Translation

Прямо сейчас OTUS открывает набор на новый поток продвинутого курса "Математика для Data Science", в связи с этим хотим пригласить вас на бесплатный вебинар, в рамках которого наш эксперт - Петр Лукьянченко, подробно расскажет о программе курса, а также ответит на интересующие вас вопросы.

«Так ли необходимо разбираться в математике, лежащей в основе алгоритмов машинного обучения? В Python ведь уже есть масса широко доступных библиотек, которые можно без труда использовать для построения моделей!»

Я слышал это от дата-сайентистов любителей не один раз. Это заблуждение распространено куда больше, чем хотелось бы, и продолжает порождать наивные фантазии среди начинающих профессионалов в области обработки данных.

Давайте проясним это раз и навсегда - чтобы стать дата-сайентистом, вам нужно понимать математику, стоящую за алгоритмами машинного обучения. Это неотъемлемая часть роли специалиста по работе с данными, и каждый рекрутер и эксперт в области машинного обучения подтвердит это.

Читать далее
Total votes 8: ↑6 and ↓2 +4
Comments 0

Делаем печатные ссылки кликабельными с помощью TensorFlow 2 Object Detection API

Reading time 43 min
Views 5.2K
Python *Machine learning *Artificial Intelligence
Translation

Links Detector Cover


TL;DR


В этой статье мы начнем решать проблему того, как сделать печатные ссылки в книгах или журналах кликабельными используя камеру смартфона.


С помощью TensorFlow 2 Object Detection API мы научим TensorFlow модель находить позиции и габариты строк https:// в изображениях (например в каждом кадре видео из камеры смартфона).


Текст каждой ссылки, расположенный по правую сторону от https://, будет распознан с помощью библиотеки Tesseract. Работа с библиотекой Tesseract не является предметом этой статьи, но вы можете найти полный исходный код приложения в репозитории links-detector repository на GitHub.


Запустить Links Detector со смартфона, чтобы увидеть конечный результат.

Открыть репозиторий links-detector на GitHub с полным исходным кодом приложения.

Вот так в итоге будет выглядеть процесс распознавания печатных ссылок:


Читать дальше →
Total votes 16: ↑16 and ↓0 +16
Comments 2

Из экономистов в дата-сайнтисты или как стать лидером рейтинга Kaggle Notebooks

Reading time 8 min
Views 16K
МТС corporate blog Machine learning *IT career IT-companies

Привет! Меня зовут Андрей Лукьяненко. В команде центра искусственного интеллекта МТС  я занимаюсь проектом улучшения разрешения видео (super resolution): например, из видео в формате 1k мы делаем хорошую “картинку” 4k, которую можно показывать на большом экране. 5 лет назад я решил освоить новую профессию: оставил работу в ERP-консалтинге и начал учиться машинному обучению. За это время я не только стал профессионалом в новой области, но и занял 1 место в международном рейтинге Kaggle Notebooks. Зачем я потратил сотни часов на выполнение конкурсных заданий и к чему меня это привело, расскажу в этой статье.

Читать далее
Total votes 13: ↑12 and ↓1 +11
Comments 6

Опыт обучения в Яндекс.Практикум. Можно ли вкатиться в Data Science за 8 месяцев

Reading time 10 min
Views 41K
Machine learning *Studying in IT

Недавно я завершил прохождение специализации Data Science на платформе Яндекс.Практикум и хочу написать, текст, который был бы полезен мне самому 8 месяцев назад, то есть — обзор содержания учебной программы того, что понравилось или напротив — не оправдало моих ожиданий, а также поделится некоторыми приемами, которые могут сделать обучение эффективнее.

Читать далее
Total votes 23: ↑18 and ↓5 +13
Comments 15

Открыта регистрация на митап про DataScience 29 июля

Reading time 2 min
Views 761
Ростелеком corporate blog Machine learning *Conferences Artificial Intelligence Data Engineering *

29 июля Ростелеком проведет митап, посвященный искусственному интеллекту, науке о данных и машинному обучению. Встреча будет интересна специалистам в управлении данными, CDO, а также представителям бизнеса и ИТ-специалистам смежных направлений.

Участники узнают, как запускались решения Data Science в Ростелекоме, Газпромбанке, «Леруа Мерлен» и «Утконос online». В конце встречи состоится круглый стол, посвященный промышленным подходам к продвинутой аналитике.

Программа, спикеры и ссылка на регистрацию под катом.

Читать далее
Rating 0
Comments 0

Как мы внедряем машинное зрение на Стойленском ГОКе

Reading time 9 min
Views 4K
red_mad_robot corporate blog Machine learning *Artificial Intelligence

Вместе с группой НЛМК рассказываем, как машинное зрение сделает процесс по перевозке сырья на Стойленском горно-обогатительном комбинате безопаснее и в перспективе позволит сократить издержки на семьдесят миллионов рублей в год.

Читать далее
Total votes 3: ↑3 and ↓0 +3
Comments 12

Airflow + Ray: Data Science История

Reading time 8 min
Views 2.9K
Леруа Мерлен corporate blog Apache *Big Data *Data Engineering *
Translation

Всем привет! Основным инструментом оркестрации задач для обработки данных в Леруа Мерлен является Apache Airflow, подробнее о нашем опыте работы с ним можно прочитать тут. А также мы находимся в постоянном поиске инструментов и фреймворков для упрощения работы наших дата сайентистов и дата инженеров. Один из таких инструментов – фреймворк Ray, который позволяет создавать ML пайплайны из DAGов Airflow. В статье от Astronomer подробно рассматривается, как начать его использовать и с его помощью быстро развернуть и обучить модель.

Читать далее
Total votes 3: ↑3 and ↓0 +3
Comments 0

LaTech Data Talks  — материалы с митапа

Reading time 1 min
Views 1.1K
Lamoda corporate blog Data Mining *Big Data *Machine learning *Product Management *

Вот и состоялся наш первый митап для специалистов по работе с данными — LaTech Data Talks. Мы рассказали о том, как устроена команда Data & Analytics в Lamoda и с какими вызовами нам приходится справляться, поговорили про выстраивание процессов в команде продуктовых аналитиков и о том, как наш поиск позволяет найти те самые теплые кроссовки мечты. Делимся презентациями и записями выступлений спикеров.

Читать далее
Total votes 4: ↑4 and ↓0 +4
Comments 0
1