Pull to refresh

Первая публикация с участием ВТБ на главной конференции по Data Science — NeurIPS 2021

ВТБ corporate blog

NeurlPS — самая большая в мире и авторитетная среди data scientists конференция по машинному обучению и развитию искусственного интеллекта.

Алексей Пустынников (DS VTB Bank) и Дмитрий Еремеев (DS РОСГОССТРАХ) заняли 2 место в конкурсе Shifts Challenge в рамках NeurIPS 2021 и представили результаты своего исследования в рамках Bayesian Deep Learning workshop.

Конкурс, организованный коллаборацией Oxford Applied and Theoretical Machine Learning Group, Yandex Research и University of Cambridge, был посвящен применению и анализу техник байесовского глубокого обучения в промышленных задачах в условиях изменения распределения данных (distributional shift). Команда приняла участие в треке «Предсказание траекторий движения». Разработанное решение предсказывает наиболее вероятные будущие траектории участников дорожного движения, а также может оценить степень неуверенности модели в своих предсказаниях, что является ключевым элементом для безопасности беcпилотных автомобилей.

Команда заняла 2 место, опираясь на последние достижения в областях Bayesian Deep Learning и Vehicle Motion Prediction, при этом достигла наилучшей точности непосредственно в предсказании траекторий среди конкурентов. Для построения модели организаторы предоставили самый большой на текущий момент набор данных для задачи Motion Prediction, включающий в себя более 1600 часов движения, записанных во время поездок по городам России, Израиля и США в различных погодных условиях.

С результатами исследования можно ознакомиться в статье «Estimating Uncertainty For Vehicle Motion Prediction on Yandex Shifts Dataset» по ссылке arxiv.org/abs/2112.08355.

Читать далее
Total votes 11: ↑6 and ↓5 +1
Views 323
Comments 0

Покупка оптимальной квартиры с R

Programming *Data Mining *R *Machine learning *
Многие люди сталкиваются с вопросом покупки или продажи недвижимости, и важный критерий здесь, как бы не купить дороже или не продать дешевле относительно других, сопоставимых вариантов. Простейший способ — сравнительный, ориентироваться на среднюю цену метра в конкретном месте и экспертно добавляя или снижая проценты от стоимости за достоинства и недостатки конкретной квартиры. image Но данный подход трудоемок, неточен и не позволит учесть все многообразие отличий квартир друг от друга. Поэтому я решил автоматизировать процесс выбора недвижимости, используя анализ данных путем предсказания «справедливой» цены. В данной публикации описаны основные этапы такого анализа, выбрана лучшая предиктивная модель из восемнадцати протестированных моделей на основании трех критериев качества, в итоге лучшие (недооцененные) квартиры сразу помечаются на карте, и все это используя одно web-приложение, созданное с помощью R.

Читать дальше →
Total votes 62: ↑59 and ↓3 +56
Views 60K
Comments 35

Как программист машину покупал

Data Mining *R *Machine learning *
Sandbox
Недавно я озадачился поиском б.у. автомобиля, взамен только что проданного, и, как это обычно бывает, на эту роль претендовали несколько конкурентов.

Как известно, для покупки авто на территории РФ существует несколько крупных авторитетных сайтов (auto.ru, drom.ru, avito.ru), поиску на которых я и отдал предпочтение. Моим требованиям отвечали сотни, а для некоторых моделей и тысячи, автомобилей, с перечисленных выше сайтов. Помимо того, что искать на нескольких ресурсах неудобно, так еще, прежде чем ехать смотреть авто “вживую”, я хотел бы отобрать выгодные (цена которых относительно рынка занижена) предложения по априорной информации которую предоставляет каждый из ресурсов. Я, конечно, очень хотел решить несколько переопределенных систем алгебраических уравнений (возможно и нелинейных) высокой размерности вручную, но пересилил себя, и решил этот процесс автоматизировать.
image
Читать дальше →
Total votes 73: ↑71 and ↓2 +69
Views 118K
Comments 208

Как программист машину покупал. Часть II

Programming *Data Mining *Algorithms *R *Machine learning *
В предыдущей статье на примере покупки Mercedes-Benz E-klasse не старше 2010 года выпуска стоимостью до 1.5 млн рублей в Москве была рассмотрена задача поиска выгодных автомобилей. Под выгодными следует понимать предложения, цена которых ниже рыночной в текущий момент среди объявлений, собранных со всех наиболее авторитетных сайтов по продаже б/у автомобилей в РФ.

На первом этапе в качестве метода машинного обучения была выбрана множественная линейная регрессия, были рассмотрены правомерность ее использования, а также плюсы и минусы. Простая линейная регрессия была выбрана в качестве ознакомительного алгоритма. Очевидно, что существует еще много методов машинного обучения для решения поставленной задачи регрессии. В этой статье я хотел бы рассказать вам, как именно я выбирал наиболее оптимальный алгоритм машинного обучения для исследуемой модели, который в настоящее время используется в реализованном мною сервисе — robasta.ru.


Читать дальше →
Total votes 67: ↑54 and ↓13 +41
Views 38K
Comments 48

Предиктивная аналитика на платформе SCP

SAP corporate blog Data Mining *Algorithms *

Это третья публикация в рамках помощи участникам конкурса «SAP Кодер-2017».


Каждое предприятие в процессе своей жизнедеятельности генерирует значительное количество данных, как «больших», так и не очень. Эти данные часто можно использовать для получения нового знания, которое, в свою очередь может оказать существенное влияние на стратегию развития бизнеса или тактику поведения в некоторые локальные моменты работы. Сейчас, в связи с развитием вычислительной техники и ростом объема накопленных данных, большое развитие получили численные методы, позволяющие извлекать полезную информацию из массива «сырых» данных и использовать ее в различных бизнес-сценариях.


Читать дальше →
Total votes 16: ↑14 and ↓2 +12
Views 7.7K
Comments 0

Как предсказать курс рубля к доллару при помощи SAP Predictive Analytics

SAP corporate blog Big Data *Machine learning *
SAP в последние годы сфокусировалась на развитии машинного обучения, обработки больших данных и развитии интернета вещей. Это три важнейших технологических направления, которые компания развивает в своих решениях. SAP работает не только над развитием инструментом, но и на применении этих технологий на практике. Наличие большого числа клиентов, автоматизировавших свои бизнес-процесса на продуктах SAP, позволяет анализировать клиентские потребности комплексно, предлагать новые подходы в использовании клиентских данных для увеличения эффективности бизнес-процессов.

Давайте посмотрим, как выглядит анализ данных с использованием инструмента предиктивной аналитики от SAP.

Читать дальше →
Total votes 11: ↑6 and ↓5 +1
Views 4.4K
Comments 6

Как программист машину покупал. Часть III

Self Promo
В двух предыдущих частях (I, II) своего повествования о сервисе для поиска выгодных автомобилей я подробно изложил техническую сторону вопроса — постановку задачи и ее решение.

В этой статье я более подробно остановлюсь на результатах и возможностях сервиса robasta.ru.

Для тех, кто не читал предыдущие статьи и не горит желанием этого делать:

Robasta.ru — сервис для поиска выгодных автомобилей (цена которых ниже рыночной) по данным со всех основных сайтов с объявлениями о продаже б/у автомобилей в РФ.

Перед покупкой автомобиля большинство людей хочет продать предыдущий и сделать это быстро и эффективно — для этого на нашем сервисе существует услуга оценки автомобиля, воспользовавшись которой, вы получите pdf-сертификат, где будет указана стоимость вашего авто в данный момент, стоимость в будущем (если достаточно статистических данных по вашей модели) и многое другое.
Для экономии вашего времени на сайте реализован telegram-информатор, позволяющий получать уведомления о новых объявлениях интересующих вас моделей автомобилей с необходимой вам частотой.

image
Читать дальше →
Total votes 20: ↑17 and ↓3 +14
Views 13K
Comments 54

Data-driven decision на примере выбора цвета для покраски стен

Entertaining tasks Data visualization *Machine learning *Matlab *
Начав выбирать себе цвет для покраски стены в комнате, я столкнулся с интересной вещью. Весь этот процесс с самого начала начал напоминать работу над каким-нибудь IT-ML-Blah-blah-blah-аналитическим проектом.

Тут есть и заказчик, который не очень понимает, что именно он хочет, но хочет, чтобы все было хорошо и ему нравилось. Еще есть несколько заинтересованных лиц со стороны заказчика, которые не могут договориться по вопросу, что такое «хорошо». Есть какие-то переформулировки задачи, которые под большим вопросом релевантны этому самому «хорошо», но по-крайней мере как-то решаемы. Есть подбор методов решения и попытки их реализовывать. Есть итеративность, которая имплицитно, но монотонно, ведет к какому-то решению, которое бы всех устроило. И есть некоторые странные выводы, которые бы с трудом можно было бы сделать в «реальном» проекте, потому что из-за общей нервозности и участия в процессе денег фокус внимания редко останавливается на этих местах процесса.


Читать дальше →
Total votes 10: ↑9 and ↓1 +8
Views 2.1K
Comments 9

Как программист новую машину подбирал

Programming *Data Mining *Algorithms *R *Machine learning *
В предыдущих статьях (I, II, III) я подробно рассказывал о разработке сервиса для поиска выгодных б/у автомобилей в РФ.

Поездив продолжительное время на различных б/у машинах, я задумался о приобретении нового авто и решил этот вопрос подробно изучить. В крупных городах существует огромное количество официальных дилеров, по крайней мере для популярных брендов. Дилеры отличаются друг от друга перечнем автомобилей в наличии и размером предоставляемых скидок на различные модели. В поисках интересующих меня автомобилей мне не хотелось обзванивать и посещать всех дилеров подряд. На мой взгляд, разумно было предварительно отобрать по априорной информации только тех дилеров, которые предоставляют самые низкие цены на интересующие меня модели и комплектации. Тот факт, что при личном общении, если уметь торговаться, размер скидки может существенно возрасти никак не противоречит цели в первую очередь посетить дилеров, предоставляющих наиболее выгодные цены на рынке.

Я собрал данные о новых автомобилях, проанализировал, оформил в виде сервиса, и под конец года, когда скидки у дилеров максимальны, решил поделиться им с вами.

Читать дальше →
Total votes 39: ↑34 and ↓5 +29
Views 40K
Comments 59

Опыт разработки требований к профессиональным качествам data scientist

Entertaining tasks Big Data *Mathematics *Personnel Management *IT-companies
Сегодня практически любой бизнес ощущает потребность в исследовании данных. Data science не воспринимается как нечто новое. Тем не менее, не для всех очевидно, каким должен быть нанимаемый специалист.

Данная статья написана не HR-специалистом, а дата сайнтистом, поэтому стилистика изложения весьма специфична, но в этом есть и преимущество – это взгляд изнутри, позволяющий понять, какие качества data scientist являются необходимыми для профессии, для того, чтобы компания могла положиться на такого человека.


Пролог


Пришло время, когда data science стартап вырос из пеленок — число задач для анализа возросло с непредвиденной скоростью, и эта скорость сразу же перестала компенсироваться автоматизацией. Стало очевидно, что нужны новые мозги в команду…

Как мне сначала казалось, человек требовался вполне определенный: всего лишь обычный дата-что-то-там… программист, аналитик, статистик. Так в чем же сложность составить список требований?

“В инженерном деле, если не знаете, что делаете — не стоит этого делать.”
Ричард Хэмминг

Подошел я к делу как обычно. Достал два листа бумаги. Один озаглавил «Технические навыки», другой — «Профессиональные качества». После этого возникло желание полезть на какой-нибудь ресурс, найти там пачку резюме, выписать списки качеств, выбрать те, что понравятся. Но что-то меня остановило. “Это не мой способ, — сказал я себе. — Я в этом не разбираюсь. Я разбираюсь в задачах..”
Читать дальше →
Total votes 10: ↑10 and ↓0 +10
Views 6.2K
Comments 22

Тренды продуктовой аналитики нового времени

Product Management *Sales management *Statistics in IT


О продуктовой аналитике на Хабре пишут не так часто, но публикации, причем хорошие, появляются с завидной регулярностью. Большинство статей о продуктовой аналитике появились за последние пару лет, и это логично — ведь продуктовая разработка становится все более важной как для IT, так и для бизнеса, лишь косвенно связанного с информационными технологиями.

Здесь же, на Хабре, была опубликована статья, в которой неплохо описаны ожидания компании от продуктового аналитика. Такой специалист должен, во-первых, искать и находить перспективные точки роста продукта, во-вторых, идентифицировать и подтверждать актуальность проблемы путем ее формулировки и масштабирования. Точнее не скажешь. Но продуктовая аналитика развивается, появляются новые инструменты для работы и тренды, которые помогают работать продуктовым аналитикам. Как раз о трендах, в привязке к работе мобильных приложений и сервисов мы и поговорим в этой статье.
Читать дальше →
Total votes 18: ↑16 and ↓2 +14
Views 6.1K
Comments 4

Первые три дня жизни поста на Хабре

Habr Mathematics *Web analytics *
Каждый автор переживает за жизнь своей публикации, после опубликования смотрит статистику, ждет и беспокоится за комментарии, желает, чтобы публикация набрала хотя бы среднее число просмотров. У Хабра эти инструменты кумулятивные и поэтому достаточно сложно представить, как публикация автора начинает свою жизнь на фоне других публикаций.

Как известно, основная масса публикаций набирает просмотры в первые три дня. Чтобы представить, как живет публикация, я отследил статистику и представил механизм мониторинга и сравнения. Данный механизм будет применен к этой публикации и все смогут посмотреть, как это работает.

Первым этапом была собрана статистика о динамике публикаций за три первых дня жизни поста. Для этого анализировал потоки читателей, по публикациям за 28 сентября в период их жизни с 28 сентября по 1 октября 2019 г. путем фиксирования количества просмотров через различные промежутки времени в этот период. Первая диаграмма представлена на рисунке ниже, она получена в результате согласования динамики просмотров по времени.

Как можно посчитать из диаграммы, среднее число просмотров публикации через 72 часа при степенной функции аппроксимации составит ориентировочно 8380 просмотров.


Рис. 1. Распределение просмотров по времени, для всех публикаций.
Читать дальше →
Total votes 44: ↑40 and ↓4 +36
Views 4.4K
Comments 37

Эволюция данных: от больших к бесконечным

Big Data *Processing *Data Engineering *
Sandbox

“Блиц, блиц, скорость без границ!” - помните этого очень смешного и очень н-е-е-е-с-п-е-ш-н-о-г-о ленивца по имени Блиц из мультфильма Зверополис? Он всплывает в памяти всякий раз, когда мы сталкиваемся с чьей-то медленной работой или реакцией. На самом деле Блицу требовалось всего 10 секунд на каждую фразу или операцию. Согласитесь, 10 секунд - не так уж и много. В реальной жизни нам часто приходится ждать куда дольше и ожидание выглядит совсем не так смешно. Ждать - неприятно и очень дорого. 

В этой статье хочется поговорить о том, почему нам вообще приходится ждать, как перестать ждать и какой интересный мир открывается, если жить со скоростью реальности. Точнее, поговорим о технологиях, которые и определяют время ожидания: скорость обработки данных, выдачи предсказаний и принятия решений.

Читать далее
Total votes 3: ↑3 and ↓0 +3
Views 1.4K
Comments 0