Как стать автором
Обновить

Первая публикация с участием ВТБ на главной конференции по Data Science — NeurIPS 2021

Время на прочтение1 мин
Количество просмотров545

NeurlPS — самая большая в мире и авторитетная среди data scientists конференция по машинному обучению и развитию искусственного интеллекта.

Алексей Пустынников (DS VTB Bank) и Дмитрий Еремеев (DS РОСГОССТРАХ) заняли 2 место в конкурсе Shifts Challenge в рамках NeurIPS 2021 и представили результаты своего исследования в рамках Bayesian Deep Learning workshop.

Конкурс, организованный коллаборацией Oxford Applied and Theoretical Machine Learning Group, Yandex Research и University of Cambridge, был посвящен применению и анализу техник байесовского глубокого обучения в промышленных задачах в условиях изменения распределения данных (distributional shift). Команда приняла участие в треке «Предсказание траекторий движения». Разработанное решение предсказывает наиболее вероятные будущие траектории участников дорожного движения, а также может оценить степень неуверенности модели в своих предсказаниях, что является ключевым элементом для безопасности беcпилотных автомобилей.

Команда заняла 2 место, опираясь на последние достижения в областях Bayesian Deep Learning и Vehicle Motion Prediction, при этом достигла наилучшей точности непосредственно в предсказании траекторий среди конкурентов. Для построения модели организаторы предоставили самый большой на текущий момент набор данных для задачи Motion Prediction, включающий в себя более 1600 часов движения, записанных во время поездок по городам России, Израиля и США в различных погодных условиях.

С результатами исследования можно ознакомиться в статье «Estimating Uncertainty For Vehicle Motion Prediction on Yandex Shifts Dataset» по ссылке arxiv.org/abs/2112.08355.

Читать далее
Всего голосов 11: ↑6 и ↓5+1
Комментарии0

Возможности предиктивной аналитики в повышении энергоэффективности оборудования и прогнозе энергопотребления

Время на прочтение5 мин
Количество просмотров2.4K

По данным консалтинговой компании Roland Berger, ведущие электроэнергетические компании по всему миру реализуют программы цифровой трансформации. Повсеместное применение больших данных способствует развитию решений предиктивной аналитики, которые сегодня высоко востребованы в энергетике. Прогнозная аналитика позволяет предсказать выход оборудования из строя, объективно оценивать риски и принимать стратегически верные решения.

В этой статье мы расскажем о том, как с помощью предиктивного анализа реализовать качественный прогноз энергопотребления и повысить энергоэффективность оборудования генерирующих компаний.

Читать далее
Рейтинг0
Комментарии1

Predictive Analytics — все, что нужно знать (обзор ключевых моментов)

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров4.8K

Predictive Analytics — или по-русски плановая или прогнозная аналитика, в основе которой лежит ответ на вопрос: «Что может произойти?»

Читать далее
Всего голосов 8: ↑6 и ↓2+4
Комментарии0

Покупка оптимальной квартиры с R

Время на прочтение12 мин
Количество просмотров61K
Многие люди сталкиваются с вопросом покупки или продажи недвижимости, и важный критерий здесь, как бы не купить дороже или не продать дешевле относительно других, сопоставимых вариантов. Простейший способ — сравнительный, ориентироваться на среднюю цену метра в конкретном месте и экспертно добавляя или снижая проценты от стоимости за достоинства и недостатки конкретной квартиры. image Но данный подход трудоемок, неточен и не позволит учесть все многообразие отличий квартир друг от друга. Поэтому я решил автоматизировать процесс выбора недвижимости, используя анализ данных путем предсказания «справедливой» цены. В данной публикации описаны основные этапы такого анализа, выбрана лучшая предиктивная модель из восемнадцати протестированных моделей на основании трех критериев качества, в итоге лучшие (недооцененные) квартиры сразу помечаются на карте, и все это используя одно web-приложение, созданное с помощью R.

Читать дальше →
Всего голосов 62: ↑59 и ↓3+56
Комментарии35

Как программист новую машину подбирал

Время на прочтение10 мин
Количество просмотров40K
В предыдущих статьях (I, II, III) я подробно рассказывал о разработке сервиса для поиска выгодных б/у автомобилей в РФ.

Поездив продолжительное время на различных б/у машинах, я задумался о приобретении нового авто и решил этот вопрос подробно изучить. В крупных городах существует огромное количество официальных дилеров, по крайней мере для популярных брендов. Дилеры отличаются друг от друга перечнем автомобилей в наличии и размером предоставляемых скидок на различные модели. В поисках интересующих меня автомобилей мне не хотелось обзванивать и посещать всех дилеров подряд. На мой взгляд, разумно было предварительно отобрать по априорной информации только тех дилеров, которые предоставляют самые низкие цены на интересующие меня модели и комплектации. Тот факт, что при личном общении, если уметь торговаться, размер скидки может существенно возрасти никак не противоречит цели в первую очередь посетить дилеров, предоставляющих наиболее выгодные цены на рынке.

Я собрал данные о новых автомобилях, проанализировал, оформил в виде сервиса, и под конец года, когда скидки у дилеров максимальны, решил поделиться им с вами.

Читать дальше →
Всего голосов 39: ↑34 и ↓5+29
Комментарии59

Как программист машину покупал

Время на прочтение9 мин
Количество просмотров121K
Недавно я озадачился поиском б.у. автомобиля, взамен только что проданного, и, как это обычно бывает, на эту роль претендовали несколько конкурентов.

Как известно, для покупки авто на территории РФ существует несколько крупных авторитетных сайтов (auto.ru, drom.ru, avito.ru), поиску на которых я и отдал предпочтение. Моим требованиям отвечали сотни, а для некоторых моделей и тысячи, автомобилей, с перечисленных выше сайтов. Помимо того, что искать на нескольких ресурсах неудобно, так еще, прежде чем ехать смотреть авто “вживую”, я хотел бы отобрать выгодные (цена которых относительно рынка занижена) предложения по априорной информации которую предоставляет каждый из ресурсов. Я, конечно, очень хотел решить несколько переопределенных систем алгебраических уравнений (возможно и нелинейных) высокой размерности вручную, но пересилил себя, и решил этот процесс автоматизировать.
image
Читать дальше →
Всего голосов 73: ↑71 и ↓2+69
Комментарии208

Как программист машину покупал. Часть II

Время на прочтение11 мин
Количество просмотров39K
В предыдущей статье на примере покупки Mercedes-Benz E-klasse не старше 2010 года выпуска стоимостью до 1.5 млн рублей в Москве была рассмотрена задача поиска выгодных автомобилей. Под выгодными следует понимать предложения, цена которых ниже рыночной в текущий момент среди объявлений, собранных со всех наиболее авторитетных сайтов по продаже б/у автомобилей в РФ.

На первом этапе в качестве метода машинного обучения была выбрана множественная линейная регрессия, были рассмотрены правомерность ее использования, а также плюсы и минусы. Простая линейная регрессия была выбрана в качестве ознакомительного алгоритма. Очевидно, что существует еще много методов машинного обучения для решения поставленной задачи регрессии. В этой статье я хотел бы рассказать вам, как именно я выбирал наиболее оптимальный алгоритм машинного обучения для исследуемой модели, который в настоящее время используется в реализованном мною сервисе — robasta.ru.


Читать дальше →
Всего голосов 67: ↑54 и ↓13+41
Комментарии48

Предиктивная аналитика на платформе SCP

Время на прочтение6 мин
Количество просмотров8K

Это третья публикация в рамках помощи участникам конкурса «SAP Кодер-2017».


Каждое предприятие в процессе своей жизнедеятельности генерирует значительное количество данных, как «больших», так и не очень. Эти данные часто можно использовать для получения нового знания, которое, в свою очередь может оказать существенное влияние на стратегию развития бизнеса или тактику поведения в некоторые локальные моменты работы. Сейчас, в связи с развитием вычислительной техники и ростом объема накопленных данных, большое развитие получили численные методы, позволяющие извлекать полезную информацию из массива «сырых» данных и использовать ее в различных бизнес-сценариях.


Читать дальше →
Всего голосов 16: ↑14 и ↓2+12
Комментарии0

Data-driven decision на примере выбора цвета для покраски стен

Время на прочтение8 мин
Количество просмотров2.2K
Начав выбирать себе цвет для покраски стены в комнате, я столкнулся с интересной вещью. Весь этот процесс с самого начала начал напоминать работу над каким-нибудь IT-ML-Blah-blah-blah-аналитическим проектом.

Тут есть и заказчик, который не очень понимает, что именно он хочет, но хочет, чтобы все было хорошо и ему нравилось. Еще есть несколько заинтересованных лиц со стороны заказчика, которые не могут договориться по вопросу, что такое «хорошо». Есть какие-то переформулировки задачи, которые под большим вопросом релевантны этому самому «хорошо», но по-крайней мере как-то решаемы. Есть подбор методов решения и попытки их реализовывать. Есть итеративность, которая имплицитно, но монотонно, ведет к какому-то решению, которое бы всех устроило. И есть некоторые странные выводы, которые бы с трудом можно было бы сделать в «реальном» проекте, потому что из-за общей нервозности и участия в процессе денег фокус внимания редко останавливается на этих местах процесса.


Читать дальше →
Всего голосов 10: ↑9 и ↓1+8
Комментарии9

Как предсказать курс рубля к доллару при помощи SAP Predictive Analytics

Время на прочтение10 мин
Количество просмотров4.7K
SAP в последние годы сфокусировалась на развитии машинного обучения, обработки больших данных и развитии интернета вещей. Это три важнейших технологических направления, которые компания развивает в своих решениях. SAP работает не только над развитием инструментом, но и на применении этих технологий на практике. Наличие большого числа клиентов, автоматизировавших свои бизнес-процесса на продуктах SAP, позволяет анализировать клиентские потребности комплексно, предлагать новые подходы в использовании клиентских данных для увеличения эффективности бизнес-процессов.

Давайте посмотрим, как выглядит анализ данных с использованием инструмента предиктивной аналитики от SAP.

Читать дальше →
Всего голосов 11: ↑6 и ↓5+1
Комментарии6

Как программист машину покупал. Часть III

Время на прочтение3 мин
Количество просмотров14K
В двух предыдущих частях (I, II) своего повествования о сервисе для поиска выгодных автомобилей я подробно изложил техническую сторону вопроса — постановку задачи и ее решение.

В этой статье я более подробно остановлюсь на результатах и возможностях сервиса robasta.ru.

Для тех, кто не читал предыдущие статьи и не горит желанием этого делать:

Robasta.ru — сервис для поиска выгодных автомобилей (цена которых ниже рыночной) по данным со всех основных сайтов с объявлениями о продаже б/у автомобилей в РФ.

Перед покупкой автомобиля большинство людей хочет продать предыдущий и сделать это быстро и эффективно — для этого на нашем сервисе существует услуга оценки автомобиля, воспользовавшись которой, вы получите pdf-сертификат, где будет указана стоимость вашего авто в данный момент, стоимость в будущем (если достаточно статистических данных по вашей модели) и многое другое.
Для экономии вашего времени на сайте реализован telegram-информатор, позволяющий получать уведомления о новых объявлениях интересующих вас моделей автомобилей с необходимой вам частотой.

image
Читать дальше →
Всего голосов 20: ↑17 и ↓3+14
Комментарии54

Тренды продуктовой аналитики нового времени

Время на прочтение7 мин
Количество просмотров6.9K


О продуктовой аналитике на Хабре пишут не так часто, но публикации, причем хорошие, появляются с завидной регулярностью. Большинство статей о продуктовой аналитике появились за последние пару лет, и это логично — ведь продуктовая разработка становится все более важной как для IT, так и для бизнеса, лишь косвенно связанного с информационными технологиями.

Здесь же, на Хабре, была опубликована статья, в которой неплохо описаны ожидания компании от продуктового аналитика. Такой специалист должен, во-первых, искать и находить перспективные точки роста продукта, во-вторых, идентифицировать и подтверждать актуальность проблемы путем ее формулировки и масштабирования. Точнее не скажешь. Но продуктовая аналитика развивается, появляются новые инструменты для работы и тренды, которые помогают работать продуктовым аналитикам. Как раз о трендах, в привязке к работе мобильных приложений и сервисов мы и поговорим в этой статье.
Читать дальше →
Всего голосов 18: ↑16 и ↓2+14
Комментарии4

Первые три дня жизни поста на Хабре

Время на прочтение3 мин
Количество просмотров4.9K
Каждый автор переживает за жизнь своей публикации, после опубликования смотрит статистику, ждет и беспокоится за комментарии, желает, чтобы публикация набрала хотя бы среднее число просмотров. У Хабра эти инструменты кумулятивные и поэтому достаточно сложно представить, как публикация автора начинает свою жизнь на фоне других публикаций.

Как известно, основная масса публикаций набирает просмотры в первые три дня. Чтобы представить, как живет публикация, я отследил статистику и представил механизм мониторинга и сравнения. Данный механизм будет применен к этой публикации и все смогут посмотреть, как это работает.

Первым этапом была собрана статистика о динамике публикаций за три первых дня жизни поста. Для этого анализировал потоки читателей, по публикациям за 28 сентября в период их жизни с 28 сентября по 1 октября 2019 г. путем фиксирования количества просмотров через различные промежутки времени в этот период. Первая диаграмма представлена на рисунке ниже, она получена в результате согласования динамики просмотров по времени.

Как можно посчитать из диаграммы, среднее число просмотров публикации через 72 часа при степенной функции аппроксимации составит ориентировочно 8380 просмотров.


Рис. 1. Распределение просмотров по времени, для всех публикаций.
Читать дальше →
Всего голосов 44: ↑40 и ↓4+36
Комментарии37

Опыт разработки требований к профессиональным качествам data scientist

Время на прочтение12 мин
Количество просмотров6.5K
Сегодня практически любой бизнес ощущает потребность в исследовании данных. Data science не воспринимается как нечто новое. Тем не менее, не для всех очевидно, каким должен быть нанимаемый специалист.

Данная статья написана не HR-специалистом, а дата сайнтистом, поэтому стилистика изложения весьма специфична, но в этом есть и преимущество – это взгляд изнутри, позволяющий понять, какие качества data scientist являются необходимыми для профессии, для того, чтобы компания могла положиться на такого человека.


Пролог


Пришло время, когда data science стартап вырос из пеленок — число задач для анализа возросло с непредвиденной скоростью, и эта скорость сразу же перестала компенсироваться автоматизацией. Стало очевидно, что нужны новые мозги в команду…

Как мне сначала казалось, человек требовался вполне определенный: всего лишь обычный дата-что-то-там… программист, аналитик, статистик. Так в чем же сложность составить список требований?

“В инженерном деле, если не знаете, что делаете — не стоит этого делать.”
Ричард Хэмминг

Подошел я к делу как обычно. Достал два листа бумаги. Один озаглавил «Технические навыки», другой — «Профессиональные качества». После этого возникло желание полезть на какой-нибудь ресурс, найти там пачку резюме, выписать списки качеств, выбрать те, что понравятся. Но что-то меня остановило. “Это не мой способ, — сказал я себе. — Я в этом не разбираюсь. Я разбираюсь в задачах..”
Читать дальше →
Всего голосов 10: ↑10 и ↓0+10
Комментарии22

Эволюция данных: от больших к бесконечным

Время на прочтение10 мин
Количество просмотров2.4K

“Блиц, блиц, скорость без границ!” - помните этого очень смешного и очень н-е-е-е-с-п-е-ш-н-о-г-о ленивца по имени Блиц из мультфильма Зверополис? Он всплывает в памяти всякий раз, когда мы сталкиваемся с чьей-то медленной работой или реакцией. На самом деле Блицу требовалось всего 10 секунд на каждую фразу или операцию. Согласитесь, 10 секунд - не так уж и много. В реальной жизни нам часто приходится ждать куда дольше и ожидание выглядит совсем не так смешно. Ждать - неприятно и очень дорого. 

В этой статье хочется поговорить о том, почему нам вообще приходится ждать, как перестать ждать и какой интересный мир открывается, если жить со скоростью реальности. Точнее, поговорим о технологиях, которые и определяют время ожидания: скорость обработки данных, выдачи предсказаний и принятия решений.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии0