Как стать автором
Обновить

В тени случайного леса

Разработка веб-сайтов *Data Mining *

1. Вступление


Это небольшой рассказ о практических вопросах использования машинного обучения для масштабных статистических исследований различных данных в Интернет. Также будет затронута тема применения базовых методов математической статистики для анализа данных.


Читать дальше →
Всего голосов 26: ↑23 и ↓3 +20
Просмотры 13K
Комментарии 5

Открытый курс машинного обучения. Тема 10. Градиентный бустинг

Блог компании Open Data Science Data Mining *Алгоритмы *Математика *Машинное обучение *

Всем привет! Настало время пополнить наш с вами алгоритмический арсенал.


Сегодня мы основательно разберем один из наиболее популярных и применяемых на практике алгоритмов машинного обучения — градиентный бустинг. О том, откуда у бустинга растут корни и что на самом деле творится под капотом алгоритма — в нашем красочном путешествии в мир бустинга под катом.


UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.


Видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).

Читать дальше →
Всего голосов 64: ↑63 и ↓1 +62
Просмотры 252K
Комментарии 17

Как дела у CatBoost? Интервью с разработчиками

Блог компании JUG Ru Group Машинное обучение *


Накануне конференции SmartData 2017 Анна Вероника Дорогуш дала обзорное интервью о текущем положении дел в CatBoost — относительно молодой библиотеке для машинного обучения на градиентном бустинге. Анна — руководитель группы, которая занимается развитием алгоритмов машинного обучения в Яндексе.

В интервью обсуждается новый метод машинного обучения, основанный на градиентном бустинге. Он разработан в Яндексе для решения задач ранжирования, предсказания и построения рекомендаций. Если вы еще не знакомы с этой технологией, рекомендуется прочитать анонс на Хабре.
Читать дальше →
Всего голосов 36: ↑32 и ↓4 +28
Просмотры 9.6K
Комментарии 8

Числа и буквы: как прошла конференция SmartData

Блог компании JUG Ru Group Big Data *Машинное обучение *


Как рассказывать о конференции, где ключевым словом было «данные»? Мы решили, что в тексте о прошедшей в Санкт-Петербурге SmartData интересно сделать подзаголовками конкретные числа. Эти данные получились очень разнородными, нейросеть из них вряд ли что-то полезное извлечёт, а вот вы можете.
Читать дальше →
Всего голосов 24: ↑23 и ↓1 +22
Просмотры 3.4K
Комментарии 0

Анализ колоса пшеницы методами компьютерного зрения. Определение плоидности

Обработка изображений *Машинное обучение *Биотехнологии Искусственный интеллект
14-ого августа завершился первый воркшоп Математического центра в Академгородке. Я выступал в роли куратора проекта по анализу колоса пшеницы методами компьютерного зрения. В этой заметке хочу рассказать, что из этого вышло.

Для генетики пшеницы важной задачей является определение плоидности (число одинаковых наборов хромосом, находящихся в ядре клетки). Классический подход решения этой задачи основан на использовании молекулярно-генетических методов, которые дороги и трудозатратны. Определение типов растений возможно только в лабораторных условиях. Поэтому в данной работе мы проверяем гипотезу: возможно ли определить плоидность пшеницы, используя методы компьютерного зрения, только лишь на основании изображения колоса.

image
Читать дальше →
Всего голосов 9: ↑9 и ↓0 +9
Просмотры 3.3K
Комментарии 0

Быстрый градиентный бустинг с CatBoost

Блог компании OTUS Python *Программирование *Машинное обучение *
Перевод
Привет, хабровчане! Подготовили перевод статьи для будущих учеников базового курса Machine Learning.





В градиентном бустинге прогнозы делаются на основе ансамбля слабых обучающих алгоритмов. В отличие от случайного леса, который создает дерево решений для каждой выборки, в градиентном бустинге деревья создаются последовательно. Предыдущие деревья в модели не изменяются. Результаты предыдущего дерева используются для улучшения последующего. В этой статье мы подробнее познакомимся с библиотекой градиентного бустинга под названием CatBoost.


Источник
Читать дальше →
Всего голосов 6: ↑6 и ↓0 +6
Просмотры 43K
Комментарии 1

Эволюция рекомендаций ресторанов в Delivery Club. Часть 1

Блог компании Delivery Club Tech Big Data *Машинное обучение *Управление e-commerce *Data Engineering *

Всем привет! Меня зовут Иван Максимов, я работаю Lead Data Scientist’ом в команде рекомендаций и A/B-тестирования Delivery Club. Это первая из серии статей про нашу рекомендательную систему. Я расскажу о том, как мы определили проблемы предыдущего подхода к рекомендациям, и как начали строить новый: с оптимизацией рекомендаций сразу под несколько бизнес-метрик. 

Статья будет интересна data scientist’ам и менеджерам продуктов, которые хотят с нуля построить систему рекомендации контента.

Читать далее
Всего голосов 17: ↑16 и ↓1 +15
Просмотры 5.6K
Комментарии 0

Эволюция рекомендаций ресторанов в Delivery Club. Часть 2

Блог компании Delivery Club Tech Big Data *Машинное обучение *Управление e-commerce *Data Engineering *

Всем привет! Это вторая часть статьи об изменении подхода к рекомендациям в Delivery Club. В первой части я подробно описал текущие проблемы нашей рекомендательной системы: локально оптимальный баланс exploitation и cold start, а также недостаточно развитый механизм exploration. А также рассказал, как мы решали проблему exploitation через карусель «Вы заказывали», а проблему cold start — через карусель популярных фастфуд-ресторанов. 

Читать далее
Всего голосов 16: ↑15 и ↓1 +14
Просмотры 2.4K
Комментарии 4

Пример ML проекта с Pipelines+Optuna+GBDT

Python *Машинное обучение *
Из песочницы

Началось всё с того, что я открыл для себя Kaggle. В частности, я принимаю участие в публичном соревновании Spaceship Titanic. Это более "молодая" версия классического Титаника. Код, продемонстированный в этой статье, позволил мне занять не самое последнее место в публичном рейтинге. Хочу поделиться опытом.

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 3.9K
Комментарии 2