Как стать автором
Обновить
39
0
Андрей Огурцов @ogurtsov

Биостатистик

Отправить сообщение

Машинное обучение на языке R с использованием пакета mlr3

Время на прочтение16 мин
Количество просмотров9.5K

Источник: https://mlr3book.mlr-org.com/


Привет, Хабр!

В этом сообщении мы рассмотрим самый продуманный на сегодняшний день подход к машинному обучению на языке R — пакет mlr3 и экосистему вокруг него. Данный подход основан на «нормальном» ООП с использованием R6-классов и на представлении всех операций с данными и моделями в виде графа вычислений. Это позволяет создавать упорядоченные и гибкие пайплайны для задач машинного обучения, но на первых порах может показаться сложным и запутанным. Ниже постараемся внести определенную ясность и замотивировать к использованию mlr3 в ваших проектах.

Содержание:


  1. Немного истории и сравнение с конкурирующими решениями
  2. Технические детали: R6-классы и пакет data.table
  3. Основные составляющие ML-пайплайна в mlr3
  4. Настройка гиперпараметров
  5. Обзор экосистемы mlr3
  6. Пайпы и граф вычислений
Читать дальше →
Всего голосов 28: ↑26 и ↓2+31
Комментарии7

Covid-19, ваше общество и вы с точки зрения науки о данных

Время на прочтение15 мин
Количество просмотров28K

Как датасайентисты, мы обязаны уметь анализировать и интерпретировать данные. И мы были очень обеспокоены результатами анализа данных, касающихся covid-19. Наибольшему риску подвержены самые уязвимые категории – пожилые люди и люди с достатком ниже среднего, но для контроля распространения и влияния заболевания все мы должны изменить свое поведение. Тщательно и регулярно мойте руки, избегайте скоплений людей, отменяйте мероприятия и не касайтесь своего лица. В этом сообщении мы объясним причину нашего беспокойства, и расскажем, почему вам также следует беспокоиться. Краткое изложение ключевой информации можно найти в публикации Итана Алли (Ethan Alley) Corona in Brief (автор — президент некоммерческой организации, разрабатывающей технологии для уменьшения риска пандемий).


Содержание:


  1. Нам нужна работоспособная медицинская система
  2. Это не что-то типа гриппа
  3. Подход «Не паникуйте, сохраняйте спокойствие» не помогает
  4. Это касается не только Вас
  5. Мы должны сделать кривую более пологой
  6. Реакция общества имеет значение
  7. Мы в США плохо проинформированы
  8. Заключение
Читать дальше →
Всего голосов 27: ↑23 и ↓4+32
Комментарии46

Quick Draw Doodle Recognition: как подружить R, C++ и нейросетки

Время на прочтение32 мин
Количество просмотров6.8K


Привет, Хабр!

Осенью прошлого года на Kaggle проходил конкурс по классификации нарисованных от руки картинок Quick Draw Doodle Recognition, в котором среди прочих поучаствовала команда R-щиков в составе Артема Клевцова, Филиппа Управителева и Андрея Огурцова. Подробно описывать соревнование не будем, это уже сделано в недавней публикации.

С фармом медалек в этот раз не сложилось, но было получено много ценного опыта, поэтому о ряде наиболее интересных и полезных на Кагле и в повседневной работе вещей хотелось бы рассказать сообществу. Среди рассмотренных тем: нелегкая жизнь без OpenCV, парсинг JSON-ов (на этих примерах рассматривается интеграция кода на С++ в скрипты или пакеты на R посредством Rcpp), параметризация скриптов и докеризация итогового решения. Весь код из сообщения в пригодном для запуска виде доступен в репозитории.

Содержание:


  1. Эффективная загрузка данных из CSV в базу MonetDB
  2. Подготовка батчей
  3. Итераторы для выгрузки батчей из БД
  4. Выбор архитектуры модели
  5. Параметризация скриптов
  6. Докеризация скриптов
  7. Использование нескольких GPU в облаке Google Cloud
  8. Вместо заключения
Читать дальше →
Всего голосов 48: ↑48 и ↓0+48
Комментарии7

Глубокое обучение с использованием R и mxnet. Часть 1. Основы работы

Время на прочтение14 мин
Количество просмотров9.7K


Привет, Хабр!

Эта статья является первой частью руководства по приготовления нейронных сетей с использованием библиотеки mxnet на языке R. Источником вдохновения послужила онлайн-книга Deep Learning — The Straight Dope, объема которой достаточно для осознанного использования mxnet на Питоне. Примеры оттуда будут воспроизводиться с поправкой на отсутствие реализации интерфейса Gluon для R. В первой части рассмотрим установку библиотеки и общие принципы работы, а также реализуем простую линейную модель для решения задачи регрессии.
Читать дальше →
Всего голосов 33: ↑32 и ↓1+31
Комментарии1

Глубокое обучение с R и Keras на примере Carvana Image Masking Challenge

Время на прочтение18 мин
Количество просмотров14K


Привет, Хабр!

Пользователи R долгое время были лишены возможности приобщиться к deep learning-у, оставаясь в рамках одного языка программирования. С выходом MXNet ситуация стала меняться, но своеобразная документация и частые изменения, ломающие обратную совместимость, все еще ограничивают популярность данной библиотеки.

Гораздо привлекательнее выглядит использование R-интерфейсов к TensorFlow и Keras с бекендами на выбор (TensorFlow, Theano, CNTK), подробной документацией и множеством примеров. В этом сообщении будет разобрано решение задачи сегментации изображений на примере соревнования Carvana Image Masking Challenge (победители), в котором требуется научиться отделять автомобили, сфотографированные с 16 разных ракурсов, от фона. "Нейросетевая" часть полностью реализована на Keras, за обработку изображений отвечает magick (интерфейс к ImageMagick), параллельная обработка обеспечивается parallel+doParallel+foreach (Windows) или parallel+doMC+foreach (Linux).

Читать дальше →
Всего голосов 60: ↑58 и ↓2+56
Комментарии1

Информация

В рейтинге
Не участвует
Откуда
Украина
Работает в
Зарегистрирован
Активность