Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. Хочу также обратить внимание, что я выпустил первый дайджест по теме высокой производительности и Data Enginering: Обзор наиболее интересных материалов по высокой производительности (15 — 21 сентября 2014). Думаю, что кого-то он тоже может заинтересовать.

Общее



Соревнования по машинному обучению



Онлайн-курсы и обучающие материалы



Литература



Теория и алгоритмы машинного обучения, примеры кода


  • EN R Визуализация GPS-данных
    Неплохой пример кода для визуализации данных с GPS-устройства с использованием языка программирования R.
  • EN R Настройка .RProfile
    Статья посвящена полезной и интересной теме настройки параметров запуска R с помощью файла конфигурации .RProfile.
  • EN R Визуализация данных с помощью R Caret
    Автор блога MachineLearningMastery рассказывает о возможностях визуализации данных в популярной библиотеке по машинному обучению Caret для языка программирования R.
  • EN R Использование R Caret для Predictive Modeling
    Автор блога MachineLearningMastery рассказывает про использование популярной библиотеки Caret для языка программирования R для Predictive Modeling.
  • EN R Улучшение обучающей модели с помощью R Caret
    Автор блога MachineLearningMastery расс��азывает про возможности улучшения обучающей модели с помощью библиотеки Caret для языка программирования R
  • EN Для новичков R Серия слайдов по теме анализа данных на R
    В данном наборе слайдов Yanchang Zhao касается семи достаточно интересных тем по анализу данных и использует язык программирования R для примеров кода.
  • RU Теория R Диагностика линейных регрессионных моделей. Часть 1
    Первая часть серии статей по достаточно интересной теме диагностики линейных регрессионных моделей с блога «R: Анализ и визуализация данных». Примеры кода в статье написаны на языке программирования R.
  • EN Теория Введение в вероятностное программирование
    Достаточно неплохое введение в интересную тему вероятностного программирования с примерами кода.
  • EN Анализ тональности текста в рецензиях к фильмам
    Интересный пример анализа текстовой информации, а именно анализа тональности текста в рецензиях на фильмы, с использованием популярной графовой базы данных Neo4j и языка программирования Java.
  • EN Машинное обучение на живой среде
    Colin Ristig рассказывает о достаточно интересном и важном вопросе, который иногда забывают — работа алгоритма машинного обучения на живой среде.
  • EN Библиография по теме Deep Learning
    Большой список различных научных материалов по популярному методу машинному обучения Deep Learning, с разбиением на категории.

Видеоматериалы


  • EN Видеолекции Andrew Ng о Deep Learning
    Andrew Ng из Stanford University выступил на конференции «2014 Robotics: Science and Systems Conference» с интересным докладом о Deep Learning.
  • RU Видеолекции Moscow Data Science. September 2014 Meetup
    5 сентября посетил достаточно интересный meetup под названием Moscow Data Science — «September 2014 Meetup», организованный компанией Mail.ru. По ссылке можно будет посмотреть видео с данной встречи, я для удобства разметил время начала и длительность выступления каждого участника.

Data engineering


  • EN Кто и как использует Hadoop
    Интересная статья о текущем состоянии дел в экосистеме Hadoop: кто и как её пользуется, а также о преспективах развития.
  • RU Ближайшие встречи по Data Science в Москве
    В ближайшее время намечается сразу несколько интересных митапов, поэтому я решил опубликовать небольшой список ближайших интересных встреч по теме анализа данных и высокой производительности в Москве.
  • EN 10 способов работы с Hadoop через SQL-запросы
    10 инструментов и способов для работы с Hadoop через SQL-запросы и небольшое описание каждого.
  • RU HABR Приглашаем на HadoopKitchen
    Объявление о встрече, посвященной Hadoop, которая состоится в офисе Mail.ru. Я тоже собираюсь посетить данное мероприятие.
  • EN Видеолекции Введение в HBase
    Статья, содержащая видео и поясняющий материал по теме HBase — хранилища данных из экосистемы Hadoop, а также рассказывающая о ситуациях, когда стоит применять данное решение и когда не стоит.
  • EN Анонс Apache Spark 1.1
    Анонс новой версии Apache Spark 1.1 и описание основных нововведений.
  • EN Потоковая обработка данных в Apache Spark 1.1
    Статья о новых возможностях потоковой обработки данных в Apache Spark 1.1 и о вариантах использования данной функциональности.
  • EN R Python Статистические вычисления в Apache Spark 1.1
    Описание расширенных возможностей статистических вычислений в Apache Spark 1.1.

Обзоры



Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №13 (8 — 14 сентября 2014)

P.S. Думаю, что многим хотелось бы видеть больше материал по тематике на русском языке, так что если кто-то может посоветовать таковые, то я буду очень признателен и добавлю их в свой список ресурсов за которыми слежу.