Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. Данный выпуск получился достаточно объемным, в нем есть достаточно много материалов по Data Engineering. Все больше материалов появляется с конференции KDD 2014. Как обычно есть статьи про различные соревнования по машинному обучению, в том числе есть статьи о недавно прошедшем соревновании «ImageNet Large Scale Visual Recognition Challenge (ILSVRC)». Также есть достаточно много примеров кода на языках программирования R и Python. Есть упоминание о, как мне кажется, очень любопытном онлайн-курсе «Introduction to Computational Finance and Financial Econometrics».
Материалы по анализу данных и машинному обучению
- Анализ результатов ILSVRC
Анализ результатов прошедшего недавно «ImageNet Large Scale Visual Recognition Challenge (ILSVRC)» — ежегодного соревнования в области обработки изображений, на котором команда из Google заняла первое место. - Руководство по моделированию данных в MongoDb
Не так давно на сайте компании Daprota был опубликован Data Modeling Adviser for MongoDB — очень полезное руководство по моделированию данных в NoSQL базе данных MongoDb - Соревнование AVITO.ru на Kaggle
Автор рассказывает об опыте, полученном во время участия в соревновании AVITO.ru на Kaggle и об анализе различных подходов к решению поставленной задачи, которые применили другие участники соревнования. - Фреймворк для построения словаря при анализе текста
Продолжение серии статей по анализу текста и о работе с неструктурированными данными. В данной статье автор рассказывает о возможных подходах при решении задачи построения словаря при анализе текстовых данных. - Улучшение алгоритмов обработки изображений
Небольшая статья о ежегодном соревновании в области обработки изображений, на котором команда из Google заняла первое место, вдвое улучшив прошлогодний результат. - Онлайн-курс «Introduction to Computational Finance and Financial Econometrics»
Совсем недавно на Coursera начался онлайн-курс, который будет полезен тем, кому интересна статистика и язык программирования R, а также тому, кому интересно применение статистических методов в финансовой сфере. - О линейной регрессии простым языком
Краткое введение в линейную регрессию, написанное достаточно простым языком. - Stinger.next: улучшенный SQL с помощью Hadoop и Hive
Статья с блога компании Hortonworks о планах на новый продукт Stinger.next, который позволит значительно улучшить многие качественные показатели работы SQL-запросов при работе с Hadoop. - Использование графовой базы данных для анализа текста
Пример использования графовой базы данных Neo4j и Graphify для классификации текста с помощью алгоритма Deep Learning. - Слайды с конференции KDD 2014
Слайды нескольких выступлений с KDD 2014. - Введение в Machine Learning Studio для Microsoft Azure ML
В данной статье рассказывается о Machine Learning Studio, которая позволяет работать с новым облачным продуктом для машинного обучения Microsoft Azure ML. - Deep Learning в Google
Небольшая новостная статья о прогрессе компании Google в области машинного обучения Deep Learning. В статье не затрагиваются технические подробности реализации алгоритмов Deep Learning. - ShinyTree: jsTree + shiny
Короткий пример визуализации с помощью библиотеки shinyTree для языка программирования R и JavaScript-библиотеки jsTree. - Создание документа Excel с помощью Python и Pandas
Пример кода, который демонстрирует создание документа Excel с помощью языка программирования Python и библиотеки Pandas. - Тренды NoSQL: август 2014
Текущие тренды по основным NoSQL-системам с различных сайтов интернет-рекрутмента (Indeed, SimplyHired). - Мои любимые графики
Автор статьи рассказывает о нескольких видов графиклов, которые позволяют просто и наглядно визуализировать различные виды исходных данных. - Видеолекции с курса «Big Data, Large Scale Machine Learning»
Видеоматериалы с курса «Big Data, Large Scale Machine Learning», которой проходил в 2013 году и продлился 14 недель, основными инструкторами на нем были Yann LeCun и John Langford. - Sampling error и non-sampling error
Небольшая статья, хорошо объясняющая разницу между двумя понятиями: sampling error и non-sampling error. - Машинное обучение с R
Автор блога MachineLearningMastery рассказывает как быстро начать применять алгоритмы машинного обучения на языке программирования R. - Захватывающий год для Apache Spark
Небольшая статья о том, как развивалась популярность продукта Apache Spark за последний год. - Как перевести запросы MapReduce в Apache Spark
Полезная статья с блога компании Cloudera, которая рассказывает о том, как перевести запросы MapReduce в набирающий популярность Apache Spark и разобраться в чем разница концепций в данных двух подходах. - Что такое Big Data?
Что такое Big Data, на этот вопрос в блоге Berkley отвечают более 40 специалистов. - Оценка точности предсказательной модели с помощью R Caret
5 способов оценки точности предсказательной модели доступных в библиотеке машинного обучения Caret для языка программирования R, описанные автором популярного блога MachineLearningMastery. - Дайджест лучших материалов экосистемы Hadoop
Сборник лучших материалов за август по теме экосистемы Apache Hadoop от блога компании Cloudera. - Ввведение в Predictive Analytics
Первая часть новой серии статей от портала insideBIGDATA, на этот раз по теме Predictive Analytics. - Использование Google Charts в R Markdown
Небольшая статья, в которой приводится пример использования Google Charts в документах R Markdown. - Кто такой Data Scientist?
Неплохая, как мне кажется, попытка описать то, чем занимается Data Scientist. - Использование шаблонов в D3.js
Применение шаблонов в популярной библиотеке визуализации D3 на языке программирования JavaScript. - 6 видов деятельности Data Scientist
Интересная статья, рассказывающая о 6 различных направлениях деятельности, которой приходится заниматься Data Scientist в своей повседневной работе. - 9 советов по выбору NoSQL-хранилища (часть 1)
Первая часть из серии цикла статей, которые расскажут о том, как правильно сделать выбор NoSQL-хранилища. - Обзор материалов по высокой производительности
Еженедельный дайджест наиболее интересных материалов по высокой производительности от популярного портала HighScalability - Apache Pig вместе с Apache Spark
Интересная статья с блога компании Cloudera об использовании Apache Pig вместе с Apache Spark. - Кумулятивная частотная диаграмма в R
Пример построения кумулятивной частной диаграммы с помощью языка программирования R и библиотеки ggplot2. - Анализ изображений с помощью EBImage
Пример работы с изображениями с помощью языка программирования R и библиотеки EBImage. - 5 способов создания двумерных диаграмм в R
5 примеров создания двумерных диаграмм с помощью языка программирования R. - Несколько слов о «линейной» регрессии
Интересная статья о линейной регрессии с примерами на языке программирования R. - Работа с MongoDb из R
Полезная и очень актуальная статья, рассказывающая о том, как можно работать с NoSQL базой данных MongoDb из языка программирования R. - Newsletters по машинному обучению и анализу данных
Часто достаточно сложно уследить за всеми новостями в области анализа данных и машинного обучения. Автор популярного блога MachineLearningMastery предлагает небольшой список newsletters, которые могут упростить задачу получения актуальных новостей из области Data Science. - Нотификации в R
Пример кода, который позволит получать нотификации, когда скрипт на языке программирования R закончился. - Нотификации об ошибках в R
Еще один пример кода, позволяющий отправлять нотификации в случае ошибок при исполнении скрипта на языке программирования R. - Статистическое моделирование против машинного обучения
Интересное сравнение статистического моделирования и машинного обучения. - Нейронные сети шаг за шагом
Хороший иллюстрированный пример того, как работает нейронная сеть. - Интересные наборы данных
Несколько разных наборов данных из социальных медиа с небольшим описанием каждого. - Пример реализации дерева принятия решений
Пример реализации дерева принятия решений на языке программирования Python.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №11 (25 августа — 1 сентября 2014)