![](https://habrastorage.org/files/4cf/086/e49/4cf086e49a2b4f66a420085544e4c2e9.jpg)
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. Данный выпуск получился достаточно объемным, в нем есть достаточно много материалов по Data Engineering. Все больше материалов появляется с конференции KDD 2014. Как обычно есть статьи про различные соревнования по машинному обучению, в том числе есть статьи о недавно прошедшем соревновании «ImageNet Large Scale Visual Recognition Challenge (ILSVRC)». Также есть достаточно много примеров кода на языках программирования R и Python. Есть упоминание о, как мне кажется, очень любопытном онлайн-курсе «Introduction to Computational Finance and Financial Econometrics».
Материалы по анализу данных и машинному обучению
Анализ результатов ILSVRC
Анализ результатов прошедшего недавно «ImageNet Large Scale Visual Recognition Challenge (ILSVRC)» — ежегодного соревнования в области обработки изображений, на котором команда из Google заняла первое место.Руководство по моделированию данных в MongoDb
Не так давно на сайте компании Daprota был опубликован Data Modeling Adviser for MongoDB — очень полезное руководство по моделированию данных в NoSQL базе данных MongoDbСоревнование AVITO.ru на Kaggle
Автор рассказывает об опыте, полученном во время участия в соревновании AVITO.ru на Kaggle и об анализе различных подходов к решению поставленной задачи, которые применили другие участники соревнования.Фреймворк для построения словаря при анализе текста
Продолжение серии статей по анализу текста и о работе с неструктурированными данными. В данной статье автор рассказывает о возможных подходах при решении задачи построения словаря при анализе текстовых данных.Улучшение алгоритмов обработки изображений
Небольшая статья о ежегодном соревновании в области обработки изображений, на котором команда из Google заняла первое место, вдвое улучшив прошлогодний результат.Онлайн-курс «Introduction to Computational Finance and Financial Econometrics»
Совсем недавно на Coursera начался онлайн-курс, который будет полезен тем, кому интересна статистика и язык программирования R, а также тому, кому интересно применение статистических методов в финансовой сфере.О линейной регрессии простым языком
Краткое введение в линейную регрессию, написанное достаточно простым языком.Stinger.next: улучшенный SQL с помощью Hadoop и Hive
Статья с блога компании Hortonworks о планах на новый продукт Stinger.next, который позволит значительно улучшить многие качественные показатели работы SQL-запросов при работе с Hadoop.Использование графовой базы данных для анализа текста
Пример использования графовой базы данных Neo4j и Graphify для классификации текста с помощью алгоритма Deep Learning.Слайды с конференции KDD 2014
Слайды нескольких выступлений с KDD 2014.Введение в Machine Learning Studio для Microsoft Azure ML
В данной статье рассказывается о Machine Learning Studio, которая позволяет работать с новым облачным продуктом для машинного обучения Microsoft Azure ML.Deep Learning в Google
Небольшая новостная статья о прогрессе компании Google в области машинного обучения Deep Learning. В статье не затрагиваются технические подробности реализации алгоритмов Deep Learning.ShinyTree: jsTree + shiny
Короткий пример визуализации с помощью библиотеки shinyTree для языка программирования R и JavaScript-библиотеки jsTree.Создание документа Excel с помощью Python и Pandas
Пример кода, который демонстрирует создание документа Excel с помощью языка программирования Python и библиотеки Pandas.Тренды NoSQL: август 2014
Текущие тренды по основным NoSQL-системам с различных сайтов интернет-рекрутмента (Indeed, SimplyHired).Мои любимые графики
Автор статьи рассказывает о нескольких видов графиклов, которые позволяют просто и наглядно визуализировать различные виды исходных данных.Видеолекции с курса «Big Data, Large Scale Machine Learning»
Видеоматериалы с курса «Big Data, Large Scale Machine Learning», которой проходил в 2013 году и продлился 14 недель, основными инструкторами на нем были Yann LeCun и John Langford.Sampling error и non-sampling error
Небольшая статья, хорошо объясняющая разницу между двумя понятиями: sampling error и non-sampling error.Машинное обучение с R
Автор блога MachineLearningMastery рассказывает как быстро начать применять алгоритмы машинного обучения на языке программирования R.Захватывающий год для Apache Spark
Небольшая статья о том, как развивалась популярность продукта Apache Spark за последний год.Как перевести запросы MapReduce в Apache Spark
Полезная статья с блога компании Cloudera, которая рассказывает о том, как перевести запросы MapReduce в набирающий популярность Apache Spark и разобраться в чем разница концепций в данных двух подходах.Что такое Big Data?
Что такое Big Data, на этот вопрос в блоге Berkley отвечают более 40 специалистов.Оценка точности предсказательной модели с помощью R Caret
5 способов оценки точности предсказательной модели доступных в библиотеке машинного обучения Caret для языка программирования R, описанные автором популярного блога MachineLearningMastery.Дайджест лучших материалов экосистемы Hadoop
Сборник лучших материалов за август по теме экосистемы Apache Hadoop от блога компании Cloudera.Ввведение в Predictive Analytics
Первая часть новой серии статей от портала insideBIGDATA, на этот раз по теме Predictive Analytics.Использование Google Charts в R Markdown
Небольшая статья, в которой приводится пример использования Google Charts в документах R Markdown.Кто такой Data Scientist?
Неплохая, как мне кажется, попытка описать то, чем занимается Data Scientist.Использование шаблонов в D3.js
Применение шаблонов в популярной библиотеке визуализации D3 на языке программирования JavaScript.6 видов деятельности Data Scientist
Интересная статья, рассказывающая о 6 различных направлениях деятельности, которой приходится заниматься Data Scientist в своей повседневной работе.9 советов по выбору NoSQL-хранилища (часть 1)
Первая часть из серии цикла статей, которые расскажут о том, как правильно сделать выбор NoSQL-хранилища.Обзор материалов по высокой производительности
Еженедельный дайджест наиболее интересных материалов по высокой производительности от популярного портала HighScalabilityApache Pig вместе с Apache Spark
Интересная статья с блога компании Cloudera об использовании Apache Pig вместе с Apache Spark.Кумулятивная частотная диаграмма в R
Пример построения кумулятивной частной диаграммы с помощью языка программирования R и библиотеки ggplot2.Анализ изображений с помощью EBImage
Пример работы с изображениями с помощью языка программирования R и библиотеки EBImage.5 способов создания двумерных диаграмм в R
5 примеров создания двумерных диаграмм с помощью языка программирования R.Несколько слов о «линейной» регрессии
Интересная статья о линейной регрессии с примерами на языке программирования R.Работа с MongoDb из R
Полезная и очень актуальная статья, рассказывающая о том, как можно работать с NoSQL базой данных MongoDb из языка программирования R.Newsletters по машинному обучению и анализу данных
Часто достаточно сложно уследить за всеми новостями в области анализа данных и машинного обучения. Автор популярного блога MachineLearningMastery предлагает небольшой список newsletters, которые могут упростить задачу получения актуальных новостей из области Data Science.Нотификации в R
Пример кода, который позволит получать нотификации, когда скрипт на языке программирования R закончился.Нотификации об ошибках в R
Еще один пример кода, позволяющий отправлять нотификации в случае ошибок при исполнении скрипта на языке программирования R.Статистическое моделирование против машинного обучения
Интересное сравнение статистического моделирования и машинного обучения.Нейронные сети шаг за шагом
Хороший иллюстрированный пример того, как работает нейронная сеть.Интересные наборы данных
Несколько разных наборов данных из социальных медиа с небольшим описанием каждого.Пример реализации дерева принятия решений
Пример реализации дерева принятия решений на языке программирования Python.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №11 (25 августа — 1 сентября 2014)