Обзор наиболее интересных материалов по анализу данных и машинному обучению №12 (1 — 8 сентября 2014)
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. Данный выпуск получился достаточно объемным, в нем есть достаточно много материалов по Data Engineering. Все больше материалов появляется с конференции KDD 2014. Как обычно есть статьи про различные соревнования по машинному обучению, в том числе есть статьи о недавно прошедшем соревновании «ImageNet Large Scale Visual Recognition Challenge (ILSVRC)». Также есть достаточно много примеров кода на языках программирования R и Python. Есть упоминание о, как мне кажется, очень любопытном онлайн-курсе «Introduction to Computational Finance and Financial Econometrics».
Материалы по анализу данных и машинному обучению
-
Анализ результатов ILSVRC
Анализ результатов прошедшего недавно «ImageNet Large Scale Visual Recognition Challenge (ILSVRC)» — ежегодного соревнования в области обработки изображений, на котором команда из Google заняла первое место. -
Руководство по моделированию данных в MongoDb
Не так давно на сайте компании Daprota был опубликован Data Modeling Adviser for MongoDB — очень полезное руководство по моделированию данных в NoSQL базе данных MongoDb -
Соревнование AVITO.ru на Kaggle
Автор рассказывает об опыте, полученном во время участия в соревновании AVITO.ru на Kaggle и об анализе различных подходов к решению поставленной задачи, которые применили другие участники соревнования. -
Фреймворк для построения словаря при анализе текста
Продолжение серии статей по анализу текста и о работе с неструктурированными данными. В данной статье автор рассказывает о возможных подходах при решении задачи построения словаря при анализе текстовых данных. -
Улучшение алгоритмов обработки изображений
Небольшая статья о ежегодном соревновании в области обработки изображений, на котором команда из Google заняла первое место, вдвое улучшив прошлогодний результат. -
Онлайн-курс «Introduction to Computational Finance and Financial Econometrics»
Совсем недавно на Coursera начался онлайн-курс, который будет полезен тем, кому интересна статистика и язык программирования R, а также тому, кому интересно применение статистических методов в финансовой сфере. -
О линейной регрессии простым языком
Краткое введение в линейную регрессию, написанное достаточно простым языком. -
Stinger.next: улучшенный SQL с помощью Hadoop и Hive
Статья с блога компании Hortonworks о планах на новый продукт Stinger.next, который позволит значительно улучшить многие качественные показатели работы SQL-запросов при работе с Hadoop. -
Использование графовой базы данных для анализа текста
Пример использования графовой базы данных Neo4j и Graphify для классификации текста с помощью алгоритма Deep Learning. -
Слайды с конференции KDD 2014
Слайды нескольких выступлений с KDD 2014. -
Введение в Machine Learning Studio для Microsoft Azure ML
В данной статье рассказывается о Machine Learning Studio, которая позволяет работать с новым облачным продуктом для машинного обучения Microsoft Azure ML. -
Deep Learning в Google
Небольшая новостная статья о прогрессе компании Google в области машинного обучения Deep Learning. В статье не затрагиваются технические подробности реализации алгоритмов Deep Learning. -
ShinyTree: jsTree + shiny
Короткий пример визуализации с помощью библиотеки shinyTree для языка программирования R и JavaScript-библиотеки jsTree. -
Создание документа Excel с помощью Python и Pandas
Пример кода, который демонстрирует создание документа Excel с помощью языка программирования Python и библиотеки Pandas. -
Тренды NoSQL: август 2014
Текущие тренды по основным NoSQL-системам с различных сайтов интернет-рекрутмента (Indeed, SimplyHired). -
Мои любимые графики
Автор статьи рассказывает о нескольких видов графиклов, которые позволяют просто и наглядно визуализировать различные виды исходных данных. -
Видеолекции с курса «Big Data, Large Scale Machine Learning»
Видеоматериалы с курса «Big Data, Large Scale Machine Learning», которой проходил в 2013 году и продлился 14 недель, основными инструкторами на нем были Yann LeCun и John Langford. -
Sampling error и non-sampling error
Небольшая статья, хорошо объясняющая разницу между двумя понятиями: sampling error и non-sampling error. -
Машинное обучение с R
Автор блога MachineLearningMastery рассказывает как быстро начать применять алгоритмы машинного обучения на языке программирования R. -
Захватывающий год для Apache Spark
Небольшая статья о том, как развивалась популярность продукта Apache Spark за последний год. -
Как перевести запросы MapReduce в Apache Spark
Полезная статья с блога компании Cloudera, которая рассказывает о том, как перевести запросы MapReduce в набирающий популярность Apache Spark и разобраться в чем разница концепций в данных двух подходах. -
Что такое Big Data?
Что такое Big Data, на этот вопрос в блоге Berkley отвечают более 40 специалистов. -
Оценка точности предсказательной модели с помощью R Caret
5 способов оценки точности предсказательной модели доступных в библиотеке машинного обучения Caret для языка программирования R, описанные автором популярного блога MachineLearningMastery. -
Дайджест лучших материалов экосистемы Hadoop
Сборник лучших материалов за август по теме экосистемы Apache Hadoop от блога компании Cloudera. -
Ввведение в Predictive Analytics
Первая часть новой серии статей от портала insideBIGDATA, на этот раз по теме Predictive Analytics. -
Использование Google Charts в R Markdown
Небольшая статья, в которой приводится пример использования Google Charts в документах R Markdown. -
Кто такой Data Scientist?
Неплохая, как мне кажется, попытка описать то, чем занимается Data Scientist. -
Использование шаблонов в D3.js
Применение шаблонов в популярной библиотеке визуализации D3 на языке программирования JavaScript. -
6 видов деятельности Data Scientist
Интересная статья, рассказывающая о 6 различных направлениях деятельности, которой приходится заниматься Data Scientist в своей повседневной работе. -
9 советов по выбору NoSQL-хранилища (часть 1)
Первая часть из серии цикла статей, которые расскажут о том, как правильно сделать выбор NoSQL-хранилища. -
Обзор материалов по высокой производительности
Еженедельный дайджест наиболее интересных материалов по высокой производительности от популярного портала HighScalability -
Apache Pig вместе с Apache Spark
Интересная статья с блога компании Cloudera об использовании Apache Pig вместе с Apache Spark. -
Кумулятивная частотная диаграмма в R
Пример построения кумулятивной частной диаграммы с помощью языка программирования R и библиотеки ggplot2. -
Анализ изображений с помощью EBImage
Пример работы с изображениями с помощью языка программирования R и библиотеки EBImage. -
5 способов создания двумерных диаграмм в R
5 примеров создания двумерных диаграмм с помощью языка программирования R. -
Несколько слов о «линейной» регрессии
Интересная статья о линейной регрессии с примерами на языке программирования R. -
Работа с MongoDb из R
Полезная и очень актуальная статья, рассказывающая о том, как можно работать с NoSQL базой данных MongoDb из языка программирования R. -
Newsletters по машинному обучению и анализу данных
Часто достаточно сложно уследить за всеми новостями в области анализа данных и машинного обучения. Автор популярного блога MachineLearningMastery предлагает небольшой список newsletters, которые могут упростить задачу получения актуальных новостей из области Data Science. -
Нотификации в R
Пример кода, который позволит получать нотификации, когда скрипт на языке программирования R закончился. -
Нотификации об ошибках в R
Еще один пример кода, позволяющий отправлять нотификации в случае ошибок при исполнении скрипта на языке программирования R. -
Статистическое моделирование против машинного обучения
Интересное сравнение статистического моделирования и машинного обучения. -
Нейронные сети шаг за шагом
Хороший иллюстрированный пример того, как работает нейронная сеть. -
Интересные наборы данных
Несколько разных наборов данных из социальных медиа с небольшим описанием каждого. -
Пример реализации дерева принятия решений
Пример реализации дерева принятия решений на языке программирования Python.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №11 (25 августа — 1 сентября 2014)