moat Jul 28 2014 at 09:10

Обзор наиболее интересных материалов по анализу данных и машинному обучению №6 (21 — 28 июля 2014)

4 min

9.9K

В очередном выпуске обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения некоторое количество статей посвящено практическому применению различных видов регрессии. Есть интересная серия статей о применении машинного обучения в трейдинге. Как обычно много материалов посвящено алгоритмам машинного обучения (в том числе нейронным сетям). Есть несколько любопытных видеолекций, а также много статей про практическое применение языка R при анализе данных и машинном обучении.

Материалы по анализу данных и машинному обучению

16 направлений аналитики в сравнении с Data Science
Интересное сравнение относительно новой дисциплины Data Science с различными направлениями аналитики (data mining, machine leraning, statistics и др.)
Нелинейная регрессия в R
4 вида нелинейной регрессии с примерами на языке программирования R.
Визуализация логистической регрессии с помощью Shiny
Статья о создании интерактивный графиков для визуализации логистической регрессии с помощью пакета Shiny для языка программирования R.
Все что вы хотели знать о машинном обучении, но боялись спросить (часть 1)
Интересная статья, посвященная основам машинного обучения.
Все что вы хотели знать о машинном обучении, но боялись спросить (часть 2)
Продолжение серии статей, посвященных основам машинного обучения.
Разница между library() и require() в языке R
Небольшая статья о том, в каких случаях использовать library() и require() в языке R. Часто возникает путаница в данном вопросе.
Применение машинного обучения для трейдинга (часть 1)
Введение в тему использования машинного обучения для трейдинга.
Применение машинного обучения для трейдинга (часть 2)
Продолжение темы использования машинного обучения для трейдинга.
Применение линейной регрессии при помощи R
Статья о применении 4 видов линейной регрессии при помощи языка программирования R.
Стэнфордский университет опубликовал большую коллекцию наборов данных
Стэнфордский университет опубликовал большую коллекцию графовых наборов данных (Stanford Large Network Dataset Collection), то есть данных которые организованы в виде графов или сетей. Похоже, что это отличный набор данных, на котором можно будет экспериментировать и оттачивать свои навыки в анализе данных и машинном обучении.
Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral.
Введение в сверточные нейронные сети (часть 1)
Вводная статья про популярные сейчас сверточные нейронные сети, написанная достаточно простым языком.
Введение в сверточные нейронные сети (часть 2)
Продолжение дискуссии про сверточные нейронные сети. Во второй части автор уделяет большое внимание теории сверточных нейронных сетей.
Наборы данных для машинного обучения
Список ресурсов на которых можно найти большое количество интересных наборов данных (data sets) для машинного обучения и анализа данных.
Использование цепей Маркова на практике
Пример возможного применения цепей Маркова в практических задачах на примере банковского кредитования и оценки рисков.
Penalized regression при помощи R
Статья о применении Penalized Regression при помощи языка программирования R.
Поиск дубликатов с применением машинного обучения
Интересная статья, написанная достаточно простым языком, о типовой задаче поиска дубликатов в записях, с применением машинного обучения. В статья приведены примеры кода на языке Python.
Упрощение R кода с помощью библиотеки magrittr и pipelines
Упрщение кода в языке программирования R, с использованием библиотеки magrittr, которая позволяет применять подход pipeline к коду.
MLlib — библиотека машинного обучения для Apache Spark
Небольшая статья про библиотеку машинного обучения MLlib для набирающего популярность Apache Spark.
Видеолекции Quoc Le по Deep Learning
Quoc Le из команды Google Brain представляет видеолекции по технике машинного обучения Deep Learning, которые были рассказаны на летней школе машинного обучения Machine Learning Summer School (MLSS ’14) в Питтсбурге.
10 видов линейной регрессии
Небольшая статья про вопрос правильного выбора различных видов линейной регрессии при машинном обучении.
Применение машинного обучения для соревнований на Kaggle
Для улучшения своих навыков машинного обучения часто важно изучать готовые примеры решений от специалистов по анализу данных. В данной статье рассматривается пример решения известной задачи с сайта Kaggle — гибель пассажиров Титаника. Автор решения использует язык программирования R в своем примере.
Введение в машинное обучение
Ссылка на второе издание отличной книги по машинному обучению.
Правда о стартапах в области Data Science
Интересные рассуждения о проблемах, с которыми можно столкнуться при создании стартапа в области Data Science.
Как улучшить свои навыки машинного обучения
Хороший краткий список книг по машинному обучению, которые помогут вам поднять свой уровень в данном вопросе.
Эксперимент в Яндексе. Как идентифицировать взломщика с помощью машинного обучения
Статья о применении машинного обучения в Яндексе для попытки классификации злоумышленника и обычного пользователя по поведенческим признакам. Подробности работы данных алгоритмов, к сожалению, особенно не раскрываются.