Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
- Визуализация многомерных данных с помощью диаграмм Эндрюса
- Microsoft покупает компанию Revolution Analytics
- Лучшие презентации SlideShare по теме Big Data — обновленная версия рейтинга самых популярных презентаций SlideShare по теме Big Data с небольшой аналитикой от KDnuggets.com.
- Data Scientist: 5 основных навыков
- 15 отличных визуализаций данных
- Исследователи показали сеть машинного обучения для групп распределенных устройств
- Компьютеры учатся как лечить рак и диабет, играя в Atari и покер
- История развития алгоритмов компьютерного зрения за последние 20 лет
- Пострение рекомендательной системы (часть 1)
- Несколько слов об искуственных нейронных сетях и Deep Learning
- Пострение масштабируемых алгоритмов машинного обучения
Теория и алгоритмы машинного обучения, примеры кода
- Введение в scikit-learn — в данном посте представлен обзор библиотеки машинного обучения scikit-learn.
- Data tidying: Подготовка наборов данных для анализа на конкретных примерах
- Визуализация работы Deep Learning — большая статья, которая поможет лучше понять принципы работы Deep Learning.
- Кластеризация методом k-средних: за все нужно платить — небольшая любопытная статья, в которой автор рассуждает о тонкостях алгоритма кластеризации методом k-средних (k-means).
- Немного о сверточных нейронных сетях
- Глубокое погружение в рекурентные нейронные сети
- Краткий обзор алгоритма Kernel PCA
- Машинное обучение для распознавания лиц — неплохой пример использования алгоритмов машинного обучения для распознавания лиц с использованием библиотеки scikit-learn для языка программирования Python.
- Анализ текста для новичков: Классификация документов
- Обучение сверточной нейронной сети игре Go
- Эффективность работы модели (часть 2) — в данной статье автор блога Analytics Vydhya продолжит тему оценки эффективности работы предсказательной модели.
- Введение в caretEnsemble — полезная статья о библиотеке caretEnsemble, которая позволяет применять алгоритмические композиции (Ensemble Methods) для моделей из популярной библиотеки машинного обучения caret для языка программирования R.
- О деревьях принятия решений простым языком — неплохое краткое описание деревьев принятия решений с блога Analytics Vidhya.
- Анализ данных на Python — полезные примеры кода для анализа данных с помощью языка программирования Python.
- Jetpack: инструменты машинного обучения в Docker
- Основные ошибки разработчиков при использовании Python для анализа больших данных
- Пример использования Random Forest и бустинга с помощью MLlib
- Набор полезных приемов для Pandas — небольшой список полезных примеров кода для библиотеки Pandas для языка программирования Python.
Соревнования по машинному обучению
- Как начать работу в Kaggle: руководство для новичков в Data Science
- Новое соревнование по машинному обучению «How much did it rain?» — несколько дней назад на Kaggle началось новое соревнование по машинному обучению «How much did it rain?»
Онлайн-курсы, обучающие материалы и литература
- Начало онлайн-курса Mining Massive Datasets от Stanford University — 31 января на Coursera начнется вторая сессия онлайн-курса «Mining Massive Datasets» от Stanford University.
- Обзор книги: Advanced Analytics with Apache Spark
- Бесплатная электронная книга: H2O and R — бесплатная книга о платформе для машинного обучения H2O и её использовании с языком программирования R.
Видеоматериалы
- Введение в Random Forest от Dr. Nando de Freitas — в данном посте представлена лекция по популярному алгоритму машинного обучения Random Forest от Dr. Nando de Freitas (Adjunct Professor at UBC Computer Science, Full-time Professor at Oxford).
Data engineering
Обзоры
- Интересное из мира R (19-25 января 2015 г.)
- Еженедельный дайджест от DataScienceCentral (26 января)
- Дайджест лучших ресурсов от DataScienceCentral (23 января)
- Лучшие материалы за неделю от KDnuggets.com (11 — 17 января)
- Новости Data Science от MyDataMine.com (22 января)
- Лучшие ресурсы за неделю от Data Elixir (№19)
- Еженедельный сборник лучших материалов от R1Soft (23 января)
- Наиболее интересные материалы по High Scalability (23 января)
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №31 (12 — 18 января 2015)