Обзор наиболее интересных материалов по анализу данных и машинному обучению №1 (9 — 16 июня 2014)
Данный выпуск дайджеста наиболее интересных материалов, посвященных теме анализа данных содержит достаточно много статей, которые рассматривают теоретические аспекты вопросов, связанных с Data Science. Есть несколько статей, которые будут интересны новичкам. Также представлены ссылки на серию интересных статей о работе со схемами данных в MongoDb. Есть несколько ссылок на материалы, в которых рассматривается важная проблема переобучения (overfitting) в процессе машинного обучения. Некоторые статьи посвящены литературе, рекомендуемой к прочтению для тех кому интересна тема анализа данных.
Статьи
-
Список литературы на лето [EN]
Интересный большой список литературы, посвященный теме анализа данных. -
Введение в Deep Neural Networks [EN]
Введение в интересную тему Deep Neural Networks с примерами кода на C#. -
Сборник статей и ресурсов по анализу данных [EN]
Большой сборник полезных статей и ресурсов, посвященных анализу данных. -
Еще один сборник статей и ресурсов по анализу данных [EN]
Еще один большой сборник полезных статей и ресурсов, посвященных анализу данных. -
Постер Big Data [EN]
Постер, посвященный теме Big Data, на котором достаточно емко собраны интересные вопросы разных аспектов работы с большими данными. -
Как стать Data Scientist [EN]
Отличная статья о том как начать свой профессиональный путь в области анализа данных. -
Стоит ли заниматься статистикой и машинным обучением? [EN]
Поднимается очень интересный вопрос того что если вы хотите сменить профессию на направление анализа данных, то будет ли проблемой не очень уверенные знания в математике. Интересно прежде всего обсуждение разных точек зрения на данный вопрос в комментариях. - Серия статей по работе со схемами данных в MongoDb:
-
Схемы данных в MongoDb (часть 1) [EN]
Первая часть серии статей про работу со схемами данных в MongoDb. -
Схемы данных в MongoDb (часть 2) [EN]
Вторая часть серии статей про работу со схемами данных в MongoDb. -
Схемы данных в MongoDb (часть 3) [EN]
Третья часть серии статей про работу со схемами данных в MongoDb.
-
Схемы данных в MongoDb (часть 1) [EN]
-
Введение в Random Forest [EN]
Простое и понятное введение в алгоритм машинного обучения Random Forest. -
Data Shinobi 2 — Дерево Data Shinobi [EN]
Продолжение серии статей по анализу больших объемов данных, во второй части автор предлагает набор основных проблем, с которым сталкивается специалист по анализу данных и основные способы решения данных вопросов. -
Обзор алгоритмов машинного обучения [EN]
Краткий обзор по алгоритмам машинного обучения с описанием ключевых особенностей основных алгоритмов. -
100+ интересных наборов данных [EN]
Более 100 любопытных датасетов для анализа данных. - Три интересные статьи про переобучение (overfitting) при машинном обучении:
-
О проклятии размерности [EN]
Статья, объясняющая понятие проклятия размерности (Curse of Dimensionality) на простом и доступном языке. -
Почему переобучение опаснее низкой точности предсказания (часть 1) [EN]
Первая часть обсуждения вопроса большей опасности переобучения (overfitting) по сравнению с проблемой низкой точности предсказания результата (poor accuracy). -
Почему переобучение опаснее низкой точности предсказания (часть 2) [EN]
Вторая часть обсуждения вопроса большей опасности переобучения (overfitting) по сравнению с проблемой низкой точности предсказания результата (poor accuracy).
-
О проклятии размерности [EN]
-
Список полезных к прочтению книг для специалиста по анализу данных [EN]
Хороший достаточно краткий список полезных для изучения книг (R, Python, Machine Learning).
Видеоматериалы
-
Классификация тональности текста (Sentiment classification) [EN]
Видео о классификации тональности текста (Sentiment classification) в Facebook от специалиста по машинному обучению. -
Основы Hadoop для новичков [EN]
Видео об основах семейства Hadoop для новичков. -
Обработка естественного языка при помощи методики Deep Learning [EN]
Описание применение методики Deep Learning для обработки естественного языка (Natural Language Processing) достаточно простым и доступным языком.