Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много интересных примеров с использованием языков программирования R и Python. Также есть несколько интересных статей, посвященных соревнованиям по машинному обучению. Достаточно много материалов, которые будут интересны новичкам в теме анализа данных и машинного обучения. Традиционно, некоторое количество материалов посвящено теме Data Engineering.
Материалы по анализу данных и машинному обучению
- Опыт полученный в соревновании «Hunt for Prohibited Content» на Kaggle
Интересный пост от участника «Hunt for Prohibited Content» на Kaggle от AVITO.ru, в котором рассказывается про полученный опыт и способы улучшения результатов в соревнованиях по машинному обучению. - Реализация метода k ближайших соседей (kNN) с нуля
Автор блога MachineLearningMastery приводит пример реализации метода k ближайших соседей (k-nearest neighbors — kNN) с нуля. В статье используется язык программирования Python. - Обновление списка онлайн-курсов по Data Science
В данном посте представлен список обновлений онлайн-курсов по тематике Data Science. - Новичок в машинном обучении? Избегайте этих трех ошибок
Данная статья будет интересна прежде всего новичкам и поможет избежать трех типичных ошибок при использовании машинного обучения. - Классификация временных рядов: KNN и DTW
Автор приводит пример классификации временных рядов с помощью K Nearest Neighbors & Dynamic Time Warping. Примеры реализованы с помощью языка программирования Python. - Шпаргалка по машинному обучению
Встретил очень интересный документ-шпаргалку по машинному обучению, который поможет быстро освежить знания по тематике. - Визуальное свидетельство того, что нейронные сети могут вычислить любую функцию
Я уже упоминал о черновом варианте книги «Neural Networks and Deep Learning», в данном случае это глава из книги, которая мне показалось очень любопытной, под названием «A visual proof that neural nets can compute any function». - Преимущества реализации алгоритмов машинного обучения с нуля
Автор блога MachineLearningMastery описывает преимущества реализации существующих алгоритмов машинного обучения с нуля. - Bike Sharing Demand на Kaggle: пример кода
Хочу привести небольшой простой пример кода с соревнования по машинному обучению с Kaggle под названием Bike Sharing Demand, в котором участникам предлагается предсказать почасовую количественную потребность в велосипедах в пунктах проката в Washington, D.C. - Кластеризация изображения по методу k-средних
Небольшой наглядный пример использования кластеризации по методу k-средних (k-means clustering) применительно к изображению. В примере используется язык программирования R. - Визуализация структуры веб-сайта с помощью сетевых графов
Пример кода для визуализации структуры веб-сайта с помощью сетевых графов. В данном примере используется язык программирования R, а также библиотеки RSiteCatalyst и d3Network. - 10 библиотек для победы в соревнованиях Kaggle
Данный набор слайдов может помочь каждому улучшить свои результаты в соревнованиях по машинному обучению на сайте Kaggle. - Построение спам-фильтра на R
Достаточно простой пример кода для построения спам-фильтра с ипользованием языка программирования R, а также с использованием библиотеки машинного обучения Caret и обучения с помощью метода опорных векторов (SVM). - От пеньков к деревьям и лесам
Очередная статья с блога Microsoft Technet Machine Learning Blog. В этот раз Chris Burges достаточно простым языком расскажет о деревьях принятия решения. - Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral. - Введение в Apache Kafka
Данная статья с блога компании Cloudera — введение в распределенную систему обмена сообщениями Apache Kafka - Онлайн-курс «KIx: KIexploRx Explore Statistics with R»
На edX впервые стартовал курс под названием «KIx: KIexploRx Explore Statistics with R». Курс будет в первую очередь интересен тем, кто хочет ознакомиться с языком программирования R и его практическим применением. - Подходит ли мне профессия специалиста по анализу данных?
Любопытная статья-опросник от портала AnalyticsVidhya, которая поможет понять подходит ли вам профессия Data Scientist. - Эффективное индексирование в MongoDB 2.6
Небольшая статья, рассказывающая как правильно использовать индексирование в NoSQL базе данных MongoDB, в том числе описываются новые возможности индексирования, которые появились в версии 2.6. - Видеолекции с курса «Learning From Data»
25 сентября начнется новая сессия очень популярного онлайн-курса с edX «Learning From Data» от California Institute of Technology и профессора Yaser Abu-Mostafa в качестве основного инструктора. Но уже сейчас дотсупен полный набор видеолекций и практических заданий. - Как работают дата-центры
Описание работы дата-центров в США, представленное в виде наглядной инфографики. - Лучшие статьи KDnuggets (31 августа — 6 сентября)
Список лучших статей портала популярного KDnuggets в период с 31 августа по 6 сентября. - 10 лучших цитат Big Data
10 лучших цитат по тематике Big Data по версии портала Smart Data Collective. - 9 советов по выбору NoSQL-хранилища
Cерия статей, в которой предлагается 9 советов по выбору NoSQL-хранилища. - Обзор материалов по высокой производительности
Еженедельный дайджест наиболее интересных материалов по высокой производительности от популярного портала HighScalability. - 180 лучших блогеров
Список 180 лучших блогеров по тематике Data Science, предложенный порталом DataScienceCentral. - Лучшие сайты по Big Data
Список из 6 ресурсов по Big Data, которые могут быть интересны специалистам по работе с большими данными, хотя большинство ресурсов многие из вас и так уже знают. - Введение в архитектуру Big Data
Данная статья с блога компании Cloudera — хорошее введение в тему архитектуры Big Data и описания того, чем занимается Big Data Engineer. - 5 уровней зрелости Big Data в компании
Небольшая статья с инфографикой о различных уровнях зрелости компании в работе с Big Data. - Обзор книги «Applied Predictive Modeling»
Обзор очень любопытной книги по машинному обучению «Applied Predictive Modeling» от автора блога MachineLearningMastery. - Дайджест лучших ресурсов от DataScienceCentral
Неплохой список свежих интересных статей и ресурсов от DataScienceCentral. - Пример forecasting на R
Небольшой пример использования языка программирования R для forecasting с соревнования по машинному обучению «Global Energy Forecasting Competition 2014». - Обзор новой книги «Applied Spatial Analysis and Policy»
Обзор новой книги «Applied Spatial Analysis and Policy» по работе с геопространственными данными на языке программирования R. - Новости Data Mining
Небольшой список интересных ресурсов по теме Data Mining от 10 сентября. - Лучшие материалы месяца
Список лучших статей месяца по теме анализа данных по версии популярного портала DataScienceCentral. - Начался третий ежегодный чемпионат Russian AI Cup
Как сообщили в блоге компании Mail.Ru Group на Хабрахабр, начался третий ежегодный чемпионат Russian AI Cup под названием «CodeHockey». В прошлом году дошел до финала CodeTroopers и в целом было достаточно интересно, хоть и очень времязатратно. В этом году тоже планирую попробовать свои силы в данном соревновании.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №12 (1 — 8 сентября 2014)