
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много интересных примеров с использованием языков программирования R и Python. Также есть несколько интересных статей, посвященных соревнованиям по машинному обучению. Достаточно много материалов, которые будут интересны новичкам в теме анализа данных и машинного обучения. Традиционно, некоторое количество материалов посвящено теме Data Engineering.
Материалы по анализу данных и машинному обучению
Опыт полученный в соревновании «Hunt for Prohibited Content» на Kaggle
Интересный пост от участника «Hunt for Prohibited Content» на Kaggle от AVITO.ru, в котором рассказывается про полученный опыт и способы улучшения результатов в соревнованиях по машинному обучению.Реализация метода k ближайших соседей (kNN) с нуля
Автор блога MachineLearningMastery приводит пример реализации метода k ближайших соседей (k-nearest neighbors — kNN) с нуля. В статье используется язык программирования Python.Обновление списка онлайн-курсов по Data Science
В данном посте представлен список обновлений онлайн-курсов по тематике Data Science.Новичок в машинном обучении? Избегайте этих трех ошибок
Данная статья будет интересна прежде всего новичкам и поможет избежать трех типичных ошибок при использовании машинного обучения.Классификация временных рядов: KNN и DTW
Автор приводит пример классификации временных рядов с помощью K Nearest Neighbors & Dynamic Time Warping. Примеры реализованы с помощью языка программирования Python.Шпаргалка по машинному обучению
Встретил очень интересный документ-шпаргалку по машинному обучению, который поможет быстро освежить знания по тематике.Визуальное свидетельство того, что нейронные сети могут вычислить любую функцию
Я уже упоминал о черновом варианте книги «Neural Networks and Deep Learning», в данном случае это глава из книги, которая мне показалось очень любопытной, под названием «A visual proof that neural nets can compute any function».Преимущества реализации алгоритмов машинного обучения с нуля
Автор блога MachineLearningMastery описывает преимущества реализации существующих алгоритмов машинного обучения с нуля.Bike Sharing Demand на Kaggle: пример кода
Хочу привести небольшой простой пример кода с соревнования по машинному обучению с Kaggle под названием Bike Sharing Demand, в котором участникам предлагается предсказать почасовую количественную потребность в велосипедах в пунктах проката в Washington, D.C.Кластеризация изображения по методу k-средних
Небольшой наглядный пример использования кластеризации по методу k-средних (k-means clustering) применительно к изображению. В примере используется язык программирования R.Визуализация структуры веб-сайта с помощью сетевых графов
Пример кода для визуализации структуры веб-сайта с помощью сетевых графов. В данном примере используется язык программирования R, а также библиотеки RSiteCatalyst и d3Network.10 библиотек для победы в соревнованиях Kaggle
Данный набор слайдов может помочь каждому улучшить свои результаты в соревнованиях по машинному обучению на сайте Kaggle.Построение спам-фильтра на R
Достаточно простой пример кода для построения спам-фильтра с ипользованием языка программирования R, а также с использованием библиотеки машинного обучения Caret и обучения с помощью метода опорных векторов (SVM).От пеньков к деревьям и лесам
Очередная статья с блога Microsoft Technet Machine Learning Blog. В этот раз Chris Burges достаточно простым языком расскажет о деревьях принятия решения.Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral.Введение в Apache Kafka
Данная статья с блога компании Cloudera — введение в распределенную систему обмена сообщениями Apache KafkaОнлайн-курс «KIx: KIexploRx Explore Statistics with R»
На edX впервые стартовал курс под названием «KIx: KIexploRx Explore Statistics with R». Курс будет в первую очередь интересен тем, кто хочет ознакомиться с языком программирования R и его практическим применением.Подходит ли мне профессия специалиста по анализу данных?
Любопытная статья-опросник от портала AnalyticsVidhya, которая поможет понять подходит ли вам профессия Data Scientist.Эффективное индексирование в MongoDB 2.6
Небольшая статья, рассказывающая как правильно использовать индексирование в NoSQL базе данных MongoDB, в том числе описываются новые возможности индексирования, которые появились в версии 2.6.Видеолекции с курса «Learning From Data»
25 сентября начнется новая сессия очень популярного онлайн-курса с edX «Learning From Data» от California Institute of Technology и профессора Yaser Abu-Mostafa в качестве основного инструктора. Но уже сейчас дотсупен полный набор видеолекций и практических заданий.Как работают дата-центры
Описание работы дата-центров в США, представленное в виде наглядной инфографики.Лучшие статьи KDnuggets (31 августа — 6 сентября)
Список лучших статей портала популярного KDnuggets в период с 31 августа по 6 сентября.10 лучших цитат Big Data
10 лучших цитат по тематике Big Data по версии портала Smart Data Collective.9 советов по выбору NoSQL-хранилища
Cерия статей, в которой предлагается 9 советов по выбору NoSQL-хранилища.Обзор материалов по высокой производительности
Еженедельный дайджест наиболее интересных материалов по высокой производительности от популярного портала HighScalability.180 лучших блогеров
Список 180 лучших блогеров по тематике Data Science, предложенный порталом DataScienceCentral.Лучшие сайты по Big Data
Список из 6 ресурсов по Big Data, которые могут быть интересны специалистам по работе с большими данными, хотя большинство ресурсов многие из вас и так уже знают.Введение в архитектуру Big Data
Данная статья с блога компании Cloudera — хорошее введение в тему архитектуры Big Data и описания того, чем занимается Big Data Engineer.5 уровней зрелости Big Data в компании
Небольшая статья с инфографикой о различных уровнях зрелости компании в работе с Big Data.Обзор книги «Applied Predictive Modeling»
Обзор очень любопытной книги по машинному обучению «Applied Predictive Modeling» от автора блога MachineLearningMastery.Дайджест лучших ресурсов от DataScienceCentral
Неплохой список свежих интересных статей и ресурсов от DataScienceCentral.Пример forecasting на R
Небольшой пример использования языка программирования R для forecasting с соревнования по машинному обучению «Global Energy Forecasting Competition 2014».Обзор новой книги «Applied Spatial Analysis and Policy»
Обзор новой книги «Applied Spatial Analysis and Policy» по работе с геопространственными данными на языке программирования R.Новости Data Mining
Небольшой список интересных ресурсов по теме Data Mining от 10 сентября.Лучшие материалы месяца
Список лучших статей месяца по теме анализа данных по версии популярного портала DataScienceCentral.Начался третий ежегодный чемпионат Russian AI Cup
Как сообщили в блоге компании Mail.Ru Group на Хабрахабр, начался третий ежегодный чемпионат Russian AI Cup под названием «CodeHockey». В прошлом году дошел до финала CodeTroopers и в целом было достаточно интересно, хоть и очень времязатратно. В этом году тоже планирую попробовать свои силы в данном соревновании.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №12 (1 — 8 сентября 2014)