Обзор наиболее интересных материалов по анализу данных и машинному обучению №17 (6 — 12 октября 2014)
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
-
Дата-майнинг делает научные открытия -
Простой способ оценки понятности текста на русском языке -
16 вариантов развития своих навыков в Data Science
Отличная статья от автора блога MachineLearningMastery, в которой он предлагает множество различных направлений для собственного развития как специалиста в области анализа данных, которые существует на текущий момент. -
Введение в Big Data в финансовой сфере (часть 3)
Третья часть из серии статей про использование Big Data в банковской и финансовой сферах от портала insideBIGDATA. В данной части будут затронуты такие темы как Credit Scoring и Back Trading/Testing. -
Как начать карьеру аналитика
Полезная статья с блога Analytics Vidhya, в которой можно найти список ресурсов и набор практических советов для тех, кому интересна карьера специалиста в области анализа данных. -
Введение в In-Memory Computing (часть 3)
Продолжение серии статей по теме In-Memory Computing от портала insideBIGDATA. В данном случае речь пойдет о типах In-Memory Computing. -
Роль Julia в Data Science
Интересная статья о языке программирования Julia и о его роли в сфере анализа данных. -
7 вещей о Big Data, о которых вы должны помнить
Интересная статья с блога Big Data Analytics News, которая предлагает 7 основных вещей, о которых необходимо помнить перед внедрением технологий, связанных с Big Data. -
Azure ML помогает CMU использовать электроэнергию более эффективно
Интересный пост с блога Microsoft Technet Machine Learning о том, как новый облачный продукт Microsoft Azure ML помогает Carnegie Mellon University (CMU) более эффективно использовать электроэнергию. -
Почему R лучше Excel для анализа данных
Полезный пост от Fantasy Football Analytics, описывающий преимущества языка программирования R перед Excel в области анализа данных. -
Microsoft Prediction Lab
Короткий пост с блога Microsoft Technet Machine Learning о «Microsoft Prediction Lab». -
200 лучших блогеров DataScienceCentral
200 лучших блогеров по теме анализа данных с популярного портала DataScienceCentral.
Теория и алгоритмы машинного обучения, примеры кода
-
Работа с Data Frame в R
Неплохая статья о манипуляциях с объектами Data Frame в языке программирования R от базовых до использования библиотеки dplyr. -
Введение в Feature Selection
Очередная интересная и полезная статья от автора блога MachineLearningMastery, в данном случае речь пойдет о таком важном шаге в процессе машинного обучения как Feature Selection. -
Введение в метод k ближайших соседей
Достаточно простое описание метода k ближайщих соседей с блога Analytics Vidhya.
Соревнования по машинному обучению
-
Конкурс Avito.ru-2014: распознавание контактной информации на изображениях
Конкурс по решению прикладной задачи из области анализа изображений. -
Соревнование по машинному обучению «Tradeshift Text Classification»
На сайте Kaggle началось новое соревнование по машинному обучению Tradeshift Text Classification.
Онлайн-курсы, обучающие материалы и литература
-
Стартовал онлайн-курс «Social Network Analysis»
Совсем недавно на Coursera начался онлайн-курс «Social Network Analysis», посвященный анализу социальных сетей, которой многим может показаться интересным и полезным. -
Бесплатная книга «DBA's Guide to NoSQL»
Robin Schumacher в статье на блоге компании DataStax рассказал о том, что в свободном доступе появилась его небольшая по объему, но достаточно любопытная книга «DBA's Guide to NoSQL», которая может быть интересна новичкам в теме NoSQL-хранилищ. -
Обзор книги «Modern Optimization with R»
Обзор новой книги «Modern Optimization with R» от портала KDnuggets, посвященной эффективной работе с языком программирования R. -
Анонс второго издания книги «Doing Bayesian Data Analysis»
Анонс второго издания интересной книги «Doing Bayesian Data Analysis», которое выйдет в скором времени. -
Обзор книги «Monte Carlo simulation and resampling methods for social science»
Еще один обзор интересной книги «Monte Carlo simulation and resampling methods for social science». Для примеров в книге используется язык программирования R. -
Обзор книги «Analytics in a Big Data World»
Небольшой обзор любопытной книги по теме анализа данных «Analytics in a Big Data World».
Видеоматериалы
-
Материалы со встречи «Moscow Cassandra Meetup at Yandex»
4 октября в офисе компании «Яндекс» прошла встреча, посвященная популярному хранилищу данных Apache Cassandra. В этом посте можно найти видеоматериалы с данной встречи. -
Ruslan Salakhutdinov о Deep Learning на конференции KDD 2014
Пост об интересном докладе Ruslan Salakhutdinov из University of Toronto о различных аспектах применения машинного обучения, а именно о применении Deep Learning.
Data engineering
-
Системы хранения данных: как выбирать?! -
Встреча «PostgreSQL в Avito.ru»
Анонс встречи, посвященной СУДБ PostgreSQL, которая пройдет в Москве. -
Apache Spark побил предыдущий рекорд по скорости сортировки большого объема данных
Статья с блога компании DataBricks, из которой можно узнать о результатах тестов производительности сортировки с помощью Apache Spark большого объема данных. -
7 самых популярных API в области Big Data (часть 1)
В данной серии статей речь пойдет о различных вариантах работы с большими данными. -
7 самых популярных API в области Big Data (часть 2)
Вторая часть серии статей о различных вариантах работы с большими данными. -
История Apache Storm
Nathan Marz — автор Apache Storm, опубликовал очень интересную статью в своем блоге об истории появления и развития Apache Storm. -
Как выбрать хранилище данных
Небольшая статья о том, как сделать правильный выбор хранилища данных для успешного выполнения определенной задачи. -
Сервис «Cloudera Live»
Полезный сервис от компании Cloudera под названием «Cloudera Live», который поможет новичкам быстро освоить работу с экосистемой Hadoop. -
Что такое Write Concern в MongoDB?
Статья, автор которой кратко расскажет о различных режимах записи в NoSQL базу данных MongoDB. -
Анонс Couchbase Server 3.0
Анонс выхода новой версии одного из самых популярных NoSQL-хранилищ.
Обзоры
-
Новости Data Mining
Небольшой список интересных ресурсов по теме Data Mining от 8 октября. -
Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral. -
Дайджест лучших ресурсов от DataScienceCentral
Неплохой список свежих интересных статей и ресурсов от DataScienceCentral. -
Лучшие материалы за неделю (28 сентября — 4 октября)
Лучшие материалы за неделю по теме анализа данных от портала KDnuggets. -
Лучшие материалы за сентябрь
Лучшие материалы за сентябрь по теме анализа данных от портала KDnuggets. -
10 лучших материалов недели
10 лучших материалов недели по тематике Data Science от портала «Data Science Report» -
Наиболее интересные материалы от Freakonometrics №172
Сборник наиболее интересных материалов от популярного портала Freakonometrics. -
Наиболее интересные материалы от Freakonometrics №171
Сборник наиболее интересных материалов от популярного портала Freakonometrics. -
Наиболее интересные материалы по High Scalability
Обзор наиболее интересных материалов по теме HighScalability от популярного портала High Scalability. -
Лучшие материалы: NoSQL Zone (3 — 9 октября)
Сборник лучших материалов от популярного портала DZone по теме NoSQL.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №16 (29 сентября — 5 октября 2014)