Обзор наиболее интересных материалов по анализу данных и машинному обучению №16 (29 сентября — 5 октября 2014)
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
-
Использование подхода Data-Driven в машинном обучении
Очередная интересная статья с блога MachineLearningMastery, в данном случае речь пойдет о том, какие есть возможности для улучшения эффективности алгоритмов машинного обучения. -
Введение в машинное обучение для разработчиков
Неплохое введение в тему машинного обучения для разработчиков, в которой упоминаются многие аспекты, которые необходимы для работы с алгоритмами машинного обучения. -
30 лучших блогов по теме Data Science
Рейтинг лучших блогов по тематике Data Science по версии портала DataScienceCentral. -
Улучшение навыков машинного обучения
Несколько полезных советов от автора блога MachineLearningMastery, которые могут помочь в улучшении навыков машинного обучения. -
Как успешно пройти собеседование на позицию в области Data Science
Интересная и полезная статья, которая поможет подготовиться к собеседованию на позицию в области Data Science. -
Модули Vowpal Wabbit в Azure ML
Продолжение рассказа с блога «Micorosoft Technet Machine Learning» о возможностях Vowpal Wabbit в облачном сервисе машинного обучение Azure ML от компании Microsoft. -
22 навыка, которые необходимы Data Scientist
Интересная статья от Vincent Granville на популярном портале DataScienceCentral о том, какие навыки необходимы специалисту по анализу данных с учетом его специализации. -
Первая неделя курса «Stanford’s Machine Learning»
Автор статьи делится своими впечатлениями от первой недели популярного курса по машинному обучению от Andrew Ng и Stanford University, очередная сессия которого стартовала не так давно на Coursera.
Теория и алгоритмы машинного обучения, примеры кода
-
Наивный Байес и текстовая классификация (часть 1) -
О вычислительной сложности MapReduce
Неплохая статья о теоретических основах программной модели MapReduce. -
Введение в нейронные сети
Достаточно объемная статья с блога Andrej Karpathy (CS PhD student at Stanford), в которой автор рассказывает про машинное обучение и нейронные сети, приводит примеры кода и говорит о том, что данная статья будет со временем дополняться новыми материалами. -
Использование машинного обучения и NodeJS для определения пола пользователей Instagram
Неплохой пример предсказательной модели на основе нейронных сетей для определения пола пользователей Intstagram на основе различных входных параметров, а также с использованием NodeJS. -
Введение в метод опорных векторов
Полезная статья с блога Analytics Vidhya, в которой достаточно простым языком описывается работа метода опорных векторов (Support Vector Machines). -
Оценка эффективности системы бинарной классификации
Краткое введение в оценку эффективности бинарных систем классификации. -
miniCRAN: свой собственный репозитарий библиотек
Статья, которая кратко расскажет о библиотеке miniCRAN для языка программирования R, которая позволяет сделать свой собственный репозитарий библиотек. -
Запуск RStudio в облаке
Статья о том, как достаточно быстро и легко запустить RStudio в браузере с помощью облачного решения и Docker. -
Вывод нескольких переменных на линейной диаграмме в ggplot2
Небольшой практический пример вывода нескольких переменных на линейной диаграмме с помощью языка программирования R и библиотеки ggplot2.
Соревнования по машинному обучению
-
Интервью с Diogo Ferreira
Полезное интервью на блоге MachineLearningMastery с успешным участником соревнований по машинному обучению Diogo Ferreira. -
Простая модель для Kaggle «Bike Sharing Demand»
Описание достаточно простой модели для соревнования по машинному обучению «Bike Sharing Demand» на Kaggle с примерами на языке программирования R.
Онлайн-курсы, обучающие материалы и литература
-
Стартовал онлайн-курс «Mining Massive Datasets»
29 сентября 2014 года на Coursera стартовал онлайн-курс, который привлек так много внимания. Это курс от Stanford University под названием Mining Massive Datasets. -
Книга «The Field Guide to Data Science»
Краткое описание и бесплатная версия любопытной книге под названием «The Field Guide to Data Science» об основах Data Science. -
Анонс книги «Practical Data Science Cookbook»
Небольшая статья-анонс достаточно любопытной книги «Practical Data Science Cookbook». -
Список для чтения (октябрь)
Список книг с блога Dave Gilles (Professor of Economics at the University of Victoria), которые по мнению профессора могут быть интересны к прочтению. -
Книга «Getting Started with Impala»
Анонс любопытной книги «Getting Started with Impala» на блоге компании Cloudera.
Видеоматериалы
-
Martin Maechler о практике хорошего кода на R
Martin Maechler (член команды R-Core) выступил с интересным докладом на конференции useR! 2014. В данном видео он расскажет о практике хорошего кода как на языке программирования R, так и в целом о лучших приемах и практиках в программировании. -
Материалы со встречи «Новинки PostgreSQL 9.4 и кое-что ещё»
Не так давно прошла интересная встреча в офисе компании «Яндекс» и была посвящена СУБД PostgreSQL. И вот появились и видеоматериалы с данной встречи. -
Nando de Freitas о деревьях принятия решений
Отличная лекция от профессора Nando de Freitas из The University of British Columbia о деревьях принятия решений. -
Jürgen Schmidhuber о Deep Learning
Интересное видео, в котором профессор Jürgen Schmidhuber из IDSIA (International Computer Science Institute) рассказывает об истории Deep Learning и возрождении интереса к данному методу машинного обучения в настоящее время.
Data engineering
-
Использование Pinot для аналитики в режиме реального времени
Интересная статья с блога компании LinkedIn об архитектуре их решения для аналитики в реальном времени с использованием продукта собственной разработки под названием Pinot. -
Результаты тестов производительности NoSQL-хранилищ
Свежее интересное сравнение производительности различных NoSQL-хранилищ (Apache Cassandra, MongoDB, CouchBase) при различных профилях нагрузки. -
Масштабируемые деревья принятия рещений в Apache Spark
Продолжение обсуждений новой версии Apache Spark 1.1, в данном случае речь пойдет о деревьях принятия решений и возможностях их масштабирования в библиотеке машинного обучения MLlib. -
Анонс бета-версии ForestDB
Анонс нового хранилище «ключ-значение» ForestDB с открытым исходным кодом от создателей CouchBase. -
Что такое Apache Storm
Статья, в которой дается краткое описание Apache Strorm.
Обзоры
-
Еженедельный дайджест от DataScienceCentral
Регулярный еженедельный дайджест статей по анализу данных от портала DataScienceCentral. -
Лучшие материалы Niut Blanche (сентябрь)
Лучшие материалы за сентябрь от популярного блога Nuit Blanche. -
Еженедельный обзор Hadoop Weekly №89 (28 сентября)
Еженедельные новости и материалы экосистемы Hadoop. -
Еженедельный обзор Hadoop Weekly №88 (21 сентября)
Еженедельные новости и материалы экосистемы Hadoop. -
Наиболее интересные материалы от Freakonometrics №170
Сборник наиболее интересных материалов от популярного портала Freakonometrics. -
Наиболее интересные материалы от Freakonometrics №169
Сборник наиболее интересных материалов от популярного портала Freakonometrics. -
Наиболее интересные материалы от Freakonometrics №168
Сборник наиболее интересных материалов от популярного портала Freakonometrics. -
Наиболее интересные материалы по High Scalability
Обзор наиболее интересных материалов по теме HighScalability от популярного портала High Scalability.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №15 (22 — 28 сентября 2014)