Как стать автором

Data Mining *

Глубинный анализ данных

СтатьиПостыНовостиАвторыКомпании

PavelVelikhov 26 фев 2015 в 00:46

Apache Spark: что там под капотом?

5 мин

52K

Big Data * Data Mining * Hadoop *

Вступление

В последнее время проект Apache Spark привлекает к себе огромное внимание, про него написано большое количество маленьких практических статей, он стал частью Hadoop 2.0. Плюс он быстро оброс дополнительными фреймворками, такими, как Spark Streaming, SparkML, Spark SQL, GraphX, а кроме этих «официальных» фреймворков появилось море проектов — различные коннекторы, алгоритмы, библиотеки и так далее. Достаточно быстро и уверенно разобраться в этом зоопарке при отсутсвие серьезной документации, особенно учитывая факт того, что Spark содержит всякие базовые кусочки других проектов Беркли (например BlinkDB) — дело непростое. Поэтому решил написать эту статью, чтобы немножко облегчить жизнь занятым людям.

Читать дальше →

+19

yorko 23 фев 2015 в 00:15

Необычные модели Playboy, или про обнаружение выбросов в данных c помощью Scikit-learn

7 мин

130K

Машинное обучение * Алгоритмы * Python * Data Mining *

Мотивированный статьей пользователя BubaVV про предсказание веса модели Playboy по ее формам и росту, автор решил углубиться ~~if you know what I mean~~ в эту будоражащую кровь тему исследования и в тех же данных найти выбросы, то есть ~~особо сисястые~~ модели, выделяющиеся на фоне других своими формами, ростом или весом. А на фоне этой разминки чувства юмора заодно немного рассказать начинающим исследователям данных про обнаружение выбросов (outlier detection) и аномалий (anomaly detection) в данных с помощью реализации одноклассовой машины опорных векторов (One-class Support Vector Machine) в библиотеке Scikit-learn, написанной на языке Python.

Читать дальше →

+70

moat 22 фев 2015 в 13:51

Обзор наиболее интересных материалов по анализу данных и машинному обучению №36 (16 — 22 февраля 2015)

3 мин

10K

Data Mining * Big Data * Машинное обучение *

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.

Читать дальше →

+14

moat 15 фев 2015 в 12:03

Обзор наиболее интересных материалов по анализу данных и машинному обучению №35 (9 — 15 февраля 2015)

3 мин

11K

Data Mining * Big Data *

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.

Читать дальше →

+20

Anatoliy_Karpov 13 фев 2015 в 11:01

Основы статистики: просто о сложных формулах

6 мин

324K

Блог компании Stepik.orgData Mining * R *

Из песочницы

Статистика вокруг нас

Статистика и анализ данных пронизывают практически любую современную область знаний. Все сложнее становится провести границу между современной биологией, математикой и информатикой. Экономические исследования и регрессионный анализ уже практически неотделимы друг от друга. Один из известных методов проверки распределения на нормальность — критерий Колмогорова-Смирнова. А вы знали, что именно Колмогоров внес огромный вклад в развитие математической лингвистики?

Еще будучи студентом психологического факультета СПбГУ, я заинтересовался когнитивной психологией. Кстати, Иммануил Кант не считал психологию наукой, так как не видел возможности применять в ней математические методы. Мои текущие исследования посвящены моделированию психических процессов, и я надеюсь, что такие направления в современной когнитивной психологии, как вычислительные и коннективисткие модели, смягчили бы его отношение!

Читать дальше →

+45

moat 9 фев 2015 в 13:53

Обзор наиболее интересных материалов по анализу данных и машинному обучению №34 (2 — 8 февраля 2015)

3 мин

8.4K

Big Data * Data Mining *

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.

Читать дальше →

+22

varagian 2 фев 2015 в 09:00

Расшифровываем формулу Хабра-рейтинга или восстановление функциональных зависимостей по эмпирическим данным

6 мин

23K

Data Mining * Big Data * Математика * R *

Если вы когда-нибудь читали раздел помощь на Хабре, то наверняка видели там прелюбопытнейшую строчку:

Допустим, вы написали публикацию с рейтингом +100 — это добавило к вашему персональному рейтингу величину Х. Через несколько десятков дней этот самый Х вычтется, тем самым вернув вас на прежнее место.

то наверняка задавались вопросом, что это за Х и ~~с какого он района~~ чему он равен?

Сегодня мы ответим на этот вопрос.

(измеряем Хабра-рейтинг в попугаях)

Структура статьи

Читать дальше →

+97

moat 1 фев 2015 в 12:55

Обзор наиболее интересных материалов по анализу данных и машинному обучению №33 (26 января — 1 февраля 2015)

4 мин

12K

Data Mining * Big Data *

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.

Читать дальше →

+18

ServPonomarev 29 янв 2015 в 13:38

Word2Vec в примерах

5 мин

94K

Поисковые технологии * Семантические сети * Data Mining *

Recovery Mode

Волею судеб в мои руки попал обученный на поисковых запросах Word2Vec. Под катом даны примеры использования с пояснениями.

Читать дальше →

+11

lytr 28 янв 2015 в 11:53

Deep learning и Caffe на новогодних праздниках

9 мин

56K

Data Mining * Обработка изображений * Big Data *

Из песочницы

Мотивация

В данной статье вы познакомитесь c применением deep learning на практике. Будет использован фреймворк Caffe на датасете SVHN.

Deep Learning. Этот buzz word уже давно звенит в ушах, но попробовать его на практике никак не удавалось. Подвернулся удобный случай это исправить! На новогодние праздники был назначен контест на kaggle по распознаванию номеров домов в рамках курса по анализу изображений.

Читать дальше →

+21

moat 25 янв 2015 в 16:14

Обзор наиболее интересных материалов по анализу данных и машинному обучению №32 (19 — 25 января 2015)

3 мин

12K

Big Data * Data Mining *

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.

Читать дальше →

+14

palantiron 21 янв 2015 в 06:36

Как начать работу в Kaggle: руководство для новичков в Data Science

4 мин

146K

Python * Data Mining * Big Data *

Из песочницы

Доброго времени суток, уважаемые хабровчане! Сегодня я хотел бы поговорить о том, как не имея особого опыта в машинном обучении, можно попробовать свои силы в соревнованиях, проводимых Kaggle.

Как вам уже, наверное, известно, Kaggle – это платформа для исследователей разных уровней, где они могут опробовать свои модели анализа данных на серьезных и актуальных задачах. Суть такого ресурса – не только в возможности получить неплохой денежный приз в случае, если именно ваша модель окажется лучшей, но и в том (а, это, пожалуй, гораздо важнее), чтобы набраться опыта и стать специалистом в области анализа данных и машинного обучения. Ведь самый важный вопрос, зачастую стоящий перед такого рода специалистами – где найти реальные задачи? Здесь их достаточно.

Мы попробуем поучаствовать в обучающем соревновании, не предусматривающем каких-либо поощрений, кроме опыта.

Читать дальше →

+19

moat 18 янв 2015 в 15:02

Обзор наиболее интересных материалов по анализу данных и машинному обучению №31 (12 — 18 января 2015)

4 мин

13K

Data Mining * Big Data *

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.

Читать дальше →

+17

yorko 16 янв 2015 в 09:55

Обзор некоторых MOOC Coursera по компьютерным наукам

3 мин

37K

Data Mining * Python * Алгоритмы * Машинное обучение * Программирование *

Из песочницы

Скорее всего, если вы зашли на Хабр и читаете эту статью, то хоть раз в жизни да слышали про MOOC-курсы.

Но если все же не слышали, то MOOC (по-русски принято произносить «мук») означает «Massive Open Online Course» — массовый открытый онлайн-курс. Это настоящий феномен в образовании XXI века. Газета «New York Times» назвала даже 2012 год «годом MOOC» в связи с появлением на рынке дистанционного образования 3-х «китов» — Coursera, Udacity и EdX. MOOC-ам посвящено множество статей, кто-то видит в них будущее образования, кто-то, наоборот, угрозу. Пытаются также предсказать «традиционную» и «дистанционную» составляющии обучения будущего.

Однако в этой статье я не буду обсуждать перспективы развития дистанционного образования, а расскажу про свой опыт знакомства с курсами на платформе Coursera. Эти курсы будут полезны студентам, изучающим прикладную математику и информатику, в особенности анализ данных. Многое из того, что мне дали эти курсы, как я потом понял — это знания, которыми должен обладать любой уважающий себя исследователь данных (так я предпочитаю переводить профессию Data Scientist).

Читать дальше →

+18

varagian 16 янв 2015 в 01:02

Chart Wars: Диаграммы наносят ответный удар

4 мин

31K

Data Mining * Визуализация данных *

Что может быть хуже круговой диаграммы?
Две круговые диаграммы! Эдвард Тафти

Все мы уже не раз видели, что может пойти не так с визуализацией данных. Сегодня обсудим несколько важных принципов, лежащих в основе качественной графики, и что гораздо интересней, узнаем, что произойдет, если эти правила НЕ соблюдать.

Структура статьи

(*осторожно трафик*)

Читать дальше →

+50

varagian 13 янв 2015 в 08:01

Когда никто не читает Хабр

3 мин

31K

Data Mining * Визуализация данных *

Давным давно у меня родилась гипотеза: «Все айтишники, так же как и я, читают новости и статьи на работе за чашкой чая-кофе в самом начале дня и где-то после обеда».

Чтобы проверить эту гипотезу (ну и не только для этого, конечно) в прошлом году написал и опубликовал монитор Хабра под названием Пульс Хабра. Так как гипотезы необходимо проверять, я занялся сбором данных и анализом закономерностей поведения Хабра-жителей.

Сегодня решил поделиться основными наблюдениями.

Структура статьи:

Читать дальше →

+50

a4tunado 12 янв 2015 в 07:26

5 трендов в области анализа и обработки данных в 2015 году

4 мин

30K

Data Mining * Big Data *

Начало года самое время для прогнозов и предсказаний. В этом посте я собрал обзор трендов в области аналитики и систем обработки данных на 2015 год.

Читать дальше →

+10

moat 11 янв 2015 в 16:54

Обзор наиболее интересных материалов по анализу данных и машинному обучению №30 (5 — 11 января 2015)

3 мин

8.7K

Big Data * Data Mining *

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.

Читать дальше →

+21

moat 4 янв 2015 в 16:50

Обзор наиболее интересных материалов по анализу данных и машинному обучению №29 (29 декабря 2014 — 4 января 2015)

3 мин

13K

Big Data * Data Mining *

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.

Читать дальше →

+18

jgc128 4 янв 2015 в 09:55

Анализ тональности текста в Excel с помощью Azure Machine Learning и Power Query

3 мин

13K

Data Mining * Microsoft Azure *

Туториал

Перевод

Возможно, вы видели пост Joseph Sirosh на прошлой неделе о возможности опубликовать модели Azure Machine Learning в Azure Marketplace, и что MS уже опубликовало некоторое количество API. Для Excel есть специальный аддон, который может используется для доступа к этим API, но я заметил, что как минимум одно API (Sentiment Analysis API) может использоваться напрямую через Power Query.

Для того, чтобы сделать это, сперва вам необходимо зайти в Azure Marketplace, войти под вашим Microsoft-аккаунтом и подписаться на Lexicon Based Sentiment Analysis API. В документации говориться, что у вас есть 25000 транзакций в месяц бесплатно. API как таковое очень простое: передайте предложение для оценки, и вам в ответ придет оценка от -1 до 1, где 1 означает положительную тональность, а -1 отрицательную. Для примера, выражение «I had a good day» возвращает значение 1:

Читать дальше →

+13

1 2 ...

49

50 51 ...