Data Mining *

Глубинный анализ данных

art_pro 31 мая 2017 в 11:00

О чем говорят женщины? (Text mining of beauty blogs)

13 мин

33K

Блог компании ГК ЛАНИТBig Data * Data Mining * Визуализация данных *

В руках нашей команды из CleverDATA оказался уникальный материал – около 100 тыс. страниц англоязычных блогов, посвященных бьюти-сфере. Этот корпус к нам попал благодаря желанию одной косметической корпорации узнать законы, по которым «работает» блогосфера. Компания хотела эффективнее взаимодействовать с бьюти-блогерами – получать больший рекламный эффект, отдавая свои продукты в добрые руки лояльных авторов.

Источник

Читать дальше →

+48

MaximKovalev 24 мая 2017 в 14:24

Упущенные возможности BigData

5 мин

7.9K

Big Data * Data Mining * Анализ и проектирование систем * Семантические сети *

О том, что за BigData помноженной на искусственный интеллект стоит невероятное будущее написано уже чуть ли не больше, чем собрание сочинений братьев Стругацких и Жуля Верна вместе взятых. Все они, и не совсем без основательно, утверждают, что собранные огромные массивы данных, обработанные с помощью, например, Deep Learning смогут уже сегодня выявить всех мошенников, предотвратить сомнительные сделки и предсказать самые высокодоходные рынки. Сама же по себе финансовая отрасль станет полностью автоматизированной под управлением мудрого искусственного интеллекта.

Наверное, так и будет до некоторой степени. Уже сегодня степень автоматизации достигла такого уровня, который еще 10 лет назад казался фантастикой. Все так… Но, как известно, «мелочи» могут привнести множество сюрпризов. Одной из таких мелочей является тот факт, что львиная доля всех данных, которые можно и нужно было бы использовать в задачах борьбы с мошенничеством, прогнозированием рынков представляют собой текстовые данные. Количество ежедневно порождаемых письменных, видео и других данных составляет миллиарды строк, анализ которых с помощью операторов практически бесполезен. Кто-то может, поспорить, что все не так и большинство данных представляют собой обычные таблицы, которые хорошо обрабатываются статистическими методами. И, казалось бы, он будет прав. Банки из TOP-30 рапортуют о широком использовании BigData.

Читать дальше →

+13

snakers4 24 мая 2017 в 04:16

Карта артистов, неуклюжий поиск связей в данных и как можно изобрести велосипед

3 мин

4.6K

Data Mining * JavaScript * Визуализация данных * Открытые данные *

Недавно смотрел серию видео популяризатора математики. Там он пытается рассказывать про математический анализ и линейную алгебру немного с позиции человека, который «как бы» изобрел бы ее с нуля. То есть пытается делать доступными простые и понятые визуализации относительно сложных концепций, как бы объясняя их с позиции человека, который как будто бы придумал это впервые. Относительно недавно читал статью на Хабре про unsupervised learning и увидел там раздел про Affinity Propagation. Как оказалось, мы использовали именно этот метод кластерного анализа чисто интуитивно, сами того не ведая.

TLDR для данной статьи. Если хотите интерактивную визуализацию, проследуйте сюда.
В данной визуализации в виде графа показаны связи между музыкальными жанрами ~25,000 самых популярных артистов мира, причем размер кругляшка показывает популярность данного жанра, а размер ребра графа — силу связи.

Читать дальше →

+10

itmo 22 мая 2017 в 15:02

Как стать специалистом по Data science: итоги открытого семинара в Университете ИТМО

4 мин

15K

Блог компании ИТМООткрытые данные * Визуализация данных * Data Mining * Big Data *

16 мая в Университете ИТМО состоялся семинар, посвященный теме машинного обучения. Приглашенный лектор, заведующий кафедрой высокопроизводительных компьютерных технологий Уральского федерального университета Андрей Созыкин, рассказывал о профессии специалиста по Data science и направлениях развития этой сферы в ближайшем будущем.

В сегодняшнем материале — выдержки из интервью с лектором и рассказ о том, что нужно знать и уметь будущему специалисту по работе с данными.

Читать дальше →

+15

natekin 18 мая 2017 в 10:49

Открытый курс машинного обучения. Тема 10. Градиентный бустинг

18 мин

319K

Блог компании Open Data ScienceData Mining * Алгоритмы * Математика * Машинное обучение *

Всем привет! Настало время пополнить наш с вами алгоритмический арсенал.

Сегодня мы основательно разберем один из наиболее популярных и применяемых на практике алгоритмов машинного обучения — градиентный бустинг. О том, откуда у бустинга растут корни и что на самом деле творится под капотом алгоритма — в нашем красочном путешествии в мир бустинга под катом.

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).

Читать дальше →

+62

snakers4 18 мая 2017 в 03:34

Нейрокурятник часть 2: про бота, который постит фотографии

6 мин

11K

Обработка изображений * Машинное обучение * Python * Open source * Data Mining *

Туториал

Простейшее работающее решение для информирования о событиях в курятнике в режиме реального времени. И еще немного болтовни о том, почему надо браться за задачи и изучение нового, даже если у вас недостаточно знаний.

Статьи про нейрокурятник

Заголовок спойлера

Вступление про обучение себя нейросетям
Железо, софт и конфиг для наблюдения за курами
Бот, который постит события из жизни кур — без нейросети
Разметка датасетов
Работающая модель для распознавания кур в курятнике
Итог — работающий бот, распознающий кур в курятнике

Читать дальше →

+18

crazyhatter 17 мая 2017 в 10:47

CRISP-DM: проверенная методология для Data Scientist-ов

16 мин

80K

Блог компании ГК ЛАНИТМашинное обучение * Алгоритмы * Data Mining *

Постановка задач машинного обучения математически очень проста. Любая задача классификации, регрессии или кластеризации – это по сути обычная оптимизационная задача с ограничениями. Несмотря на это, существующее многообразие алгоритмов и методов их решения делает профессию аналитика данных одной из наиболее творческих IT-профессий. Чтобы решение задачи не превратилось в бесконечный поиск «золотого» решения, а было прогнозируемым процессом, необходимо придерживаться довольно четкой последовательности действий. Эту последовательность действий описывают такие методологии, как CRISP-DM.

Методология анализа данных CRISP-DM упоминается во многих постах на Хабре, но я не смог найти ее подробных русскоязычных описаний и решил своей статьей восполнить этот пробел. В основе моего материала – оригинальное описание и адаптированное описание от IBM. Обзорную лекцию о преимуществах использования CRISP-DM можно посмотреть, например, здесь.

* Crisp (англ.) — хрустящий картофель, чипсы

Читать дальше →

+51

finnfromfinland 17 мая 2017 в 09:04

Анализ взаимосвязи навыков с помощью графов в R

6 мин

8.3K

Data Mining * R * Визуализация данных * Открытые данные *

Из песочницы

Интересно, но такая область как профессиональное развитие остается немного в стороне от шума из-за data science. Стартапы в сфере HRtech только начинают наращивать обороты и увеличивать свою долю, замещая традиционный подход в сфере работы с профессионалами или, теми, кто хочет стать профессионалом.

Сфера HRtech очень разнообразна и включает в себя автоматизацию найма сотрудников, развитие и коучинг, автоматизацию внутренних HR процедур, отслеживание рыночных зарплат, трекинг кандидатов, сотрудников и многое другое. Данное исследование помогает с помощью методов анализа данных ответить на вопрос как взаимосвязаны навыки, какие есть специализации, какие навыки более популярны, а какие навыки следует изучить следующим.

Читать дальше →

+13

brahew 16 мая 2017 в 07:05

На страх параноикам: куда нас привела разработка системы аналитики для борьбы с промшпионажем

6 мин

38K

Блог компании КРОКИнформационная безопасность * Data Mining *

У одного из наших заказчиков появился довольно интересный запрос, связанный с работой контрразведки на предприятии. Цель — чтобы более чем дорогую (в том числе для государства) информацию не выносили наружу. Идея реализации — сбор всех возможных открытых данных о сотрудниках и выявление среди них «казачков» по шаблонам поведения. Собственно, это и раньше делали безопасники вручную, но теперь предлагалось применить хороший дата-майнинг.

А дальше стало жутковато: мы поняли, как много можем узнать друг о друге, используя всего лишь открытые данные. Начиная с промышленного шпионажа и заканчивая личными отношениями на работе. Полезло столько всего, что нам чуть было не порезали публикацию этого поста. Да и порезали бы, если бы полезных «гражданских» применений не оказалось бы в разы больше.

Читать дальше →

+56

Degun 12 мая 2017 в 12:43

Реализация минимизации логических функций методом Квайна\Мак-Класки

16 мин

23K

C# * Data Mining * Алгоритмы * Машинное обучение *

Из песочницы

К рассмотрению предлагается одна из возможных реализаций алгоритма минимизации логических (булевых) функций (ЛФ) заданных в виде совершенной дизъюнктивной нормальной формы (СДНФ) методом Квайна\Мак-Класки (далее просто Мак-Класки) и проблемы, выявленные при её тестировании. В исследуемом варианте алгоритм Мак-Класки реализован на языке C# с использованием Generic-коллекций библиотеки .NET.

Хотелось бы отметить, что задача минимизации ЛФ, по моему мнению, незаслуженно обходится стороной в тематике алгоритмов машинного обучения, т. к. по своему смыслу она реализует процедуру обучения с учителем для определённого набора входных терм (простых конъюнкций), на которых оптимизируемая функция принимает истинное (true) значение. Следовательно, этот набор входных терм, из общего их возможного числа

$inline$ , где N – количество двух классовых категориальных (двоичных) переменных в термах, является обучающей выборкой для задачи обучения с учителем с известным (данном случае истинным) выходным значением целевой функции. Для всех остальных возможных терм, не входящих в обучающую выборку, минимизированная ЛФ должна принимать ложное (false) значение.

Одним из легко реализуемых для любого количества входных переменных алгоритмов минимизации ЛФ является метод Мак-Класки. Согласно теории метод Мак-Класки состоит из двух основных этапов:

Читать дальше →

+15

egor_labintcev 12 мая 2017 в 10:59

Метрики в задачах машинного обучения

9 мин

725K

Блог компании Open Data ScienceData Mining * Python * Математика * Машинное обучение *

Привет, Хабр!

В задачах машинного обучения для оценки качества моделей и сравнения различных алгоритмов используются метрики, а их выбор и анализ — непременная часть работы датасатаниста.

В этой статье мы рассмотрим некоторые критерии качества в задачах классификации, обсудим, что является важным при выборе метрики и что может пойти не так.

Читать дальше →

+38

anastasiagrishina 11 мая 2017 в 11:20

Введение в OpenCV применительно к распознаванию линий дорожной разметки

7 мин

38K

Блог компании New Professions LabМашинное обучение * Data Mining * Big Data *

Привет, Хабр! Публикуем материал выпускника нашей программы Deep Learning и координатора программы по большим данным, Кирилла Данилюка о его опыте использования фреймворка компьютерного зрения OpenCV для определения линий дорожной разметки.

+13

snakers4 8 мая 2017 в 04:45

Нейрокурятник ч.0. Или нейро- без курятника

6 мин

20K

Data Mining * Open source * Python * Математика * Машинное обучение *

Туториал

Или как правильно закоптиться в нейросети

Курочка снесла яичко. Сам процесс выглядит ужасно. Результат — съедобно. Массовый геноцид кур.

В этой статье будет описано:

Где, как и почему можно получить небольшое качественное самообразование в сфере работы с нейросетями БЕСПЛАТНО, СЕЙЧАС и СОВСЕМ НЕ БЫСТРО;
Будет описана логика рекурсии и будут порекомендованы книги по теме;
Будет описан список основных терминов, которые нужно разобрать на 2-3 уровня абстракции вниз;
Будет приведен ipynb-notebook, который содержит необходимые ссылки и базовые подходы;
Будет немного своеобразного саркастичного юмора;
Будут описаны некоторые простые закономерности, с которыми вы столкнетесь при работе с нейросетями;

Статьи про нейрокурятник

Заголовок спойлера

Вступление про обучение себя нейросетям
Железо, софт и конфиг для наблюдения за курами
Бот, который постит события из жизни кур — без нейросети
Разметка датасетов
Работающая модель для распознавания кур в курятнике
Итог — работающий бот, распознающий кур в курятнике

+18

snakers4 4 мая 2017 в 02:39

Нейрокурятник: часть 1. Установка Raspberry Pi и камеры в курятник и их настройка

9 мин

26K

Машинное обучение * Python * Open source * Data Mining *

Туториал

Большой брат следит за тобой, птица!

Статьи про нейрокурятник

Заголовок спойлера

Вступление про обучение себя нейросетям
Железо, софт и конфиг для наблюдения за курами
Бот, который постит события из жизни кур — без нейросети
Разметка датасетов
Работающая модель для распознавания кур в курятнике
Итог — работающий бот, распознающий кур в курятнике

Читать дальше →

+35

mary_arti 2 мая 2017 в 15:09

Отчет с Data Fest⁴ 11-12 февраля

2 мин

8.4K

Блог компании VKBig Data * Data Mining * Машинное обучение *

11-12 февраля в нашем московском офисе состоялась четвертая конференция Data Fest⁴, объединившая исследователей, инженеров и разработчиков, связанных с Data Science во всех его проявлениях. Под катом мы подготовили для вас видеоматериалы с конференции.

+30

Ferres 27 апр 2017 в 11:36

PyMC3 — MCMC и не только

17 мин

23K

Блог компании Open Data ScienceData Mining * Python * Математика * Машинное обучение *

PyMC3 — МСМС и не только

Привет, Хабрахабр!

В этом посте уже упоминался PyMC3. Там можно почитать про основы MCMC-сэмплирования. Здесь я расскажу про вариационный вывод (ADVI), про то, зачем все это нужно и покажу на довольно простых примерах из галереи PyMC3, чем это может быть полезно. Одним из таких примеров будет байесовская нейронная сеть для задачи классификации, но это в самом конце. Кому интересно — добро пожаловать!

Читать дальше →

+36

romovpa 26 апр 2017 в 14:05

Спортивный анализ данных, или как стать специалистом по data science

17 мин

61K

Блог компании ЯндексBig Data * Data Mining * Машинное обучение * Спортивное программирование *

Меня зовут Пётр Ромов, я — data scientist в Yandex Data Factory. В этом посте я предложу сравнительно простой и надежный способ начать карьеру аналитика данных.

Многие из вас наверняка знают или хотя бы слышали про Kaggle. Для тех, кто не слышал: Kaggle — это площадка, на которой компании проводят конкурсы по созданию прогнозирующих моделей. Её популярность столь велика, что часто под «кэглами» специалисты понимают сами конкурсы. Победитель каждого соревнования определяется автоматически — по метрике, которую назначил организатор. Среди прочих, Kaggle в разное время опробовали Facebook, Microsoft и нынешний владелец площадки — Google. Яндекс тоже несколько раз отметился. Как правило, Kaggle-сообществу дают решать задачи, довольно близкие к реальным: это, с одной стороны, делает конкурс интересным, а с другой — продвигает компанию как работодателя с солидными задачами. Впрочем, если вам скажут, что компания-организатор конкурса задействовала в своём сервисе алгоритм одного из победителей, — не верьте. Обычно решения из топа слишком сложны и недостаточно производительны, а погони за тысячными долями значения метрики не настолько и нужны на практике. Поэтому организаторов больше интересуют подходы и идейная часть алгоритмов.

Kaggle — не единственная площадка с соревнованиями по анализу данных. Существуют и другие: DrivenData, DataScience.net, CodaLab. Кроме того, конкурсы проводятся в рамках научных конференций, связанных с машинным обучением: SIGKDD, RecSys, CIKM.

Для успешного решения нужно, с одной стороны, изучить теорию, а с другой — начать практиковать использование различных подходов и моделей. Другими словами, участие в «кэглах» вполне способно сделать из вас аналитика данных. Вопрос — как научиться в них участвовать?

Хардкор

+61

m31 26 апр 2017 в 07:25

Видеозаписи докладов конференции AI&BigDataLab за последние три года

1 мин

3.6K

Блог компании FlyElephantBig Data * Data Mining * R * Машинное обучение *

Через 2 недели, 13 мая в Одессе, команда FlyElephant будет проводить конференцию Data Science Lab. Это будет наша 4-я конференция, которая посвящена искусственному интеллекту, большим данным и науке о данных.

Сегодня я хочу поделиться видеозаписями всех докладов с прошлых конференций. Смотрите, изучайте и делитесь:

+12

SAP 25 апр 2017 в 12:44

Предиктивная аналитика на платформе SCP

6 мин

8.1K

Блог компании SAPData Mining * Алгоритмы *

Это третья публикация в рамках помощи участникам конкурса «SAP Кодер-2017».

Каждое предприятие в процессе своей жизнедеятельности генерирует значительное количество данных, как «больших», так и не очень. Эти данные часто можно использовать для получения нового знания, которое, в свою очередь может оказать существенное влияние на стратегию развития бизнеса или тактику поведения в некоторые локальные моменты работы. Сейчас, в связи с развитием вычислительной техники и ростом объема накопленных данных, большое развитие получили численные методы, позволяющие извлекать полезную информацию из массива «сырых» данных и использовать ее в различных бизнес-сценариях.

Читать дальше →

+12

m31 24 апр 2017 в 10:46

Приглашаем на IV конференцию по практическому применению науки о данных DataScience Lab 13 мая

2 мин

2.4K

Блог компании FlyElephantМашинное обучение * R * Data Mining * Big Data *

Команда FlyElephant приглашает всех 13 мая в Одессу на IV конференцию по практическому применению науки о данных Data Science Lab (exAI&BigDataLab).

Data Science Lab — это ежегодная техническая конференция, которая объединяет исследователей, инженеров и разработчиков, связанных с Data Science для обмена опытом и обсуждения актуальных тем в области машинного обучения, обработки естественного языка, распознавания образов и других аспектов анализа данных. Темы докладов раскрывают вопросы от практического внедрения результатов исследований до самых последних теоретических разработок.

Читать дальше →

+22

1 2 ...

33 34

36 37 ...

61 62

Data Mining *

О чем говорят женщины? (Text mining of beauty blogs)

Упущенные возможности BigData

Карта артистов, неуклюжий поиск связей в данных и как можно изобрести велосипед

Как стать специалистом по Data science: итоги открытого семинара в Университете ИТМО

Открытый курс машинного обучения. Тема 10. Градиентный бустинг

Нейрокурятник часть 2: про бота, который постит фотографии

CRISP-DM: проверенная методология для Data Scientist-ов

Анализ взаимосвязи навыков с помощью графов в R

На страх параноикам: куда нас привела разработка системы аналитики для борьбы с промшпионажем

Реализация минимизации логических функций методом Квайна\Мак-Класки

Метрики в задачах машинного обучения

Введение в OpenCV применительно к распознаванию линий дорожной разметки

Нейрокурятник ч.0. Или нейро- без курятника

Или как правильно закоптиться в нейросети

Ближайшие события

Нейрокурятник: часть 1. Установка Raspberry Pi и камеры в курятник и их настройка

Отчет с Data Fest⁴ 11-12 февраля

PyMC3 — MCMC и не только

PyMC3 — МСМС и не только

Спортивный анализ данных, или как стать специалистом по data science

Видеозаписи докладов конференции AI&BigDataLab за последние три года

Предиктивная аналитика на платформе SCP

Приглашаем на IV конференцию по практическому применению науки о данных DataScience Lab 13 мая

Вклад авторов