Как стать автором
Обновить

CRISP-DM: проверенная методология для Data Scientist-ов

Время на прочтение 16 мин
Количество просмотров 59K
Блог компании ГК ЛАНИТ Data Mining *Алгоритмы *Машинное обучение *
Постановка задач машинного обучения математически очень проста. Любая задача  классификации, регрессии или кластеризации – это по сути обычная оптимизационная задача с ограничениями. Несмотря на это, существующее многообразие алгоритмов и методов их решения делает профессию аналитика данных одной из наиболее творческих IT-профессий. Чтобы решение задачи не превратилось в бесконечный поиск «золотого» решения, а было прогнозируемым процессом, необходимо придерживаться довольно четкой последовательности действий. Эту последовательность действий описывают такие методологии, как CRISP-DM.

Методология анализа данных CRISP-DM упоминается во многих постах на Хабре, но я не смог найти ее подробных русскоязычных описаний и решил своей статьей восполнить этот пробел. В основе моего материала – оригинальное описание и адаптированное описание от IBM. Обзорную лекцию о преимуществах использования CRISP-DM можно посмотреть, например, здесь.


* Crisp (англ.) — хрустящий картофель, чипсы
Читать дальше →
Всего голосов 53: ↑52 и ↓1 +51
Комментарии 16

О чем говорят женщины? (Text mining of beauty blogs)

Время на прочтение 13 мин
Количество просмотров 33K
Блог компании ГК ЛАНИТ Data Mining *Big Data *Визуализация данных *
В руках нашей команды из CleverDATA оказался уникальный материал – около 100 тыс. страниц англоязычных блогов, посвященных бьюти-сфере. Этот корпус к нам попал благодаря желанию одной косметической корпорации узнать законы, по которым «работает» блогосфера. Компания хотела эффективнее взаимодействовать с бьюти-блогерами – получать больший рекламный эффект, отдавая свои продукты в добрые руки лояльных авторов.
 

Источник
 
Читать дальше →
Всего голосов 64: ↑56 и ↓8 +48
Комментарии 41

Dotty – будущее языка Scala

Время на прочтение 17 мин
Количество просмотров 19K
Блог компании ГК ЛАНИТ Программирование *Java *Scala *
В конце мая я оказался среди слушателей конференции Scala Days в Копенгагене. Одним из ключевых спикеров был создатель языка Scala Мартин Одерски. Он рассказал о развитии языка и, в частности, о разработке компилятора, названного Dotty. Планируется, что на основе Dotty будет разработан новый компилятор для версии 3.0.

Мартин не раз выступал на эту тему, и я бы хотел собрать здесь всю актуальную информацию о Dotty – новые ключевые возможности и элементы, удаленные за ненадобностью.


Мартин Одерски. План развития Scala на ближайшие несколько лет

Этот пост будет полезен и знатокам, и совсем новичкам, для которых разговор о Dotty я предваряю рассказом об особенностях Scala, а также о том, что лежит в его математической основе.
Читать дальше →
Всего голосов 28: ↑28 и ↓0 +28
Комментарии 51

О конференции Strata AI: будущее искусственного интеллекта

Время на прочтение 17 мин
Количество просмотров 9.6K
Блог компании ГК ЛАНИТ Data Mining *Алгоритмы *Математика *Машинное обучение *
Хабр, привет!

В этой статье я расскажу о конференции O’Reilly Strata Artificial Intelligence, которую мне довелось посетить этим летом в Нью-Йорке.

Strata AI – одна из главных конференций, посвященных искусственному интеллекту, проходит примерно раз в полгода. Конференцию не стоит путать с другим известным мероприятием Strata + Hadoop World – его также проводит O’Reilly, но то посвящено исключительно большим данным и по тематике они мало пересекаются.


Читать дальше →
Всего голосов 46: ↑46 и ↓0 +46
Комментарии 13

Java конференция с английскими корнями. Обзор размера XXXL

Время на прочтение 8 мин
Количество просмотров 5.6K
Блог компании ГК ЛАНИТ Программирование *Java *Конференции DevOps *
Друзья, мы с kent2171, моим коллегой из CleverDATA, побывали на одной из крупнейших конференций Европы – Jax London 2017, посвященной экосистеме Java и всему, что ее окружает в современном мире, – микросервисной архитектуре, Continuous Delivery, а также культуре и практикам DevOps.

Объем полученной за четыре дня информации оказался настолько огромным, что обзор пришлось разбить на две части. Сегодня мы предлагаем вашему вниманию первую часть, в которой расскажем о Chaos Engineering подходе к построению устойчивых распределенных систем, а также о том, как контейнеризация java-приложений сказывается на процессе разработки и какие преимущества кроме синтаксиса дают lambda выражения. Это основные моменты. Остальное — под катом.


Читать дальше →
Всего голосов 41: ↑40 и ↓1 +39
Комментарии 0

Java конференция с английскими корнями. Продолжение мегаобзора

Время на прочтение 11 мин
Количество просмотров 3.5K
Блог компании ГК ЛАНИТ Программирование *Java *Проектирование и рефакторинг *Конференции
Нам с mpryakhin, моим коллегой из CleverDATA, удалось съездить в британскую столицу на Java-конференцию  – Jax London 2017. На прошлой неделе вы уже читали о Chaos Engineering, lambda выражениях, катастрофичных багах и Continuous Delivery Java приложений в контейнерах.

А здесь, во второй части обзора, вас ждёт рассказ о том, как построить карьеру по собственному плану, а не как придётся; как с помощью метрик оптимизировать работу над новым функционалом. Вы также узнаете о тонкостях построения высоконагруженных систем обработки событий и найдете полезные ссылки для работы с Ethereum смарт-контрактами при помощи Java API.


Читать дальше →
Всего голосов 34: ↑31 и ↓3 +28
Комментарии 6

Женские сети: кто делает за нас выбор?

Время на прочтение 10 мин
Количество просмотров 26K
Блог компании ГК ЛАНИТ Data Mining *Big Data *Машинное обучение *
Взлет интереса к машинному обучению во многом связан с тем, что модели способны дать ощутимый прирост прибыли в областях, связанных с предсказанием поведения сложных систем. В частности, той сложной системой, чье поведение предсказывать выгодно, является человек. Обнаружить мошенничество на ранней стадии, выявить склонность клиентов к оттоку – эти задачи возникают регулярно и уже стали классическими в Data Science. Безусловно, их можно решать различными методами, в зависимости от пристрастий конкретного специалиста и от требований бизнеса.

У нас была возможность использовать нейронные сети для решения задачи по предсказанию поведения людей, а специфика области применения была связана с индустрией красоты. Основной аудиторией для “опытов” стали женщины. Мы по сути пришли к вопросу: может ли искусственная нейронная сеть понять настоящую нейронную сеть (человека) в той области, в которой даже сам человек еще не осознал своего поведения. Как мы ответили на этот вопрос и что у нас получилось в итоге, можно узнать далее.

Читать дальше →
Всего голосов 72: ↑61 и ↓11 +50
Комментарии 61

Классификация больших объемов данных на Apache Spark с использованием произвольных моделей машинного обучения

Время на прочтение 18 мин
Количество просмотров 13K
Блог компании ГК ЛАНИТ Scala *Apache *Машинное обучение *

Часть 1: Постановка задачи


Привет, Хабр! Я архитектор решений в компании CleverDATA. Сегодня я расскажу про то, как мы классифицируем большие объемы данных с использованием моделей, построенных с применением практически любой доступной библиотеки машинного обучения. В этой серии из двух статей мы рассмотрим следующие вопросы.

  • Как представить модель машинного обучения в виде сервиса (Model as a Service)?
  • Как физически выполняются задачи распределенной обработки больших объемов данных при помощи Apache Spark?
  • Какие проблемы возникают при взаимодействии Apache Spark с внешними сервисами?
  • Как при помощи библиотек akka-streams и akka-http, а также подхода Reactive Streams можно организовать эффективное взаимодействие Apache Spark с внешними сервисами?

Изначально я планировал написать одну статью, но так как объем материала оказался достаточно большим, я решил разбить ее на две части. Сегодня в первой части мы рассмотрим общую постановку задачи, а также основные проблемы, которые необходимо решить при реализации. Во второй части мы поговорим о практической реализации решения данной задачи с использованием подхода Reactive Streams.

Читать дальше →
Всего голосов 53: ↑53 и ↓0 +53
Комментарии 9

Классификация больших объемов данных на Apache Spark с использованием произвольных моделей машинного обучения

Время на прочтение 25 мин
Количество просмотров 7.4K
Блог компании ГК ЛАНИТ Scala *Apache *Машинное обучение *

Часть 2: Решение


И снова здравствуйте! Сегодня я продолжу свой рассказ о том, как мы классифицируем большие объёмы данных на Apache Spark, используя произвольные модели машинного обучения. В первой части статьи мы рассмотрели саму постановку задачи, а также основные проблемы, которые возникают при организации взаимодействия между кластером, на котором хранятся и обрабатываются исходные данные, и внешним сервисом классификации. Во второй части мы рассмотрим один из вариантов решения данной задачи с использованием подхода Reactive Streams и его реализации с использованием библиотеки akka-streams.

Читать дальше →
Всего голосов 41: ↑40 и ↓1 +39
Комментарии 12

Анатомия рекомендательных систем. Часть первая

Время на прочтение 14 мин
Количество просмотров 64K
Блог компании ГК ЛАНИТ Data Mining *Алгоритмы *Big Data *Машинное обучение *
Я работаю дата-саентистом в компании CleverDATA. Мы занимаемся проектами в области машинного обучения, и один из наиболее частых запросов на разработку основанных на машинном обучении маркетинговых решений — это разработка рекомендательных моделей.

В данной статье я расскажу о рекомендательных системах, постараюсь дать максимально полный обзор существующих подходов и на пальцах объясню принципы работы алгоритмов. Часть материала базируется на неплохом курсе по рекомендательным системам лаборатории MovieLens (которая большинству знакома по одноименному датасету для тестирования рекомендаций), остальное – из личного опыта. Статья состоит из двух частей. В первой описана постановка задачи и дан обзор простых (но популярных) алгоритмов рекомендаций. Во второй статье я расскажу о более продвинутых методах и некоторых практических аспектах реализации.

Источник
Читать дальше →
Всего голосов 55: ↑50 и ↓5 +45
Комментарии 15

Анатомия рекомендательных систем. Часть вторая

Время на прочтение 12 мин
Количество просмотров 27K
Блог компании ГК ЛАНИТ Data Mining *Алгоритмы *Big Data *Машинное обучение *
Неделю назад я делал здесь обзор существующих алгоритмов рекомендаций. В этой статье я продолжу данный обзор: расскажу об item-based варианте коллаборативной фильтрации, о методах, основанных на матричных разложениях, проблемах тестирования, а также о менее «раскрученных» (но не менее интересных) алгоритмах.

Читать дальше →
Всего голосов 43: ↑41 и ↓2 +39
Комментарии 11

Предсказания от математиков. Разбираем основные методы обнаружения аномалий

Время на прочтение 15 мин
Количество просмотров 24K
Блог компании ГК ЛАНИТ Промышленное программирование *Машинное обучение *Искусственный интеллект
За рубежом все большую популярность набирает использование искусственного интеллекта в промышленности для предиктивного обслуживания (predictive maintenance) различных систем. Цель этой методики — определение неполадок в работе системы на этапе эксплуатации до выхода её из строя для своевременного реагирования.

Насколько востребован такой подход у нас и на Западе? Вывод можно сделать, например, по статьям на Хабре и в Medium. На Хабре почти не встречается статей по решению задач предиктивного обслуживания. На Medium же есть целый набор. Вот здесь, ещё здесь и здесь хорошо описано, в чем цели и преимущества такого подхода.

Из этой статьи вы узнаете:

  • зачем нужна эта методика,
  • какие подходы машинного обучения чаще используются для предиктивного обслуживания,
  • как я опробовал один из приёмов на простом примере.

Источник
Читать дальше →
Всего голосов 81: ↑78 и ↓3 +75
Комментарии 22

Создаем музыку: когда простые решения превосходят по эффективности глубокое обучение

Время на прочтение 9 мин
Количество просмотров 26K
Блог компании ГК ЛАНИТ Машинное обучение *Искусственный интеллект Будущее здесь
Перевод
Представляю вашему вниманию перевод статьи «Создаем музыку: когда простые решения превосходят по эффективности глубокое обучение» о том, как искусственный интеллект применяется для создания музыки. Автор не использует нейронные сети для генерации музыки, а подходит к задаче, исходя из знания теории музыки, на основе мелодии и гармонии. Другой особенностью статьи является метод сравнения музыкальных произведений на основе матриц самоподобия. Такой подход, конечно, не является исчерпывающим, но он полезен как промежуточный шаг для генерации качественной музыки методами машинного обучения.

Всего голосов 80: ↑74 и ↓6 +68
Комментарии 38

Natural Language Processing онлайн-чеков: курс уроков волшебства для обычного кота и другие проблемы

Время на прочтение 10 мин
Количество просмотров 7.5K
Блог компании ГК ЛАНИТ Машинное обучение *Искусственный интеллект Будущее здесь
Компания CleverDATA занимается разработкой платформы для работы с большими данными. В частности, на нашей платформе есть возможность работать с  информацией из чеков онлайн-покупок. Перед нами стояла задача научиться обрабатывать текстовые данные чеков и строить на них выводы о потребителях для создания соответствующих характеристик на бирже данных. Было естественно для решения этой задачи обратиться к машинному обучению. В этой статье мы хотим рассказать про проблемы, с которыми встретились при классификации текстов онлайн-чеков. 

Источник
Читать дальше →
Всего голосов 68: ↑66 и ↓2 +64
Комментарии 5

8 лучших трендов International Conference on Learning Representations (ICLR) 2019

Время на прочтение 13 мин
Количество просмотров 3.9K
Блог компании ГК ЛАНИТ Алгоритмы *Машинное обучение *Искусственный интеллект
Перевод
Тема анализа данных и Data Science в наши дни развивается с поразительной скоростью. Для того, чтобы понимать актуальность своих методов и подходов, необходимо быть в курсе работ коллег, и именно на конференциях удается получить информацию о трендах современности. К сожалению, не все мероприятия можно посетить, поэтому статьи о прошедших конференциях представляют интерес для специалистов, не нашедших времени и возможности для личного присутствия. Мы рады представить вам перевод статьи Чип Хен (Chip Huyen) о конференции ICLR 2019, посвященной передовым веяниям и подходам в области Data Science.

Читать дальше →
Всего голосов 60: ↑57 и ↓3 +54
Комментарии 5

Рынок аудиторных данных сегмента Интернет-рекламы и маркетинга. Часть. 1. Изменения законодательства

Время на прочтение 18 мин
Количество просмотров 1.4K
Блог компании ГК ЛАНИТ Data Mining *Алгоритмы *Big Data *Машинное обучение *
Данные сейчас в моде, но рынок данных только зарождается: нет общей терминологии, не зафиксировалась структура рынка данных и больших данных, аналитики. В любом случае, данные – важнейший актив и понятие, прочно вошедшее в нашу жизнь. Они используются во всех сферах бизнеса и индустриях, новые примеры использования появляются каждый день.

Наша компания CleverDATA и Ассоциация развития финансовых технологий подготовили обзор рынка аудиторных данных в сегменте интернет-рекламы и маркетинга за 2019 год. Сейчас в этом сегменте ощущается очень сильный недостаток объективной информации и статистических данных о текущем положении вещей и динамике, поэтому мы решили поделиться результатами нашей работы с читателями Хабра. 

В этой статье мы расскажем, как изменилось законодательство в сфере аудиторных данных в России и за рубежом, а во второй ее части — представим статистику рынка.

Источник
Читать дальше →
Всего голосов 14: ↑14 и ↓0 +14
Комментарии 0

Рынок аудиторных данных сегмента Интернет-рекламы и маркетинга. Часть. 2. Статистика

Время на прочтение 8 мин
Количество просмотров 2.2K
Блог компании ГК ЛАНИТ Data Mining *Алгоритмы *Big Data *Машинное обучение *
Мы продолжаем публикацию результатов исследования рынка аудиторных данных в сегменте интернет-рекламы и маркетинга за 2019 год, подготовленного нашей компанией CleverDATA и Ассоциацией развития финансовых технологий

Ранее мы рассказали, как изменилось законодательство в сфере аудиторных данных в России и за рубежом, а в этой статье  — представим статистику рынка. Отчет базируется на профессиональном опыте наших экспертов и статистике работы площадки 1DMC, разработчиком и оператором которой мы являемся. Он не претендует на всеобъемлющий обзор и создан для распространения доступной нам информации, которая может быть интересна участникам рынка.

Источник
Читать дальше →
Всего голосов 14: ↑13 и ↓1 +12
Комментарии 0

В поисках обеда: распознавание активности по данным фитнес-трекера

Время на прочтение 10 мин
Количество просмотров 4.3K
Блог компании ГК ЛАНИТ Data Mining *Big Data *Машинное обучение *Data Engineering *
Мне посчастливилось участвовать в проекте SOLUT, который стартовал в ЛАНИТ около года назад. Проект развивается благодаря активному участию Центра компетенции больших данных ЛАНИТ (ЦК Дата), и главное технологическое новшество проекта заключается в использовании машинного обучения для мониторинга человеческой активности. Основным источником данных для нас являются сенсоры фитнес-трекеров, закрепленные на руках работников. В первую очередь, результаты распознавания помогают поднять производительность труда и оптимизировать производственные процессы на стройке. Также анализ поведения рабочих позволяет отслеживать самочувствие человека, соблюдение техники безопасности и напоминает строителям про обед.

Источник
Читать дальше →
Всего голосов 47: ↑46 и ↓1 +45
Комментарии 7

Использование методов анализа графов для поиска аномалий

Время на прочтение 17 мин
Количество просмотров 8.1K
Блог компании ГК ЛАНИТ Промышленное программирование *Машинное обучение *Искусственный интеллект
Перевод
Несмотря на то, что описание данных с помощью графов практикуется еще с позапрошлого столетия, использование их в решении повседневных задач по анализу данных лишь набирает обороты. Хотя основное внимание уделяется, как водится, графовым эмбеддингам и сверточным сетям, маленькие шаги предпринимаются и в алгоритмах по поиску аномалий или антифроде. Основная обзорная статья, на которую ссылается большинство специалистов в своих в докладах и публикациях, — Graph based anomaly detection and description: a survey от авторов Leman Akoglu, Hanghang Tong, Danai Koutra (Akoglu, 2015). Мы в CleverDATA решили рассказать Хабру об этом практически единственном материале по теме и предлагаем вашему вниманию его саммари.

Первый граф Российского царства Борис Петрович Шереметев. Аномалий не обнаружено.
Читать дальше →
Всего голосов 51: ↑48 и ↓3 +45
Комментарии 2

Уроки волшебства для кота, дейтинг для беременных и астрология

Время на прочтение 10 мин
Количество просмотров 7K
Блог компании ГК ЛАНИТ Data Mining *Big Data *Машинное обучение *

Data Scientists узнают, что интересует людей и на что они тратят деньги


В ходе исследований различных аудиторий Data Scientists наблюдают как закономерные, так и удивительные факты, которые ярко характеризуют социум вокруг нас. В этой статье я расскажу о тех курьёзах и необычных случаях, которые заметила при выполнении задач, связанных с аудиторным анализом, исследованием интересов пользователей Интернета и покупательского поведения различных социальных групп. 

Какие социологические особенности удалось выяснить благодаря применению моделей машинного обучения? Что мы знаем о покупателях? 
 
Источник
Читать дальше →
Всего голосов 55: ↑54 и ↓1 +53
Комментарии 13
1