Data Scientist

Профиль Публикации Комментарии 45Закладки 38

a-pichugin 27 дек 2019 в 11:35

Как сделать свой автоскейлер для кластера

7 мин

1.7K

Big Data*Блог компании New Professions LabDevOps*Облачные сервисы*Data Engineering*

Привет! Мы обучаем людей работе с большими данными. Невозможно себе представить образовательную программу по большим данным без своего кластера, на котором все участники совместно работают. По этой причине на нашей программе он всегда есть :) Мы занимаемся его настройкой, тюнингом и администрированием, а ребята непосредственно запускают там MapReduce-джобы и пользуются Spark'ом.

В этом посте мы расскажем, как мы решали проблему неравномерной загрузки кластера, написав свой автоскейлер, используя облако Mail.ru Cloud Solutions.

Читать дальше →

MaxRokatansky 28 окт 2019 в 17:45

Понимаем теорему Байеса

8 мин

38K

Big Data*Математика*Машинное обучение*Блог компании OTUS

Перевод

Перевод статьи подготовлен специально для студентов базового и продвинутого курсов «Математика для Data Science».

Теорема Байеса – одна из самых известных теорем в статистике и теории вероятности. Даже если вы не работаете с расчетами количественных показателей, вероятно, вам в какой-то момент пришлось познакомиться с этой теоремой во время подготовки к экзамену.

P(A|B) = P(B|A) * P(A)/P(B)

Вот так она выглядит, но что это значит и как работает? Сегодня мы это узнаем и углубимся в теорему Байеса.

Читать дальше →

+19

darsus 23 сен 2019 в 13:17

Структура Data Science-проекта с высоты птичьего полета

6 мин

11K

Data Mining*Big Data*

Из песочницы

Как узнать наверняка, что внутри у колобка?
Может, ты его проглотишь, а внутри него река? © Таня Задорожная

Что такое Data Science сегодня, кажется, знают уже не только дети, но и домашние животные. Спроси любого котика, и он скажет: статистика, Python, R, BigData, машинное обучение, визуализация и много других слов, в зависимости от квалификации. Но не все котики, а также те, кто хочет стать специалистом по Data Science, знают, как именно устроен Data Science-проект, из каких этапов он состоит и как каждый из них влияет на конечный результат, насколько ресурсоемким является каждый из этапов проекта. Для ответа на эти вопросы как правило служит методология. Однако бОльшая часть обучающих курсов, посвященных Data Science, ничего не говорит о методологии, а просто более или менее последовательно раскрывает суть упомянутых выше технологий, а уж со структурой проекта каждый начинающий Data Scientist знакомится на собственном опыте (и граблях). Но лично я люблю ходить в лес с картой и компасом и мне нравится заранее представлять план маршрута, которым двигаешься. После некоторых поисков неплохую методологию мне удалось найти у IBM — известного производителя гайдов и методик по управлению чем угодно.

Читать дальше →

+12

WhiteBlackGoose 21 сен 2019 в 13:38

50 оттенков matplotlib — The Master Plots (с полным кодом на Python)

39 мин

364K

Python*Визуализация данных*Машинное обучение*Matlab*

Перевод

Те, кто работает с данными, отлично знают, что не в нейросетке счастье — а в том, как правильно обработать данные. Но чтобы их обработать, необходимо сначала проанализировать корреляции, выбрать нужные данные, выкинуть ненужные и так далее. Для подобных целей часто используется визуализация с помощью библиотеки matplotlib.

Встретимся «внутри»!

Читать дальше →

+67

Korolevmv 9 сен 2019 в 15:23

Livy — недостающее звено цепи Hadoop Spark Airflow Python

3 мин

7.1K

Big Data*Hadoop*Блог компании АльфаСтрахование

Привет всем, немного информации "из под капота" дата инженерного цеха Альфастрахования — что будоражит наши технические умы.

Apache Spark — замечательный инструмент, позволяющий просто и очень быстро обрабатывать большие объемы данных на достаточно скромных вычислительных ресурсах (я имею в виду кластерную обработку).

Традиционно, в процессе ad hoc обработки данных используется jupyter notebook. В комбинации со Spark-ом это позволяет нам манипулировать долго живущими дата фреймами (распределением ресурсов занимается Spark, дата фреймы "живут" где-то в кластере, время их жизни ограничено временем жизни Spark контекста).

После переноса обработки данных в Apache Airflow время жизни дата фреймов сильно сокращается — Spark контекст "живет" в пределах одного оператора Airflow. Как это обойти, зачем обходить и при чем здесь Livy — читайте под катом.

Читать дальше →

+11

Syurmakov 15 авг 2019 в 16:52

Применение машинного обучения и Data Science в промышленности

22 мин

67K

Python*Блог компании VKData Mining*Big Data*Искусственный интеллект

Перевод

Хабр, привет. Перевел пост, который идёт строго (!) в закладки и передаётся коллегам. Он со списком блокнотов и библиотек ML и Data Science для разных отраслей промышленности. Все коды на Python, и размещены на GitHub. Они будут полезны как для расширения кругозора, так и для запуска своего интересного стартапа.

Отмечу, что если среди читателей есть желающие помочь, и добавить в любую из подотраслей подходящий проект, пожалуйста, свяжитесь со мной. Я их добавлю в список. Итак, давайте начнём изучение списка.

Читать дальше →

+65

equinoxmoon 13 авг 2019 в 11:26

Персонализируй это: как мы в QIWI работаем с рекомендациями

4 мин

2.3K

Блог компании QIWIBig Data*Машинное обучение*

Всем привет!

Меня зовут Лидия, я тимлид небольшой DataScience-команды в QIWI.

Мы с ребятами довольно часто сталкиваемся с задачей исследования потребностей клиентов, и в этом посте мне бы хотелось поделиться мыслями о том, как начать тему с сегментацией и какие подходы могут помочь разобраться в море неразмеченных данных.

Кого сейчас удивишь персонализацией? Отсутствие персональных предложений в продукте или сервисе уже кажется моветоном, и мы ждем те самые, отобранные только для нас, сливки везде – от ленты в Instagram до личного тарифного плана.

Однако, откуда берется тот самый контент или предложение? Если вы впервые погружаетесь в темные воды машинного обучения, то наверняка столкнетесь с вопросом – с чего начать и как выявить те самые интересы клиента. Чаще всего при наличии большой базы пользователей и отсутствии знаний об оных возникает желание пойти по двум популярным путям:

1. Разметить вручную выборку пользователей и обучить на ней модель, которая позволит определять принадлежность к этому классу или классам – в случае мультиклассового таргета.

Вариант неплохой, но на начальном этапе может заманить в ловушку – ведь мы еще не знаем, какие в принципе сегменты у нас есть и насколько они будут полезны для продвижения новых продуктовых фич, коммуникаций и прочего. Не говоря уже о том, что ручная разметка клиентов – дело достаточно затратное и иногда непростое, ведь чем больше у вас сервисов, тем большее количество данных нужно просмотреть для понимания, чем живет и дышит этот клиент. Большая вероятность, что получится нечто такое:

2. Обжегшись на варианте #1, часто выбирают вариант unsupervised-анализа без обучающей выборки.

Читать дальше →

+12

izakharkin 10 июл 2019 в 15:54

Вижу, значит существую: обзор Deep Learning в Computer Vision (часть 2)

18 мин

37K

Программирование*Обработка изображений*Блог компании Московский физико-технический институт (МФТИ)Машинное обучение*Искусственный интеллект

Продолжаем постигать современную магию (компьютерное зрение). Часть 2 не значит, что нужно сначала читать часть 1. Часть 2 значит, что теперь всё серьёзно — мы хотим понять всю мощь нейросетей в зрении. Детектирование, трекинг, сегментация, оценка позы, распознавание действий… Самые модные и крутые архитектуры, сотни слоёв и десятки гениальных идей уже ждут вас под катом!

Читать дальше →

+27

o6CuFl2Q 8 июл 2019 в 16:05

Анализ производительности запросов в ClickHouse. Доклад Яндекса

18 мин

27K

Высокая производительность*Open source*Блог компании ЯндексСерверное администрирование*Big Data*

Что делать, если ваш запрос к базе выполняется недостаточно быстро? Как узнать, оптимально ли запрос использует вычислительные ресурсы или его можно ускорить? На последней конференции HighLoad++ в Москве я рассказал об интроспекции производительности запросов — и о том, что даёт СУБД ClickHouse, и о возможностях ОС, которые должны быть известны каждому.

Каждый раз, когда я делаю запрос, меня волнует не только результат, но и то, что этот запрос делает. Например, он работает одну секунду. Много это или мало? Я всегда думаю: а почему не полсекунды? Потом что-нибудь оптимизирую, ускоряю, и он работает 10 мс. Обычно я доволен. Но все-таки я стараюсь в этом случае сделать недовольное выражение лица и спросить: «Почему не 5 мс?» Как можно выяснить, на что тратится время при обработке запроса? Можно ли его в принципе ускорить?

+53

SemyonSinchenko 24 июн 2019 в 17:03

Microsoft ML Spark: расширение Spark, делающее SparkML человечнее, и LightGBM как бонус

14 мин

6.1K

Scala*Big Data*Машинное обучение*Блог компании Райффайзен Банк

Туториал

Многие, кто работал с Spark ML, знают, что некоторые вещи там сделаны "не совсем удачно"
или не сделаны вообще. Позиция разработчиков Spark в том, что SparkML — это базовая платформа, а все расширения должны быть отдельными пакетами. Но это не всегда удобно, ведь Data Scientist и аналитики хотят работать с привычными инструментами (Jupter, Zeppelin), где есть большая часть того, что нужно. Они не хотят собирать при помощи maven-assembly JAR-файлы на 500 мегабайт или руками скачивать зависимости и добавлять в параметры запуска Spark. А более тонкая работа с системами сборки JVM-проектов может потребовать от привыкшых к Jupyter/Zeppelin аналитиков и DataScientist-ов много дополнительных усилий. Просить же DevOps-ов и администраторов кластера ставить кучу пакетов на вычислительные ноды — явно плохая идея. Тот, кто писал расширения для SparkML самостоятельно, знает, сколько там скрытых трудностей с важными классами и методами (которые почему-то private[ml]), ограничениями на типы сохраняемых параметров и т.д.

И кажется, что теперь, с библиотекой MMLSpark, жизнь станет немного проще, а порог вхождения в масштабируемое машинное обучение со SparkML и Scala чуть ниже.

Читать дальше →

+19

Stas911 27 фев 2017 в 07:40

Как я сдавал экзамен Hortonworks Data Platform Certified Administrator (HDPCA)

4 мин

4.8K

Учебный процесс в IT

Recovery Mode

Добрый день! Я давно читаю Хабр, а вот написать всё никак не мог собраться. Недавно я сдал экзамен HDPCA (Hortonworks Data Platform Certified Administrator) и хотел бы поделиться своими впечатлениями. Надеюсь, что эта информация будет кому-то полезной, т.к. даже на английском языке информации об этом экзамене не много.

Читать дальше →

smirnovevgeny 4 июн 2019 в 20:32

Rekko Challenge — как занять 2-е место в конкурсе по созданию рекомендательных систем

6 мин

10K

Python*Алгоритмы*Блог компании TINKOFFМашинное обучение*Искусственный интеллект

Из песочницы

Всем привет. Моя команда в Тинькофф занимается построением рекомендательных систем. Если вы довольны вашим ежемесячным кэшбэком, то это наших рук дело. Также мы построили рекомендательную систему спецпредложений от партнеров и занимаемся индивидуальными подборками Stories в приложении Tinkoff. А еще мы любим участвовать в соревнованиях по машинному обучению чтобы держать себя в тонусе.

На Boosters.pro в течении двух месяцев с 18 февраля по 18 апреля проходило соревнование по построению рекомендательной системы на реальных данных одного из крупнейших российских онлайн-кинотеатров Okko. Организаторы преследовали цель улучшить существующую рекомендательную систему. На данный момент соревнование доступно в режиме песочницы, в которой вы можете проверить свои подходы и отточить навыки в построении рекомендательных систем.

alt_text

Читать дальше →

+53

DrunkBear 1 июн 2019 в 16:22

Импортозамещённый дистрибутив Hadoop

2 мин

17K

Big Data*Hadoop*

Recovery Mode

Недавно посматривая реестр отечественного ПО, нашёл российскую сборку Hadoop, чему был изрядно удивлён.
Причём, регистрация прошла аж в 2017 году. (ссылка для интересующихся) и с тех пор на хабре ни строчки об этом.
Итак, встречайте — Arenadata Hadoop (ADH)!

Первые впечатления:
Перешёл на сайт и… Последний раз такую комбинацию озадаченности и недоумения испытал в 2014, когда встретил в магазине белорусских устриц.

Судите сами:
вот сайт Arenadata

Читать дальше →

MaxRokatansky 27 мая 2019 в 17:55

Как я сдал сертификационный экзамен Google Cloud Professional Data Engineer

9 мин

14K

Big Data*Хранение данных*Google Cloud Platform*Блог компании OTUS

Перевод

Без рекомендуемого 3-х летнего практического опыта

В преддверии старта занятий по курсу «Data Engineer», хотим поделиться с Вами переводом одной очень интересной истории, которая наверняка будет полезна будущим дата инженерам. Поехали!

Худи от Google: надето. Серьезное рабочее выражение лица: присутствует. Фото из видео версии этой статьи на YouTube.

Примечание. Эта статья посвящена сертификационному экзамену Google Cloud Professional Data Engineer до 29 марта 2019 года. После этой даты произошли некоторые изменения. Я включил их в раздел «Дополнительно».

Итак, вы хотите получить новое худи, как у меня на обложке? Или вы задумали получить сертификат Google Cloud Professional Data Engineer и задаетесь вопросом, как это сделать.

Читать дальше →

+15

Toperwm 22 мая 2019 в 20:04

Сравнение 10 галогенных ламп H4 Philips, Osram, PIAA, Koito, Bosch. Результаты удивляют

5 мин

295K

ГаджетыАвтомобильные гаджетыТранспортБлог компании Лаборатория света

Многие из автолюбителей хотят улучшить ближний свет своего автомобиля. Большинство используют самый простой способ, это установка более мощных галогеновых ламп. Проведём тестирование 10 моделей, 7 из которых относятся к премиальным и обещают улучшение до 150%.

Изначально на премиальных моделях указывали улучшение на 50% или 70%, для повышения продаж. Теперь этот показатель достиг максимального разумного значения в 150%. Продажи основаны на китайском маркетинге, кто больше обманет, тот и продаст.

Читать дальше →

+36

Syurmakov 19 мая 2019 в 19:23

Подборка датасетов для машинного обучения

6 мин

143K

Python*Data Mining*Машинное обучение*Искусственный интеллект

Привет, читатель!

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие статьи.

Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.

Меньше слов, больше данных.

Подборка датасетов для машинного обучения:

Данные смертей и сражений из игры престолов — этот набор данных объединяет три источника данных, каждый из которых основан на информации из серии книг.
Глобальная база данных терроризма — Более 180 000 террористических атак по всему миру, 1970-2017.
Биткойн, исторические данные — данные биткойнов с интервалом в 1 минуту с избранных бирж, январь 2012 г. — март 2019 г.

Читать дальше →

+62

Shnurre 14 мая 2019 в 15:07

NLP. Основы. Техники. Саморазвитие. Часть 2: NER

19 мин

50K

Блог компании Content AIМашинное обучение*Искусственный интеллектNatural Language Processing*

Первую часть статьи об основах NLP можно прочитать здесь. А сегодня мы поговорим об одной из самых популярных задач NLP – извлечении именованных сущностей (Named-entity recognition, NER) – и разберем подробно архитектуры решений этой задачи.

Читать дальше →

+18

vladbalv 9 апр 2019 в 11:04

Предсказания от математиков. Разбираем основные методы обнаружения аномалий

15 мин

26K

Промышленное программирование*Машинное обучение*Блог компании ГК ЛАНИТИскусственный интеллект

За рубежом все большую популярность набирает использование искусственного интеллекта в промышленности для предиктивного обслуживания (predictive maintenance) различных систем. Цель этой методики — определение неполадок в работе системы на этапе эксплуатации до выхода её из строя для своевременного реагирования.

Насколько востребован такой подход у нас и на Западе? Вывод можно сделать, например, по статьям на Хабре и в Medium. На Хабре почти не встречается статей по решению задач предиктивного обслуживания. На Medium же есть целый набор. Вот здесь, ещё здесь и здесь хорошо описано, в чем цели и преимущества такого подхода.

Из этой статьи вы узнаете:

зачем нужна эта методика,
какие подходы машинного обучения чаще используются для предиктивного обслуживания,
как я опробовал один из приёмов на простом примере.

Источник

Читать дальше →

+75

kpavn 13 июл 2018 в 14:53

Spark SQL. Немного об оптимизаторе запросов

10 мин

16K

SQL*Серверная оптимизация*Блог компании Neoflex

Всем привет. В качестве введения, хочется рассказать, как я дошел до жизни такой.

До того как встретиться с Big Data и Spark, в частности, мне довелось много и часто оптимизировать SQL запросы, сначала для MSSQL, потом для Oracle, и вот теперь я столкнулся со SparkSQL.

И если для СУБД уже существует множество хороших книг, описывающих методологию и «ручки», которые можно покрутить для получения оптимального плана запроса, то для Spark такого рода книг я не встречал. На глаза попадались больше статьи и наборы практик, причем больше относящиеся к работе через RDD/Dataset API, а не чистому SQL. Для меня одной из эталонных книг на тему оптимизации SQL является книга Дж. Льюис «Oracle. Основы стоимостной оптимизации». Что-то подобное по глубине проработки я и искал. Почему предметом исследования стал именно SparkSQL, а не API, лежащий в основе? Тут интерес был вызван особенностями проекта, над которым я работаю.

Читать дальше →

+10

temkahap 7 фев 2019 в 12:44

Пишем XGBoost с нуля — часть 2: градиентный бустинг

13 мин

28K

Python*Блог компании VKData Mining*Алгоритмы*Машинное обучение*

Туториал

Всем привет!

В прошлой статье мы разбирались, как устроены решающие деревья, и с нуля реализовали
алгоритм построения, попутно оптимизируя и улучшая его. В этой статье мы реализуем алгоритм градиентного бустинга и в конце создадим свой собственный XGBoost. Повествование будет идти по той же схеме: пишем алгоритм, описываем его, в заверешение подводим итоги, сравнивая результаты работы с аналогами из Sklearn'а.

В этой статье упор тоже будет сделан на реализацию в коде, поэтому всю теорию лучше почитать в другом вместе (например, в курсе ODS), и уже со знанием теории можно переходить к этой статье, так как тема достаточно сложная.

Итак, поехали!

+56