Как стать автором
Поиск
Написать публикацию
Обновить
80.93

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга
Уровень сложности

Анонс: Ultimate Guide по карьере в AI от профессионала: выбрать специальность, прокачаться и найти классную работу

Время на прочтение2 мин
Количество просмотров2.8K


СЕГОДНЯ, 3 августа в 20:00 пройдет эфир с Сергеем Ширкиным о том, как построить успешную карьеру в AI. Стрим можно будет посмотреть в любых наших соцсетях — где удобно, там и смотрите.



Сергей Ширкин стоит у истоков факультетов Искусственного интеллекта, Аналитики Big Data и Data Engineering онлайн-университета Geek University, на которых работает деканом и преподавателем.

Увидеть истинное лицо продукта и выжить. Данные о пользовательских переходах как повод написать пару новых сервисов

Время на прочтение10 мин
Количество просмотров3.3K


В интернете сотни статей о том, какую пользу приносит анализ поведения клиентов. Чаще всего это касается сферы ритейла. От анализа продуктовых корзин, ABC и XYZ анализа до retention-маркетинга и персональных предложений. Различные методики используются уже десятилетиями, алгоритмы продуманы, код написан и отлажен — бери и используй. В нашем случае возникла одна фундаментальная проблема — мы в ISPsystem занимаемся разработкой ПО, а не ритейлом.
Меня зовут Денис и на данный момент я отвечаю за бэкенд аналитических систем в ISPsystem. И это история о том, как мы с моим коллегой Данилом — ответственным за визуализацию данных — попытались посмотреть на наши программные продукты сквозь призму этих знаний. Начнем, как обычно, с истории.

Читать дальше →

Apache Airflow: делаем ETL проще

Время на прочтение25 мин
Количество просмотров189K

Привет, я Дмитрий Логвиненко — Data Engineer отдела аналитики группы компаний «Везёт».


Я расскажу вам о замечательном инструменте для разработки ETL-процессов — Apache Airflow. Но Airflow настолько универсален и многогранен, что вам стоит присмотреться к нему даже если вы не занимаетесь потоками данных, а имеете потребность периодически запускать какие-либо процессы и следить за их выполнением.


И да, я буду не только рассказывать, но и показывать: в программе много кода, скриншотов и рекомендаций.



Что обычно видишь, когда гуглишь слово Airflow / Wikimedia Commons

Читать дальше →

Опыт использования фреймворка Featuretools

Время на прочтение10 мин
Количество просмотров9K
Нынче важнейшим вектором развития многих компаний является цифровизация. И почти всегда она так или иначе связана с машинным обучением, а значит, с моделями, для которых нужно считать признаки.

Можно делать это вручную, но также для этого существуют фреймворки и библиотеки, ускоряющие и упрощающие этот процесс.

Об одной из них, featuretools, а также о практическом опыте ее использования мы сегодня и поговорим.


Моднейший пайплайн
Читать дальше →

Симуляционное моделирование механической системы средствами визуального программирования Scilab\Xcos

Время на прочтение2 мин
Количество просмотров6K
Вместо предисловия.

Эта небольшая по объему работа была экстренно выполнена с учебными и демонстрационными целями около года назад на базе уже разработанной ранее модели струны. Как водится, потом полежав энное время без дела, недавно она попалась мне на глаза.

Что такое Scilab, рассказывать здесь смысла нет — интернетом читатель пользоваться умеет.
image

Интересным для читателя, уже знакомым с Scilab, эта работа может быть довольно нетривиальным применением данного средства. Имеется ввиду «конечноэлементный» подход в моделировани системы и анимационное отображение результатов осциллографом. Безусловно, есть средства, специально «заточенные» под механику, но, повторяю, целью было именно срочно обкатать Scilab.

Для тех же, кто ранее с этим простым и наглядным средством знаком не был, интересно будет узнать вот что. Весь процесс освоения этого ранее мне незнакомого типа софта (визуального программирования), от момента инсталляции бесплатного Xcos до создания нижеследующего текста, занял у меня пять дней. Более простая модель системы с одной степенью свободы была окончательно готова уже на второй день. И у вас, я думаю, дела в изучении этой программной среды, при желании, пойдут не хуже, так что дерзайте.

Сам текст, пожалуй, излишне лаконичен, так как на широкую аудиторию изначально рассчитан не был. Но если у читателя возникнут вопросы, попытаюсь вспомнить детали и на эти вопросы ответить. Итак.
Читать дальше →

Что может пойти не так с Data Science? Сбор данных

Время на прочтение8 мин
Количество просмотров12K

Сегодня существует 100500 курсов по Data Science и давно известно, что больше всего денег в Data Science можно заработать именно курсами по Data Science (зачем копать, когда можно продавать лопаты?). Основной минус этих курсов в том, что они не имеют ничего общего с реальной работой: никто не даст вам чистые, обработанные данные в нужном формате. И когда вы выходите с курсов и начинаете решать настоящую задачу — всплывает много нюансов.

Поэтому мы начинаем серию заметок «Что может пойти не так с Data Science», основанных на реальных событиях случившихся со мной, моими товарищами и коллегами. Будем разбирать на реальных примерах типичные задачи по Data Science: как это на самом деле происходит. Начнем сегодня с задачи сбора данных.

И первое обо что спотыкаются люди, начав работать с реальными данными — это собственно сбор этих самых релевантных нам данных. Ключевой посыл этой статьи:

Мы систематически недооцениваем время, ресурсы и усилия на сбор, очистку и подготовку данных.

А главное, обсудим, что делать, чтобы этого не допустить.

По разным оценкам, очистка, трансформация, data processing, feature engineering и тд занимают 80-90% времени, а анализ 10-20%, в то время как практически весь учебный материал фокусируется исключительно на анализе.

Давайте разберем как типичный пример простую аналитическую задачу в трех вариантах и увидим, какими бывают «отягчающие обстоятельства».

И для примера опять же, мы рассмотрим подобные вариации задачи сбора данных и сравнения сообществ для:

  1. Двух сабреддитов Reddit
  2. Двух разделов Хабра
  3. Двух групп Одноклассников
Читать дальше →

Дата-инженеры в бизнесе: кто они и чем занимаются?

Время на прочтение10 мин
Количество просмотров5.3K
Данные — один из активов организации. Поэтому вполне вероятно, что перед вашей командой в какой-то момент могут возникнуть задачи, которые можно будет решить, используя эти данные разными способами, начиная с простых исследований и вплоть до применения алгоритмов машинного обучения.

И хоть построение крутой модели — неотъемлемо важная часть, но все же это не залог успеха в решении подобных задач. Качество модели в большой степени зависит от качества данных, которые собираются для нее. И если Data Science применяется не ради спортивного интереса, а для удовлетворения реальных потребностей компании, то на это качество можно повлиять на этапе сбора и обогащения данных. И за это отвечает скорее не дата-сайентист, а другой специалист — дата-инженер.

В этой статье я хочу рассказать о роли дата-инженера в проектах, связанных с построением моделей машинного обучения, о зоне его ответственности и влиянии на результат. Разбираемся на примере Яндекс.Денег.

Читать дальше →

Блокнот-шпаргалка для быстрого Data preprocessing

Время на прочтение8 мин
Количество просмотров13K
Часто люди, заходящие в область Data Science, имеют не совсем реалистичные представления о том, что их ждет. Многие думают, что сейчас они будут круто писать нейросети, создавать голосового помощника из Железного Человека или обыгрывать всех на финансовых рынках.
Но работа Data Scientist завязана на данных, и один из важнейших и время затратных моментов — это обработка данных перед тем, как их подавать в нейросеть или анализировать определенным способом.

В этой статье наша команда опишет то, как можно легко и быстро обработать данные с пошаговой инструкцией и кодом. Мы старались сделать так, чтобы код был довольно гибким и его можно было применять для разных датасетов.

Многие профессионалы возможно и не найдут ничего экстраординарного в этой статье, но начинающие смогут подчерпнуть что-то новое, а также каждый, кто давно мечтал сделать себе отдельный notebook для быстрой и структурированной обработки данных может скопировать код и отформатировать его под себя, или скачать готовый notebook с Github.
Читать дальше →

Ресурсы для получения датасетов изображений, о которых вы могли не знать

Время на прочтение5 мин
Количество просмотров9.5K

Привет, Хабр! Как известно, топливом для машинного обучения являются наборы данных. В качестве источников для получения датасетов, которыми люди обычно пользуются и которые у всех на слуху, являются такие сайты как Kaggle, ImageNet, Google Dataset Search и Visual Genom, но довольно редко встречаю людей, которые для поиска данных используют такие сайты как Bing Image Search и Instagram. Поэтому в этой статье я покажу как легко получить данные с этих источников, написав две небольшие программы на Python.

Читать дальше

Получение данных Amplitude через API

Время на прочтение5 мин
Количество просмотров11K

Введение


Amplitude как инструмент продуктовой аналитики очень хорошо зарекомендовал себя благодаря несложной настройке событий и гибкости визуализаций. И нередко возникает потребность наладить собственную модель атрибуции, провести кластеризацию пользователей или построить дашборд в другой BI-системе. Выполнить подобную махинацию возможно, только имея сырые данные о событиях из Amplitude. О том, как получить эти данные с минимальными знаниями программирования — и будет в этой статье.
Читать дальше →

В поисках обеда: распознавание активности по данным фитнес-трекера

Время на прочтение10 мин
Количество просмотров4.8K
Мне посчастливилось участвовать в проекте SOLUT, который стартовал в ЛАНИТ около года назад. Проект развивается благодаря активному участию Центра компетенции больших данных ЛАНИТ (ЦК Дата), и главное технологическое новшество проекта заключается в использовании машинного обучения для мониторинга человеческой активности. Основным источником данных для нас являются сенсоры фитнес-трекеров, закрепленные на руках работников. В первую очередь, результаты распознавания помогают поднять производительность труда и оптимизировать производственные процессы на стройке. Также анализ поведения рабочих позволяет отслеживать самочувствие человека, соблюдение техники безопасности и напоминает строителям про обед.

Источник
Читать дальше →

Avito Analytics meetup

Время на прочтение3 мин
Количество просмотров3K

Привет, Хабр! 30 июня в 18:00 по Москве мы проведём онлайн-митап для аналитиков. Спикеры расскажут про региональные A/B-тесты, управление выдачей товаров в интернет-магазине, предсказание профита от новых фичей и data science в доставке товаров.


Под катом, как и всегда, тезисы докладов и все нужные ссылки.


Читать дальше →

Как мы внедряли искусственный интеллект на металлургическом заводе

Время на прочтение15 мин
Количество просмотров12K

Искусственный интеллект в промышленности


Часто люди, работающие в области технологий искусственного интеллекта, представляют себе металлургический завод как нечто монструозное по форме и консервативное по внутренним процессам – примерно так, как описано в романе 1901 года «Труд» Эмиля Золя: «…окутанный клубами белого пылавшего в электрических лучах дыма, завод казался грозным видением. Порой сквозь широко раскрытые двери видны были огненные пасти плавильных печей, слепящие потоки расплавленного металла, огромные багровые очаги – все пламя этого потаенного ада, этого алчного, бушующего мира, порожденного чудовищем». Надо сказать, мои начальные представления о металлургическом производстве были такими же метафоричными.



Погрузившись в актуальные проблемы настоящего металлургического завода, я сформировал представление о реальном положении вещей.

Для любого металлургического производства одной из самых актуальных проблем является снижение себестоимости продукции без потери качества или с его повышением. Те подходы к решению проблем, которые использовались на протяжении десятков лет – капитальный ремонт оборудования или техническое перевооружение – очень дорогие, долгие и не всегда приносят ожидаемого эффекта.
Читать дальше →

Ближайшие события

Витрины данных DATA VAULT

Время на прочтение3 мин
Количество просмотров9.5K
В предыдущих статьях, мы познакомились с основами DATA VAULT, расширением DATA VAULT до более подходящего для анализа состояния и созданием BUSINESS DATA VAULT. Настало время завершать серию третьей статьей.

Как я анонсировал в предыдущей публикации, эта статья будет посвящена теме BI, а точнее подготовке DATA VAULT в качестве источника данных для BI. Рассмотрим, как создать таблицы фактов и измерений и, тем самым, создать схему звезда.

Когда я начал изучать англоязычные материалы по теме создания витрин данных над DATA VAULT у меня возникло ощущение достаточной сложности процесса. Так как статьи имеют внушительный объем, там присутствуют отсылки к изменениям в формулировках, появившихся в методологии Data Vault 2.0, обозначается важность этих формулировок.

Однако, углубившись в перевод, стало понятно, что процесс этот не так уж и сложен. Но, возможно у вас сложится другое мнение.

И так, давайте переходить к сути.
Читать дальше →

Хакатон DataMonetize: легкий способ подружить ритейл и BigData

Время на прочтение5 мин
Количество просмотров4.7K
Привет, Хабр! Х5 Retail Group совместно с Russian Hackers проводит онлайн-хакатон по data science в ритейле с 18 по 21 июня. Цель — найти новые идеи по использованию больших данных в ритейле, что позволит улучшить качество обслуживания клиентов, оптимизировать процессы в сети, развивать и расширять бизнес.

У X5 Retail Group — тысячи магазинов и десятки тысяч товарных позиций, звеньев логистических цепей, миллионы покупателей и неисчислимое количество транзакций. Все это — Big Data, и мы очень-очень надеемся на то, что хакатон поможет найти новые способы использования данных в ритейле. Все как всегда — очень нужны новые и классные идеи. Под катом — интервью с Михаилом Неверовым, Head of Product в департаменте монетизации Big Data в X5 Retail Group. Он рассказывает о том, как работают с большими данными в ритейле. Ну а потом — описание хакатона со ссылочкой на регистрацию.


Читать дальше →

dplyr 1.0.0 опубликован на CRAN: Видео обзор новых возможностей и произошедших в нём изменений

Время на прочтение11 мин
Количество просмотров2.9K

dplyr — R пакет, реализующий грамматику манипуляции данными, состоящую из набора согласованных между собой глаголов, которые помогут вам решить наиболее распространенные проблемы манипулирования данными на языке R.


Это один из наиболее популярных и скачиваемых из CRAN пакетов, сегодня им пользуются миллионы аналитиков и специалистов в области науки о данных.



Хедли Викхем работает над интерфейсом dplyr с 2014 года, dplyr это потомок plyr, но более быстрый и изящный по синтаксису. За 6 лет синтаксис и функционал dplyr устаканился, в связи с чем 29 мая был официальный релиз версии 1.0.0.


За 6 недель до релиза Викхем начал публиковать серию статей, что бы постепенно ознакомить многочисленных пользователей dplyr со всеми грядущими изменениями.


В свою очередь я, преследуя туже цель, по большинству статей снимал небольшие видео обзоры, которыми и хотел с вами поделиться.


Эта публикация поможет вам максимально быстро ознакомится со всем, что было изменено или добавлено в dplyr 1.0.0.

Читать дальше →

Развитие DATA VAULT и переход к BUSINESS DATA VAULT

Время на прочтение4 мин
Количество просмотров14K
В предыдущей статье я рассказал об основах DATA VAULT, описал основные элементы DATA VAULT и их назначение. На этом нельзя считать тему DATA VAULT исчерпанной, необходимо поговорить о следующих ступенях эволюции DATA VAULT.

И в этой статье я сконцентрируюсь на развитии DATA VAULT и переходу к BUSINESS DATA VAULT или просто BUSINESS VAULT.

Причины появления BUSINESS DATA VAULT


Следует отметить, DATA VAULT имея определенные сильные стороны не лишен недостатков. Одним из таких недостатков является сложность в написании аналитических запросов. Запросы имеют значительное количество JOIN’ов, код получается длинным и громоздким. Также данные попадающие в DATA VAULT не подвергаются никаким преобразованиям, поэтому с точки зрения бизнеса DATA VAULT в чистом виде не имеет безусловной ценности.
Читать дальше →

6 способов значительно ускорить pandas с помощью пары строк кода. Часть 2

Время на прочтение6 мин
Количество просмотров12K
В предыдущей статье мы с вами рассмотрели несколько несложных способов ускорить Pandas через jit-компиляцию и использование нескольких ядер с помощью таких инструментов как Numba и Pandarallel. В этот раз мы поговорим о более мощных инструментах, с помощью которых можно не только ускорить pandas, но и кластеризовать его, таким образом позволив обрабатывать большие данные.



Часть 1

  • Numba
  • Multiprocessing
  • Pandarallel

Часть 2

  • Swifter
  • Modin
  • Dask
Читать дальше →

Твой первый шаг в Data Science. Титаник

Время на прочтение5 мин
Количество просмотров12K

Небольшое вступительное слово


Я считаю, что бОльшее количество дел мы бы могли совершать, если бы нам предоставляли пошаговые инструкции, которые скажут что и как делать. Сам же вспоминаю в своей жизни такие моменты, когда не мог начаться какое-то дело из-за того, что было просто сложно понять, с чего нужно начинать. Быть может, когда-то давно в интернете ты увидел слова «Data Science» и решил, что тебе до этого далеко, а люди, которые этим занимаются где-то там, в другом мире. Так нет же, они прямо здесь. И, возможно, благодаря людям из этой сферы тебе в ленту попала статья. Существует полно курсов, которые помогут тебе освоится с этим ремеслом, здесь же я помогу тебе сделать первый шаг.
Читать дальше →

Не становитесь Data Scientist

Время на прочтение5 мин
Количество просмотров35K
Когда у меня просят совет о том как попасть в data science, я советую стать разработчиком программного обеспечения. Это мое мнение. Я бы хотел услышать контраргументы в комментариях.

Все вокруг, даже ваша бабушка, хотят стать data scientist. Может быть data science это самая сексуальная профессия 21 века, но это не значит, что нужно игнорировать отличную, высокооплачиваемую профессию разработчика.

Часто недавние выпускники и люди, меняющие профессию, спрашивают меня как попасть в data science. Я советую им стать разработчиками вместо этого.

Имея опыт в обеих сферах, я попытаюсь убедить вас, что я прав.

Вакансий на должность разработчика больше


Вакансий на должность разработчика на порядок больше, чем вакансий на должность data scientist.

Ниже представлена пара скриншотов с результатами запросов на вакансии “data scientist” и “software engineer”.

image

google: data scientist usa indeed

image

google: software engineer usa indeed

7616 вакансий в data science по сравнению с 53893 вакансиями в сфере разработки ПО. Это данные по Америке, но я думаю в других странах будет похожий результат.
Читать дальше →