Как стать автором
Обновить
118.92

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга
Уровень сложности

6 способов значительно ускорить pandas с помощью пары строк кода. Часть 1

Время на прочтение5 мин
Количество просмотров21K
В этой статье я расскажу о шести инструментах, способных значительно ускорить ваш pandas код. Инструменты я собрал по одному принципу — простота интеграции в существующую кодовую базу. Для большинства инструментов вам достаточно установить модуль и добавить пару строк кода.


Читать дальше →
Всего голосов 18: ↑18 и ↓0+18
Комментарии9

Как не пополнить ряды стремных специалистов, если ты Data Scientist

Время на прочтение18 мин
Количество просмотров23K

Хабра-сообщество провело еще одно интервью в нашем образовательном проекте: прямых эфирах c ребятами из IT, которые отвечают на ваши вопросы в формате живого общения.

Наш проект — попытка создать полноценный набор гайдов и рекомендаций для успешной жизни разработчика: как построить карьеру, получить оффер мечты, привлечь инвестиции в стартап, не тухнуть на скучных проектах, вырасти в своем деле и по пути купить домик у моря.

В начале недели наши вопросы отвечал Борис Янгель — ML-инженер Яндекса, который участвовал в создании мозгов «Алисы», а теперь делает беспилотные автомобили. 

Боря рассказал о том, как стать крутым Data-Scientist, как парашютный спорт помогает ему в работе, почему конференции по ML бесполезны и ответил на недавний пост разгневанного отца про то, как Алиса рекомендовала видео с историями убийств ребенку.
Всего голосов 32: ↑27 и ↓5+44
Комментарии4

Как выучиться на Data Scientist: наиболее востребованные технические навыки

Время на прочтение6 мин
Количество просмотров10K
Какие технические знания становятся наиболее популярными у работодателей, а какие теряют свою популярность.

image

В своей первоначальной статье 2018-го года я рассматривал спрос на общие навыки – статистику и коммуникацию. Также я рассматривал спрос на Python и язык программирования R. Технологии создания программного обеспечения меняются намного быстрее, чем спрос на общие навыки, поэтому в этот обновленный анализ я включаю только технологии.

Я искал ключевые слова, которые появлялись в списках вакансий на должность «Data Scientist» в США на таких сайтах как SimplyHired, Indeed, Monster и LinkedIn. В этот раз я решил написать код, чтобы изучить все списки вместо того, чтобы искать вручную. Это решение оказалось очень успешным для SimplyHired, Indeed и Monster. Я использовал Requests и Beautiful Soup из библиотеки Python HTTP. Код с анализом вы можете увидеть в моем отчете на GitHub.

Продираться через LinkedIn оказалось в разы сложнее. Необходимо пройти процесс авторизации, чтобы просматривать точное количество списков вакансий. Я решил использовать Selenium для просмотра страниц без графического интерфейса пользователя. В сентябре 2019 года Верховный суд США выиграл дело против LinkedIn, тем самым позволив очистить данные сайта. Тем не менее, я не смог получить доступ к своей учетной записи после нескольких попыток входа. Возможно, эта проблема возникла из-за ограничения скорости. Апдейт: Я все же смог войти, но боюсь, что меня заблокируют при повторной попытке.
Читать дальше →
Всего голосов 6: ↑5 и ↓1+10
Комментарии1

450 бесплатных курсов от Лиги Плюща

Время на прочтение19 мин
Количество просмотров71K
image


Информационные технологии позволяют получить невероятно крутые образовательные ресурсы в один клик. Бесплатно.

Я сейчас решаю задачу, как из огромной массы жизненно важного контента выбрать тот, который стоит попробовать в первую очередь, как «разметить данные», чтобы нейросеточка у подрастающего поколения обучилась более эффективно. (ontol.org, «Выгорание», «Удаленка», телеграм-канал).

Предлагаю вашему вниманию полную подборку всех бесплатных курсов от Лиги Плюща.

Лига плюща (The Ivy League) — ассоциация восьми частных американских университетов, расположенных в семи штатах на северо-востоке США. В состав лиги входят: Брауновский университет (Brown University), Гарвардский университет (Harvard University), Дартмутский колледж (Dartmouth College), Йельский университет (Yale University), Колумбийский университет (Columbia University), Корнеллский университет (Cornell University), Пенсильванский университет (University of Pennsylvania), Принстонский университет (Princeton University).

Эти университеты выпустили около 500 онлайн-курсов, 450 из которых сейчас доступны.

Оглавление


Computer Science (37)
Data Science (18)
Программирование (8)
Гуманитарные науки (80)
Бизнес (72)
Art & Design (20)
Наука (32)
Социальные науки (74)
Здоровье и медицина (32)
Инженерия (15)
Образование и преподавание (21)
Математика (14)
Личностное развитие (7)

Читать дальше →
Всего голосов 20: ↑19 и ↓1+23
Комментарии5

Истории

Основы Data Vault

Время на прочтение4 мин
Количество просмотров26K

В настоящее время, в сфере анализа данных и BI, уже не возможно не встретить такое понятия как DATA VAULT. Однако, на мой взгляд, есть некоторый недостаток информации по этой теме, особенно в русскоязычном сегменте интернета.


Можно найти интересные статьи о применении DATA VAULT в компаниях, однако основы и методология освещены недостаточно.


В англоязычном сегменте, дела обстоят значительно лучше. Можно купить книги авторов-изобретателей методологии DATA VAULT, но есть и статьи в открытом доступе, которые уделяют внимание именно основам.


Будучи вдохновленным одной из таких статей, я попытаюсь передать базовые вещи методологии DATA VAULT на русском языке.

Читать дальше →
Всего голосов 10: ↑10 и ↓0+10
Комментарии2

Видеозаписи докладов митапа по продуктовой аналитике

Время на прочтение2 мин
Количество просмотров1.3K
Привет, Хабр! 7-го мая в Wrike TechClub мы собрали экспертов из XSolla, Pandora и Wrike и поговорили о подходах и решениях в продуктовой аналитике, инсайтах, экспериментах и взаимодействии аналитика с другими отделами. Доклады и обсуждение проводили на английском, так что если хотите потренировать язык на удаленке, делимся с вами видеозаписями докладов и слайдами (в описании к видео).


Всего голосов 6: ↑6 и ↓0+6
Комментарии0

Что общего у дерзких ответов Алисы с беспилотными автомобилями?

Время на прочтение2 мин
Количество просмотров5.4K


ЗАВТРА, 18 мая в 20:00 специалист по Data Science и машинному обучению Борис Янгель будет отвечать на ваши вопросы о нейросетках и Machine Learning в формате живого интервью в нашем инстаграм-аккаунте. Вы можете задать ему свой вопрос в комментариях к этому посту и спикер ответит вам в прямом эфире.

О спикере


Борис закончил МГУ по специальности Machine Learning. Работал в Microsoft Research в группе Криса Бишопа над фреймворком infer.Net, затем в Яндексе руководил разработкой мозгов Алисы. Любит скайдайвинг, нейросетки, гоночные автомобили и смелые решения. Сейчас Борис работает в Яндексе над проектом беспилотных автомобилей.
Читать дальше →
Всего голосов 17: ↑14 и ↓3+26
Комментарии6

Data Build Tool или что общего между Хранилищем Данных и Смузи

Время на прочтение10 мин
Количество просмотров27K

На каких принципах строится идеальное Хранилище Данных?

Фокус на бизнес-ценности и аналитике при отсутствии boilerplate code. Управление DWH как кодовой базой: версионирование, ревью, автоматическое тестирование и CI. Модульность, расширяемость, открытый исходный код и сообщество. Дружественная пользовательская документация и визуализация зависимостей (Data Lineage).

Обо всём этом подробнее и о роли DBT в экосистеме Big Data & Analytics — добро пожаловать под кат.
Читать дальше →
Всего голосов 9: ↑8 и ↓1+10
Комментарии2

Правильные графики Covid-19

Время на прочтение5 мин
Количество просмотров15K

Во времена повсеместной одержимости библиотеками и веб-фреймворками мы стали забывать радость от решения задач минимальными средствами. В этой статье, мы запилим веб-сервис на актуальную тему, используя ванильные Python и JavaScript, а также, задеплоим его в GitLab Pages. Быстро, минималистично, без лишних зависимостей, и максимально элегантно.


Вдохновившись видосом How To Tell If We're Beating COVID-19 от minutephysics, я набросал в свободное (от удаленной работы и домашних дел) время сервис, который на основе данных с Карты распространения коронавируса в России и мире от Яндекса строит графики, аналогичные тем, что на странице Covid Trends. Вот, что из этого вышло:



Интересно? Погнали!

Читать дальше →
Всего голосов 23: ↑16 и ↓7+18
Комментарии22

Язык R для пользователей Excel (бесплатный видео курс)

Время на прочтение6 мин
Количество просмотров34K

В связи с карантином многие сейчас львиную долю времени проводят дома, и это время можно, и даже нужно провести с пользой.


В начале карантина я решил довести до ума некоторые проекты начатые несколько месяцев назад. Одним из таких проектов был видео курс "Язык R для пользователей Excel". Этим курсом я хотел снизить порог вхождения в R, и немного восполнить существующий дефицит обучающих материалов по данной теме на русском языке.


Если всю работу с данными в компании, в котороый вы работаете принято по-прежнему вести в Excel, то предлагаю вам познакомится с более современным, и при этом совершенно бесплатным инструментом анализа данных.


Читать дальше →
Всего голосов 15: ↑14 и ↓1+16
Комментарии2

Митап по продуктовой аналитике: бесплатно, бесконтактно, онлайн

Время на прочтение2 мин
Количество просмотров1.7K


7-го мая в 19:00 по Москве приглашаем всех присоединиться к митапу по продуктовой аналитике. Обсудим все самое важное: работу с данными, инсайты, подходы к исследованиям и поговорим о роли продуктового аналитика в команде. Мероприятие пройдет полностью на английском языке.
Читать дальше →
Всего голосов 9: ↑9 и ↓0+9
Комментарии0

Небольшое сравнение функциональности Azure DataFactory и IBM DataStage

Время на прочтение7 мин
Количество просмотров2.2K
В течение некоторого времени я тестировал Microsoft Azure DataFactory, чтобы сравнить его функциональность (пока не производительность) с существующим у моего клиента решением ETL — IBM Infosphere DataStage 11 (под YARN, но это не принципиально в данном случае). Это сравнение было призвано помочь клиенту сделать выбор, что использовать в среднесрочной перспективе для процессов ETL: ADF или DataStage. Мне были непонятны мотивы клиента мигрировать все ETL процессы на движок ADF, поэтому я попытался найти аргументы для того, чтобы предотвратить этот процесс.

Результаты моего небольшого сравнения под катом. Возможно вам оно пригодится тоже при составлении предложения клиентам.
Читать дальше →
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Добавляем параллельные вычисления в Pandas

Время на прочтение2 мин
Количество просмотров18K

Возможно вы сталкивались с задачей параллельных вычислений над pandas датафреймами. Решить эту проблему можно как силами нативного Python, так и с помощью замечательной библиотеки — pandarallel. В этой статье я покажу, как эта библиотека позволяет обрабатывать ваши данные с использованием всех доступных мощностей.


Читать дальше →
Всего голосов 10: ↑10 и ↓0+10
Комментарии5

Ближайшие события

15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань

Оперативная аналитика в микросервисной архитектуре: п̶о̶н̶я̶т̶ь̶ ̶и̶ ̶п̶р̶о̶с̶т̶и̶т̶ь̶ помочь и подсказать Postgres FDW

Время на прочтение9 мин
Количество просмотров5.4K
Микросервисная архитектура, как и все в этом мире, имеет свои плюсы и свои минусы. Одни процессы с ней становятся проще, другие — сложнее. И в угоду скорости изменений и лучшей масштабируемости нужно приносить свои жертвы. Одна из них — усложнение аналитики. Если в монолите всю оперативную аналитику можно свести к SQL запросам к аналитической реплике, то в мультисервисной архитектуре у каждого сервиса своя база и, кажется, что одним запросом не обойтись (а может обойтись?). Для тех, кому интересно, как мы решили проблему оперативной аналитики у себя в компании и как научились жить с этим решением — welcome.


Меня зовут Павел Сиваш, в ДомКлике я работаю в команде, которая отвечает за сопровождение аналитического хранилища данных. Условно нашу деятельность можно отнести к дата инженерии, но, на самом деле, спектр задач гораздо шире. Есть стандартные для дата инженерии ETL/ELT, поддержка и адаптация инструментов для анализа данных и разработка своих инструментов. В частности, для оперативной отчетности мы решили «притвориться», что у нас монолит и дать аналитикам одну базу, в которой будут все необходимые им данные.
Читать дальше →
Всего голосов 15: ↑14 и ↓1+16
Комментарии9

Как научиться Data Science и Business Intelligence бесплатно? Расскажем на дне открытых дверей в Ozon Masters

Время на прочтение3 мин
Количество просмотров7.7K
В сентябре 2019 мы запустили Ozon Masters — бесплатную образовательную программу для тех, кто хочет научиться работать с большими данными. В эту субботу мы расскажем о курсе вместе с его преподавателями в прямом эфире дня открытых дверей — а пока немного вводных о программе и поступлении.
Читать дальше →
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Павел Клеменков, NVIDIA: Мы стараемся уменьшить разрыв между тем, что data scientist умеет, и тем, что он должен уметь

Время на прочтение6 мин
Количество просмотров4.7K
Стартовал второй набор студентов магистерской программы по data science и business intelligence Ozon Masters – а чтобы решиться оставить заявку и пройти онлайн-тестирование было проще, мы расспросили преподавателей программы о том, чего стоит ожидать от обучения и работы с данными.

image Chief Data Scientist NVIDIA и преподаватель курса по Big Data и Data Engineering Павел Клеменков рассказал о том, зачем математикам писать код и два года учиться в Ozon Masters.

— Много ли вообще компаний, которые используют алгоритмы data science?


— На самом деле немало. Довольно много крупных компаний, у которых есть реально большие данные, либо начинают с ними эффективно работать, либо уже давно работают. Понятно, что половина рынка использует данные, которые поместятся в Excel-табличку или могут быть посчитаны на большом сервере, но говорить о том, что бизнесов, умеющих работать с данными, единицы — нельзя.
Читать дальше →
Всего голосов 11: ↑9 и ↓2+11
Комментарии1

Денормализация баз данных ERP-систем и ее влияние на развитие ПО: открываем таверну на Тортуге

Время на прочтение10 мин
Количество просмотров4.1K
Привет! Меня зовут Андрей Семенов, я старший аналитик в Спортмастер. В этом посте я хочу поднять вопрос денормализации баз данных ERP-систем. Мы рассмотрим общие условия, а также конкретный пример — скажем, это будет прекрасная таверна-монополист для пиратов и моряков. В которой пиратов и моряков надо обслуживать по-разному, ибо представления о прекрасном и потребительские паттерны у этих добрых господ существенно отличаются.

Как сделать так, чтобы все были довольны? Как не сойти с ума, проектируя и поддерживая такую систему? Что делать, если в таверну начинают приходить не только привычные пираты и моряки?



Всё под катом. Но пойдем по порядку.
Читать дальше →
Всего голосов 7: ↑6 и ↓1+12
Комментарии1

Data Engineer и Data Scientist: что умеют и сколько зарабатывают

Время на прочтение5 мин
Количество просмотров22K
Вместе с Еленой Герасимовой, руководителем факультета «Data Science и аналитика» в Нетологии, продолжаем разбираться, как взаимодействуют между собой и чем различаются Data Scientist и Data Engineer.

В первой части рассказали об основных отличиях Data Scientist и Data Engineer.

В этом материале поговорим о том, какими знаниями и навыками должны обладать специалисты, какое образование ценится работодателями, как проходят собеседования, а также сколько зарабатывают дата-инженеры и дата-сайентисты. 
Читать дальше →
Всего голосов 4: ↑1 и ↓30
Комментарии12

Тестировщик больших и маленьких данных: тренды, теория, моя история

Время на прочтение10 мин
Количество просмотров22K
Всем привет, меня зовут Александр, и я Data Quality инженер, который занимается проверкой данных на предмет их качества. В этой статье речь пойдёт о том, как я к этому пришёл и почему в 2020 году это направление тестирования оказалось на гребне волны.


Читать дальше →
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Машинное обучение на языке R с использованием пакета mlr3

Время на прочтение16 мин
Количество просмотров9.5K

Источник: https://mlr3book.mlr-org.com/


Привет, Хабр!

В этом сообщении мы рассмотрим самый продуманный на сегодняшний день подход к машинному обучению на языке R — пакет mlr3 и экосистему вокруг него. Данный подход основан на «нормальном» ООП с использованием R6-классов и на представлении всех операций с данными и моделями в виде графа вычислений. Это позволяет создавать упорядоченные и гибкие пайплайны для задач машинного обучения, но на первых порах может показаться сложным и запутанным. Ниже постараемся внести определенную ясность и замотивировать к использованию mlr3 в ваших проектах.

Содержание:


  1. Немного истории и сравнение с конкурирующими решениями
  2. Технические детали: R6-классы и пакет data.table
  3. Основные составляющие ML-пайплайна в mlr3
  4. Настройка гиперпараметров
  5. Обзор экосистемы mlr3
  6. Пайпы и граф вычислений
Читать дальше →
Всего голосов 28: ↑26 и ↓2+31
Комментарии7