Как стать автором

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Статьи Посты Новости Авторы Компании

30mb1 25 мая 2020 в 15:14

6 способов значительно ускорить pandas с помощью пары строк кода. Часть 1

5 мин

21K

Big Data*Data Engineering*Python*Машинное обучение*Программирование*

Туториал

Перевод

В этой статье я расскажу о шести инструментах, способных значительно ускорить ваш pandas код. Инструменты я собрал по одному принципу — простота интеграции в существующую кодовую базу. Для большинства инструментов вам достаточно установить модуль и добавить пару строк кода.

Читать дальше →

+18

ruvds 23 мая 2020 в 14:16

Как не пополнить ряды стремных специалистов, если ты Data Scientist

18 мин

23K

Блог компании RUVDS.comКарьера в IT-индустрииИнтервьюData Engineering*Big Data*

Хабра-сообщество провело еще одно интервью в нашем образовательном проекте: прямых эфирах c ребятами из IT, которые отвечают на ваши вопросы в формате живого общения.

Наш проект — попытка создать полноценный набор гайдов и рекомендаций для успешной жизни разработчика: как построить карьеру, получить оффер мечты, привлечь инвестиции в стартап, не тухнуть на скучных проектах, вырасти в своем деле и по пути купить домик у моря.

В начале недели наши вопросы отвечал Борис Янгель — ML-инженер Яндекса, который участвовал в создании мозгов «Алисы», а теперь делает беспилотные автомобили.

Боря рассказал о том, как стать крутым Data-Scientist, как парашютный спорт помогает ему в работе, почему конференции по ML бесполезны и ответил на недавний пост разгневанного отца про то, как Алиса рекомендовала видео с историями убийств ребенку.

+44

skillfactory_school 22 мая 2020 в 13:54

Как выучиться на Data Scientist: наиболее востребованные технические навыки

6 мин

10K

Блог компании SkillfactoryData Engineering*Python*Карьера в IT-индустрииУчебный процесс в IT

Перевод

Какие технические знания становятся наиболее популярными у работодателей, а какие теряют свою популярность.

В своей первоначальной статье 2018-го года я рассматривал спрос на общие навыки – статистику и коммуникацию. Также я рассматривал спрос на Python и язык программирования R. Технологии создания программного обеспечения меняются намного быстрее, чем спрос на общие навыки, поэтому в этот обновленный анализ я включаю только технологии.

Я искал ключевые слова, которые появлялись в списках вакансий на должность «Data Scientist» в США на таких сайтах как SimplyHired, Indeed, Monster и LinkedIn. В этот раз я решил написать код, чтобы изучить все списки вместо того, чтобы искать вручную. Это решение оказалось очень успешным для SimplyHired, Indeed и Monster. Я использовал Requests и Beautiful Soup из библиотеки Python HTTP. Код с анализом вы можете увидеть в моем отчете на GitHub.

Продираться через LinkedIn оказалось в разы сложнее. Необходимо пройти процесс авторизации, чтобы просматривать точное количество списков вакансий. Я решил использовать Selenium для просмотра страниц без графического интерфейса пользователя. В сентябре 2019 года Верховный суд США выиграл дело против LinkedIn, тем самым позволив очистить данные сайта. Тем не менее, я не смог получить доступ к своей учетной записи после нескольких попыток входа. Возможно, эта проблема возникла из-за ограничения скорости. Апдейт: Я все же смог войти, но боюсь, что меня заблокируют при повторной попытке.

Читать дальше →

+10

MagisterLudi 21 мая 2020 в 19:32

450 бесплатных курсов от Лиги Плюща

19 мин

71K

Блог компании SkillfactoryУчебный процесс в ITПрограммирование*Научно-популярноеData Engineering*

Перевод

Информационные технологии позволяют получить невероятно крутые образовательные ресурсы в один клик. Бесплатно.

Я сейчас решаю задачу, как из огромной массы жизненно важного контента выбрать тот, который стоит попробовать в первую очередь, как «разметить данные», чтобы нейросеточка у подрастающего поколения обучилась более эффективно. (ontol.org, «Выгорание», «Удаленка», телеграм-канал).

Предлагаю вашему вниманию полную подборку всех бесплатных курсов от Лиги Плюща.

Лига плюща (The Ivy League) — ассоциация восьми частных американских университетов, расположенных в семи штатах на северо-востоке США. В состав лиги входят: Брауновский университет (Brown University), Гарвардский университет (Harvard University), Дартмутский колледж (Dartmouth College), Йельский университет (Yale University), Колумбийский университет (Columbia University), Корнеллский университет (Cornell University), Пенсильванский университет (University of Pennsylvania), Принстонский университет (Princeton University).

Эти университеты выпустили около 500 онлайн-курсов, 450 из которых сейчас доступны.

Оглавление

Computer Science (37)
Data Science (18)
Программирование (8)
Гуманитарные науки (80)
Бизнес (72)
Art & Design (20)
Наука (32)
Социальные науки (74)
Здоровье и медицина (32)
Инженерия (15)
Образование и преподавание (21)
Математика (14)
Личностное развитие (7)

Читать дальше →

+23

ASenterprise 20 мая 2020 в 16:21

Основы Data Vault

4 мин

26K

Big Data*Data Engineering*Data Mining*SQL*

Туториал

В настоящее время, в сфере анализа данных и BI, уже не возможно не встретить такое понятия как DATA VAULT. Однако, на мой взгляд, есть некоторый недостаток информации по этой теме, особенно в русскоязычном сегменте интернета.

Можно найти интересные статьи о применении DATA VAULT в компаниях, однако основы и методология освещены недостаточно.

В англоязычном сегменте, дела обстоят значительно лучше. Можно купить книги авторов-изобретателей методологии DATA VAULT, но есть и статьи в открытом доступе, которые уделяют внимание именно основам.

Будучи вдохновленным одной из таких статей, я попытаюсь передать базовые вещи методологии DATA VAULT на русском языке.

Читать дальше →

+10

Wriketeam 18 мая 2020 в 14:18

Видеозаписи докладов митапа по продуктовой аналитике

2 мин

1.3K

Блог компании WrikeУправление продуктом*Аналитика мобильных приложений*Data Mining*Data Engineering*

Привет, Хабр! 7-го мая в Wrike TechClub мы собрали экспертов из XSolla, Pandora и Wrike и поговорили о подходах и решениях в продуктовой аналитике, инсайтах, экспериментах и взаимодействии аналитика с другими отделами. Доклады и обсуждение проводили на английском, так что если хотите потренировать язык на удаленке, делимся с вами видеозаписями докладов и слайдами (в описании к видео).

+6

editor_ruvds 17 мая 2020 в 13:13

Что общего у дерзких ответов Алисы с беспилотными автомобилями?

2 мин

5.4K

Блог компании RUVDS.comBig Data*Data Engineering*ИнтервьюМашинное обучение*

ЗАВТРА, 18 мая в 20:00 специалист по Data Science и машинному обучению Борис Янгель будет отвечать на ваши вопросы о нейросетках и Machine Learning в формате живого интервью в нашем инстаграм-аккаунте. Вы можете задать ему свой вопрос в комментариях к этому посту и спикер ответит вам в прямом эфире.

О спикере

Борис закончил МГУ по специальности Machine Learning. Работал в Microsoft Research в группе Криса Бишопа над фреймворком infer.Net, затем в Яндексе руководил разработкой мозгов Алисы. Любит скайдайвинг, нейросетки, гоночные автомобили и смелые решения. Сейчас Борис работает в Яндексе над проектом беспилотных автомобилей.

Читать дальше →

+26

kzzzr 11 мая 2020 в 11:24

Data Build Tool или что общего между Хранилищем Данных и Смузи

10 мин

27K

Блог компании OTUSSQL*Data Engineering*Big Data*

Технотекст 2020

Из песочницы

На каких принципах строится идеальное Хранилище Данных?

Фокус на бизнес-ценности и аналитике при отсутствии boilerplate code. Управление DWH как кодовой базой: версионирование, ревью, автоматическое тестирование и CI. Модульность, расширяемость, открытый исходный код и сообщество. Дружественная пользовательская документация и визуализация зависимостей (Data Lineage).

Обо всём этом подробнее и о роли DBT в экосистеме Big Data & Analytics — добро пожаловать под кат.

Читать дальше →

+10

Himura 10 мая 2020 в 14:34

Правильные графики Covid-19

5 мин

15K

Веб-разработка*Микросервисы*Python*JavaScript*Data Engineering*

Во времена повсеместной одержимости библиотеками и веб-фреймворками мы стали забывать радость от решения задач минимальными средствами. В этой статье, мы запилим веб-сервис на актуальную тему, используя ванильные Python и JavaScript, а также, задеплоим его в GitLab Pages. Быстро, минималистично, без лишних зависимостей, и максимально элегантно.

Вдохновившись видосом How To Tell If We're Beating COVID-19 от minutephysics, я набросал в свободное (от удаленной работы и домашних дел) время сервис, который на основе данных с Карты распространения коронавируса в России и мире от Яндекса строит графики, аналогичные тем, что на странице Covid Trends. Вот, что из этого вышло:

Интересно? Погнали!

Читать дальше →

+18

selesnow 5 мая 2020 в 10:02

Язык R для пользователей Excel (бесплатный видео курс)

6 мин

34K

Визуализация данных*R*Data Mining*Data Engineering*Big Data*

В связи с карантином многие сейчас львиную долю времени проводят дома, и это время можно, и даже нужно провести с пользой.

В начале карантина я решил довести до ума некоторые проекты начатые несколько месяцев назад. Одним из таких проектов был видео курс "Язык R для пользователей Excel". Этим курсом я хотел снизить порог вхождения в R, и немного восполнить существующий дефицит обучающих материалов по данной теме на русском языке.

Если всю работу с данными в компании, в котороый вы работаете принято по-прежнему вести в Excel, то предлагаю вам познакомится с более современным, и при этом совершенно бесплатным инструментом анализа данных.

Читать дальше →

+16

Wriketeam 30 апр 2020 в 16:23

Митап по продуктовой аналитике: бесплатно, бесконтактно, онлайн

2 мин

1.7K

Блог компании WrikeУправление продуктом*Аналитика мобильных приложений*Data Mining*Data Engineering*

7-го мая в 19:00 по Москве приглашаем всех присоединиться к митапу по продуктовой аналитике. Обсудим все самое важное: работу с данными, инсайты, подходы к исследованиям и поговорим о роли продуктового аналитика в команде. Мероприятие пройдет полностью на английском языке.

Читать дальше →

+9

Geckelberryfinn 29 апр 2020 в 12:10

Небольшое сравнение функциональности Azure DataFactory и IBM DataStage

7 мин

2.2K

Big Data*Data Engineering*Microsoft Azure*

В течение некоторого времени я тестировал Microsoft Azure DataFactory, чтобы сравнить его функциональность (пока не производительность) с существующим у моего клиента решением ETL — IBM Infosphere DataStage 11 (под YARN, но это не принципиально в данном случае). Это сравнение было призвано помочь клиенту сделать выбор, что использовать в среднесрочной перспективе для процессов ETL: ADF или DataStage. Мне были непонятны мотивы клиента мигрировать все ETL процессы на движок ADF, поэтому я попытался найти аргументы для того, чтобы предотвратить этот процесс.

Результаты моего небольшого сравнения под катом. Возможно вам оно пригодится тоже при составлении предложения клиентам.

Читать дальше →

+2

Pavlov_dog 24 апр 2020 в 16:02

Добавляем параллельные вычисления в Pandas

2 мин

18K

Data Engineering*Python*Высокая производительность*

Туториал

Перевод

Возможно вы сталкивались с задачей параллельных вычислений над pandas датафреймами. Решить эту проблему можно как силами нативного Python, так и с помощью замечательной библиотеки — pandarallel. В этой статье я покажу, как эта библиотека позволяет обрабатывать ваши данные с использованием всех доступных мощностей.

Читать дальше →

+10

pasivash 24 апр 2020 в 10:57

Оперативная аналитика в микросервисной архитектуре: п̶о̶н̶я̶т̶ь̶ ̶и̶ ̶п̶р̶о̶с̶т̶и̶т̶ь̶ помочь и подсказать Postgres FDW

9 мин

5.4K

Блог компании ДомкликData Engineering*PostgreSQL*Хранение данных*Хранилища данных*

Микросервисная архитектура, как и все в этом мире, имеет свои плюсы и свои минусы. Одни процессы с ней становятся проще, другие — сложнее. И в угоду скорости изменений и лучшей масштабируемости нужно приносить свои жертвы. Одна из них — усложнение аналитики. Если в монолите всю оперативную аналитику можно свести к SQL запросам к аналитической реплике, то в мультисервисной архитектуре у каждого сервиса своя база и, кажется, что одним запросом не обойтись (а может обойтись?). Для тех, кому интересно, как мы решили проблему оперативной аналитики у себя в компании и как научились жить с этим решением — welcome.

Меня зовут Павел Сиваш, в ДомКлике я работаю в команде, которая отвечает за сопровождение аналитического хранилища данных. Условно нашу деятельность можно отнести к дата инженерии, но, на самом деле, спектр задач гораздо шире. Есть стандартные для дата инженерии ETL/ELT, поддержка и адаптация инструментов для анализа данных и разработка своих инструментов. В частности, для оперативной отчетности мы решили «притвориться», что у нас монолит и дать аналитикам одну базу, в которой будут все необходимые им данные.

Читать дальше →

+16

skoooorik 23 апр 2020 в 16:43

Как научиться Data Science и Business Intelligence бесплатно? Расскажем на дне открытых дверей в Ozon Masters

3 мин

7.7K

Блог компании Ozon TechBig Data*Data Engineering*Машинное обучение*

В сентябре 2019 мы запустили Ozon Masters — бесплатную образовательную программу для тех, кто хочет научиться работать с большими данными. В эту субботу мы расскажем о курсе вместе с его преподавателями в прямом эфире дня открытых дверей — а пока немного вводных о программе и поступлении.

Читать дальше →

+3

skoooorik 17 апр 2020 в 10:16

Павел Клеменков, NVIDIA: Мы стараемся уменьшить разрыв между тем, что data scientist умеет, и тем, что он должен уметь

6 мин

4.7K

Блог компании Ozon TechМашинное обучение*Data Engineering*Big Data*

Стартовал второй набор студентов магистерской программы по data science и business intelligence Ozon Masters – а чтобы решиться оставить заявку и пройти онлайн-тестирование было проще, мы расспросили преподавателей программы о том, чего стоит ожидать от обучения и работы с данными.

Chief Data Scientist NVIDIA и преподаватель курса по Big Data и Data Engineering Павел Клеменков рассказал о том, зачем математикам писать код и два года учиться в Ozon Masters.

— Много ли вообще компаний, которые используют алгоритмы data science?

— На самом деле немало. Довольно много крупных компаний, у которых есть реально большие данные, либо начинают с ними эффективно работать, либо уже давно работают. Понятно, что половина рынка использует данные, которые поместятся в Excel-табличку или могут быть посчитаны на большом сервере, но говорить о том, что бизнесов, умеющих работать с данными, единицы — нельзя.

Читать дальше →

+11

SemionovAndrey 16 апр 2020 в 14:59

Денормализация баз данных ERP-систем и ее влияние на развитие ПО: открываем таверну на Тортуге

10 мин

4.1K

Блог компании SM LabАдминистрирование баз данных*SQL*ERP-системы*Data Engineering*

Привет! Меня зовут Андрей Семенов, я старший аналитик в Спортмастер. В этом посте я хочу поднять вопрос денормализации баз данных ERP-систем. Мы рассмотрим общие условия, а также конкретный пример — скажем, это будет прекрасная таверна-монополист для пиратов и моряков. В которой пиратов и моряков надо обслуживать по-разному, ибо представления о прекрасном и потребительские паттерны у этих добрых господ существенно отличаются.

Как сделать так, чтобы все были довольны? Как не сойти с ума, проектируя и поддерживая такую систему? Что делать, если в таверну начинают приходить не только привычные пираты и моряки?

Всё под катом. Но пойдем по порядку.

Читать дальше →

+12

blognetology 14 апр 2020 в 16:03

Data Engineer и Data Scientist: что умеют и сколько зарабатывают

5 мин

22K

Блог компании НетологияBig Data*Data Engineering*Карьера в IT-индустрии

Вместе с Еленой Герасимовой, руководителем факультета «Data Science и аналитика» в Нетологии, продолжаем разбираться, как взаимодействуют между собой и чем различаются Data Scientist и Data Engineer.

В первой части рассказали об основных отличиях Data Scientist и Data Engineer.

В этом материале поговорим о том, какими знаниями и навыками должны обладать специалисты, какое образование ценится работодателями, как проходят собеседования, а также сколько зарабатывают дата-инженеры и дата-сайентисты.

Читать дальше →

0

ablatov 7 апр 2020 в 15:04

Тестировщик больших и маленьких данных: тренды, теория, моя история

10 мин

22K

Блог компании EPAMBig Data*Data Engineering*

Всем привет, меня зовут Александр, и я Data Quality инженер, который занимается проверкой данных на предмет их качества. В этой статье речь пойдёт о том, как я к этому пришёл и почему в 2020 году это направление тестирования оказалось на гребне волны.

Читать дальше →

+4

ogurtsov 7 апр 2020 в 14:59

Машинное обучение на языке R с использованием пакета mlr3

16 мин

9.5K

Блог компании Open Data ScienceМашинное обучение*R*Data Mining*Data Engineering*

Источник: https://mlr3book.mlr-org.com/

Привет, Хабр!

В этом сообщении мы рассмотрим самый продуманный на сегодняшний день подход к машинному обучению на языке R — пакет mlr3 и экосистему вокруг него. Данный подход основан на «нормальном» ООП с использованием R6-классов и на представлении всех операций с данными и моделями в виде графа вычислений. Это позволяет создавать упорядоченные и гибкие пайплайны для задач машинного обучения, но на первых порах может показаться сложным и запутанным. Ниже постараемся внести определенную ясность и замотивировать к использованию mlr3 в ваших проектах.

Содержание:

Читать дальше →

+31

1 2 ...

52