Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Old_tutor 22 ноя 2020 в 13:24

Лучшие в Kaggle: что такое соревновательный дата-сайенс и как достичь в нем успеха

6 мин

16K

Блог компании SkillfactoryBig Data * Data Engineering * Data Mining * Карьера в IT-индустрии

Привет Хабр! В блоге на нашем сайте мы регулярно публикуем статьи про данные и всё, что с ними связано. Некоторые материалы оттуда публикуем и здесь.

Как компании узнают, кто из дата-сайентистов круче, когда нанимают их на работу? Как показать свой талант и стать известным в сообществе? На основе чего формируется рейтинг, исходя из которого вас потом могут нанять на престижную позицию? Рассказываем про самую известную состязательную платформу, возможности и правила ее игры, а еще раскрываем список лучших участников из России.

Приятного чтения!

SkillFactory 20 ноя 2020 в 14:20

Сколько зарабатывает дата-сайентист: обзор зарплат и вакансий в 2020

7 мин

63K

Блог компании SkillfactoryBig Data * Data Engineering * Карьера в IT-индустрииЧитальный зал

Привет, Хабр! Наша прошлая статья, в которой мы анализировали рынок вакансий и зарплат профессии «аналитик данных», была очень тепло встречена. Поэтому мы решили продолжить. Встречайте обзор российского рынка профессии дата-сайентиста.

Дата-сайентист — одна из самых быстрорастущих специальностей XXI века. По прогнозам компании Frost & Sullivan, рынок аналитики больших данных в ближайшие 10 лет будет расти в среднем на 35,9 % в год.

В этой статье мы рассмотрим, сколько денег может получать дата-сайентист (спойлер: очень много), какие требования чаще всего есть в вакансиях, как прийти в DS и куда развиваться. Готовы? Поехали!

Приятного чтения!

skillfactory_school 17 ноя 2020 в 15:18

Укрощение Data-ориентированной сервисной сетки

6 мин

1.5K

Блог компании SkillfactoryМикросервисы * Data Engineering * Big Data *

Перевод

Микросервисы — модная и распространённая сегодня архитектура. Но когда количество микросервисов разрастается до тысяч и десятков тысяч микросервисов, что делать со «спагетти» огромного графа зависимостей, как удобно изменять сервисы? Специально к старту нового потока курса «профессия Data Scientist» мы подготовили перевод материала, в котором рассказывается о Viaduct — ориентированной на данные сервисной сетке от Airbnb, по сути, повторяющей путь парадигм программирования — от процедурного до ориентированного на данные подхода. Подробности под катом.

Приятного чтения!

SkillFactory 13 ноя 2020 в 15:41

Откуда и зачем приходят в Data Science?

8 мин

6.6K

Блог компании SkillfactoryЧитальный залКарьера в IT-индустрииData Mining * Data Engineering *

О Data Science говорят много, ведь это одна из самых востребованных и перспективных сфер. Из каких профессий люди приходят в Data Science, как они выбрали обучение, чего стремятся достичь, где собираются работать и какую роль сыграла пандемия — об этом мы поговорили со студентами магистратуры «Наука о данных» НИТУ МИСиС, организованной совместно с Zavtra.Online, подразделением SkillFactory по работе с вузами.

Приятного чтения!

+10

Newchronik 13 ноя 2020 в 07:24

Умная нормализация данных: категориальные и порядковые данные, “парные” признаки

4 мин

15K

Data Engineering * Python * Алгоритмы * Искусственный интеллектМашинное обучение *

Эта статья внеплановая. В прошлый раз я рассматривал нюансы и проблемы различных методов нормализации данных. И только после публикации понял, что не упомянул некоторые важные детали. Кому-то они покажутся очевидными, но, по-моему, лучше сказать об этом явно.

Читать дальше →

skillfactory_school 12 ноя 2020 в 14:00

Актуальные инструменты контроля версий данных в 2020 году

8 мин

13K

Блог компании SkillfactoryСистемы управления версиями * Git * Data Engineering * Big Data *

Перевод

Все мы знаем и любим Git. И, конечно же, были придуманы его аналоги для управления версиями данных, чтобы эксперименты с данными были воспроизводимыми, а действия команд — согласованными. Сегодня, в преддверии старта нового потока курса по Data Science, делимся с вами материалом о сравнении нескольких систем контроля версий. Подробности сравнения — как обычно, под катом.

Приятного чтения!

MaxRokatansky 11 ноя 2020 в 16:01

Python API в Delta Lake — простые и надежные операции Upsert и Delete

11 мин

3.1K

Блог компании OTUSPython * Data Engineering *

Перевод

Delta Lake 0.4.0 включает Python API и преобразование Parquet в таблицу Delta Lake на месте

Мы рады объявить о релизе Delta Lake 0.4.0, в котором представлен Python API, улучшающий манипулирование и управление данными в Delta-таблицах. Ключевыми фичами этого релиза являются:

- Python API для DML и служебных операций (#89) - теперь вы можете использовать Python API для обновления(update)/удаления(delete)/слияния(merge) данных и выполнения служебных операций (а именно, vacuum и history) в таблицах Delta Lake. Они отлично подходят для создания сложных рабочих нагрузок в Python, например, операций медленно меняющихся измерений (SCD - Slowly Changing Dimension), слияния изменений данных для репликации и операций upsert из потоковых запросов. Для получения более подробной информации читайте документацию.

- Convert-to-Delta (#78) - теперь вы можете преобразовать таблицу Parquet в таблицу Delta Lake на месте без перезаписи каких-либо данных. Эта функция отлично подходит для преобразования очень больших таблиц Parquet, которые было бы довольно затратно перезаписывать в Delta-таблицу. Более того, этот процесс обратим - вы можете преобразовать таблицу Parquet в таблицу Delta Lake, поработать с ней (например, удалить или объединить) и легко преобразовать ее обратно в таблицу Parquet. Для получения более подробной информации читайте документацию.

- SQL для служебных операций - теперь вы можете использовать SQL для выполнения служебных операций vacuum и history. Смотрите документацию для получения дополнительных сведений о том, как настроить Spark для выполнения этих специфичных для Delta Lake команд SQL.

Больше информации вы можете найти в примечаниях к релизу Delta Lake 0.4.0 и в документации по Delta Lake > Удаление, обновление и слияние таблиц.

Newchronik 10 ноя 2020 в 12:01

Умная нормализация данных

8 мин

156K

Data Engineering * Python * Алгоритмы * Искусственный интеллектМашинное обучение *

Из песочницы

Эта статья появилась по нескольким причинам.

Во-первых, в подавляющем большинстве книг, интернет-ресурсов и уроков по Data Science нюансы, изъяны разных типов нормализации данных и их причины либо не рассматриваются вообще, либо упоминаются лишь мельком и без раскрытия сути.

Во-вторых, имеет место «слепое» использование, например, стандартизации для наборов с большим количеством признаков — “чтобы для всех одинаково”. Особенно у новичков (сам был таким же). На первый взгляд ничего страшного. Но при детальном рассмотрении может выясниться, что какие-то признаки были неосознанно поставлены в привилегированное положение и стали влиять на результат значительно сильнее, чем должны.

И, в-третьих, мне всегда хотелось получить универсальный метод учитывающий проблемные места.

Читать дальше →

+14

baloover 10 ноя 2020 в 08:21

Модели угроз в дифференциальной приватности

6 мин

2.9K

Блог компании ДомкликBig Data * Data Engineering * Информационная безопасность *

Перевод

Это перевод второй статьи из серии публикаций по дифференциальной приватности.

На прошлой неделе, в первой статье цикла — «Дифференциальная приватность — анализ данных с сохранением конфиденциальности (введение в серию)» — мы рассмотрели базовые концепции и случаи применения дифференциальной приватности. Сегодня же мы рассмотрим возможные варианты построения систем в зависимости от ожидаемой модели угроз.

Читать дальше →

+20

selesnow 10 ноя 2020 в 08:00

ООП в языке R (часть 2): R6 классы

9 мин

4.4K

Data Engineering * Data Mining * R * ООП * Программирование *

Туториал

В прошлой публикации мы разобрали S3 классы, которые являются наиболее популярными в языке R.

Теперь разберёмся с R6 классами, которые максимально приближённые к классическому объектно ориентированному программированию.

Читать дальше →

DISGroup 9 ноя 2020 в 12:59

Как настроить сбор данных с датчиков IoT и SCADA для Data Governance

3 мин

4.5K

Big Data * Data Engineering * Интернет вещейХранение данных *

В этом году на форуме по управлению данными INFADAY 2020 было много интересных технических кейсов. Один из них – настройка сбора потоковых данных с датчиков IoT и систем SCADA таким образом, чтобы эти данные сразу можно было включить в процессы стратегического управления данными в организации – Data Governance.

Другими словами, эксперт показал, как собрать данные с датчиков так, чтобы эти данные можно было использовать для отчётности, автоматически применять к ним критерии качества, и прочее. При этом воплотить в продуктивной среде процессы управления данными эксперт предложил с помощью решений платформы Informatica, а сбор данных с многочисленных устройств на периферии — с помощью платформы Tibbo AggreGate.

Если вы работаете в крупной промышленной компании, скорее всего вы уже сталкивались с похожими задачами. А если не сталкивались, очень скоро столкнётесь. Особенно актуально это для нефтегазовых компаний. В таких компаниях широко применяют датчики SCADA для мониторинга инфраструктуры добычи и транспортировки нефтепродуктов. При этом управлять собранными потоковыми данными (повышать их качество, проводить их интеграцию, перемещать их в различные системы) нужно очень быстро. На показания датчиков важно реагировать незамедлительно, в реальном времени. Если вовремя среагировать на уведомление об инциденте, можно избежать очень больших проблем.

Ниже я расскажу, как можно настроить сбор данных с датчиков с учётом Data Governance на примере Tibbo Aggregate Network Manager и платформы Informatica. Если хотите посмотреть видеозапись демонстрации на форуме INFADAY 2020, это можно сделать на сайте мероприятия.

Читать дальше →

vlstrochkov 8 ноя 2020 в 09:10

Как дебажить запросы, используя только Spark UI

8 мин

7.5K

Блог компании OTUSBig Data * DevOps * Hadoop * Data Engineering *

Перевод

В этой статье я попытаюсь продемонстрировать, как дебажить задачу Spark, используя только Spark UI. Я запущу несколько задач Spark и покажу, как Spark UI отражает выполнение задачи. Также я поделюсь с вами несколькими советами и хитростями.

sad__sabrina 8 ноя 2020 в 07:56

Формируем тренировочный сэмпл данных при distribution shift

6 мин

1.9K

Восстановление данных * Python * Data Mining * Data Engineering *

Туториал

Перевод

Дисклеймер: статья является переведенным продуктом автора Max’a Halforda. Перевод не чистый, а адаптивный. Такой, чтобы было понимание на любом рубеже знаний.

Читать дальше →

baloover 6 ноя 2020 в 08:22

Дифференциальная приватность — анализ данных с сохранением конфиденциальности (введение в серию)

5 мин

4.7K

Блог компании ДомкликBig Data * Data Engineering * Информационная безопасность *

Перевод

Ваша компания хочет собирать и анализировать данные для изучения тенденций, но при этом не жертвуя конфиденциальностью? Или, возможно, вы уже пользуетесь различными инструментами для её сохранения и хотите углубить ваши знания или поделиться опытом? В любом случае, этот материал для вас.

Что нас побудило начать эту серию статей? В прошлом году NIST (Национальный институт стандартов и технологий США, прим. пер.) запустил Privacy Engineering Collaboration Space — площадку для сотрудничества, на которой собраны open source-инструменты, а также решения и описания процессов, необходимых для проектирования конфиденциальности систем и риск-менеджмента. Как модераторы этого пространства, мы помогаем NIST собирать имеющиеся инструменты дифференциальной приватности в области анонимизации. NIST также опубликовал работу «Privacy Framework: A Tool for Improving Privacy through Enterprise Risk Management» и план действий, описывающий ряд проблемных вопросов, связанных с приватностью данных, в том числе и анонимизацией. Сейчас мы хотим помочь Collaboration Space достичь поставленных в плане целей по анонимизации (де-идентификации). А в конечном счете — помочь NIST развить эту серию публикаций в более глубокое руководство по дифференциальной приватности.

Читать дальше →

+14

skillfactory_school 5 ноя 2020 в 13:36

21 канал на YouTube, где вы можете бесплатно изучить ИИ, машинное обучение и Data Science

5 мин

30K

Блог компании SkillfactoryМашинное обучение * Искусственный интеллектPython * Data Engineering *

Перевод

Мы уже не раз делились в своем блоге полезными материалами для развития (их список можно найти в конце этого поста). Сегодня продолжаем это начинание и специально перед стартом новых потоков курсов по Data Analytics и Data Science представляем подборку YT-каналов по Data Science, искусственному интеллекту и машинному обучению, существование многих из которых неочевидно: например, представлен канал ArXiv Insights, посвящённый научным работам, и Google Cloud Platform.

Приятного чтения!

+13

kzzzr 2 ноя 2020 в 18:17

Кто ответит за качество аналитики: QA для Хранилища Данных

6 мин

4.6K

Блог компании OTUSData Engineering * Big Data * Базы данных * SQL *

Вы любите просыпаться от звонка/сообщения руководителя или бизнес-партнера с просьбой срочно проверить данные и актуальность дашбордов? Я - нет.

Сегодня, когда данные приобретают поистине колоссальное значение, я расскажу как сделать шаг вперед навстречу управляемому и прогнозируемому качеству аналитики с точки зрения DWH, и работы с данными в общем.

Внедрение мониторинга и проактивное устранение проблем позволят выйти на принципиально новый уровень зрелости информационных и аналитических сервисов. И, возможно, помогут обеспечить здоровый и крепкий сон инженеров.

SAP 2 ноя 2020 в 09:44

Как построить поток данных на примере ЧМ-2018 по футболу с помощью моделирования в SAP BW/4HANA

10 мин

7.1K

Блог компании SAPBig Data * Data Engineering * Хранение данных *

Привет, Хабр! Пришло время поговорить о пути данных от источника, где они возникают, до представления, в котором их удобно анализировать. Сейчас все мы работаем в среде, в которой скорость подготовки данных для их использования может стать конкурентным преимуществом. Давайте разберемся, как осуществляется моделирование данных в SAP BW/4HANA, насколько это быстро и удобно, и позволяет ли компаниям извлекать из этого выгоду.

Но сначала немного истории, а потом на примере всем небезразличной темы футбола разберем практические шаги в системе.

skillfactory_school 30 окт 2020 в 14:42

Вдохновляющие портфолио Data Science

6 мин

13K

Блог компании SkillfactoryData Engineering * Карьера в IT-индустрииЛайфхаки для гиков

Перевод

Data Science — сложная область знания. Она в равной степени сочетает в себе математику и статистику, информатику и черную магию. С середины 2020 года Data Science быстро растет, многочисленные соискатели роятся над каждым объявлением о приеме на работу. Кроме того, бушующая пандемия, в дополнение ко всему, тянет вниз.

Старания в получении списка сертификатов об окончании курсов не продвинут вас далеко, если только у вас нет добросовестно заслуженных дипломов магистра или PhD (кандидата наук). Сертификаты массовых открытых онлайн-курсов, таких как на Coursera или eDx, хороши, но у меня нет свидетельств их большой значимости. Kaggle тоже уже не тот: его открытые соревнования — кладбище переобученных моделей, а настоящие соревнования выигрывают команды, с которыми трудно соревноваться, более того, такие соревнования в любом случае ограничены в смысле личного портфолио.

Выход всё же есть — делать собственные интересные проекты и из них собирать портфолио, которое выгодно представит вас. В данном материале представлены вдохновляющие примеры таких портфолио. Используйте их для улучшения вашего собственного портфолио Data Science, изучения новых навыков или чтобы открыть для себя интересные проекты.

Приятного чтения!

skillfactory_school 28 окт 2020 в 14:41

Математическое представление нейронных сетей

4 мин

29K

Блог компании SkillfactoryData Engineering * Искусственный интеллектМатематика * Машинное обучение *

Туториал

Перевод

Продолжаем «неделю нейронных сетей». В этом посте вы узнаете о нейронных сетях на примерах математических моделей. Говоря проще, вы узнаете о том, как представить нейронные сети с помощью математических уравнений. Дата-сайентисту или исследователю машинного обучения было бы неплохо получить представление о том, как нейронные сети могут быть преобразованы в кучу математических уравнений, для вычисления различных значений. Хорошее понимание представления выходных данных функции активации различных вычислительных блоков (узлов, нейронов) в разных слоях может помочь быстрее и лучше понять алгоритм обратного распространения.

Под катом — простое и краткое введение в математическое представление нейронных сетей для интересующихся теорией практиков: от перцептрона до сети с двумя скрытыми слоями.

Приятного чтения!

zoldaten 28 окт 2020 в 14:07

Нарисовать холдинг, посчитать доли КИК — networkx,netwulf,webweb

6 мин

Data Engineering * Python * Визуальное программирование * Социальные сети

Туториал

В юридической практике корпоративных юристов относительно недавно (несколько лет назад) появилась необходимость составлять и подавать уведомления о контролируемых иностранных компаниях (КИК) в рамках ст. 25.13 НК РФ. Суть этой обязанности — составить и подать документ, в котором будут отражены все связи общества в холдинге по цепочкам от текущего ООО (АО) в РФ до владельца- налогового резидента РФ КИК. Говоря проще, если офшором владеет россиянин (налоговый резидент РФ), а офшор российским ООО (даже через забор промежуточных ООО) более 25 % — уведомлению быть. Изюминка в том, что подавать необходимо всем ООО (АО) в которых эта ситуация наблюдается и подавать как сведения о владении более 25%, так и последующие изменения доли владения своевременно, иначе штрафы (100 000 рублей по каждой компании в цепочке — ст. 129.6 НК РФ). Так как холдинг (совокупность юр. лиц) организм живой и постоянные изменения долей владения неизбежны, за всем этим надо как-то следить, чтобы не насобирать штрафов. Как упростить работу в данном направлении, автоматизировать ее, посвящена данная статья. Статья также будет интересна с точки зрения графического представления связанных структур, например соц. сетей.

Читать дальше →

1 2 ...

70 71

73 74 ...

79 80

Data Engineering *

Лучшие в Kaggle: что такое соревновательный дата-сайенс и как достичь в нем успеха

Сколько зарабатывает дата-сайентист: обзор зарплат и вакансий в 2020

Укрощение Data-ориентированной сервисной сетки

Откуда и зачем приходят в Data Science?

Умная нормализация данных: категориальные и порядковые данные, “парные” признаки

Актуальные инструменты контроля версий данных в 2020 году

Python API в Delta Lake — простые и надежные операции Upsert и Delete

Умная нормализация данных

Модели угроз в дифференциальной приватности

ООП в языке R (часть 2): R6 классы

Как настроить сбор данных с датчиков IoT и SCADA для Data Governance

Как дебажить запросы, используя только Spark UI

Формируем тренировочный сэмпл данных при distribution shift

Ближайшие события

Дифференциальная приватность — анализ данных с сохранением конфиденциальности (введение в серию)

21 канал на YouTube, где вы можете бесплатно изучить ИИ, машинное обучение и Data Science

Кто ответит за качество аналитики: QA для Хранилища Данных

Как построить поток данных на примере ЧМ-2018 по футболу с помощью моделирования в SAP BW/4HANA

Вдохновляющие портфолио Data Science

Математическое представление нейронных сетей

Нарисовать холдинг, посчитать доли КИК — networkx,netwulf,webweb

Вклад авторов