Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Статьи Посты Новости Авторы Компании

baloover 6 ноя 2020 в 11:22

Дифференциальная приватность — анализ данных с сохранением конфиденциальности (введение в серию)

5 мин

3.9K

Блог компании ДомкликИнформационная безопасность*Data Engineering*Big Data*

Перевод

Ваша компания хочет собирать и анализировать данные для изучения тенденций, но при этом не жертвуя конфиденциальностью? Или, возможно, вы уже пользуетесь различными инструментами для её сохранения и хотите углубить ваши знания или поделиться опытом? В любом случае, этот материал для вас.

Что нас побудило начать эту серию статей? В прошлом году NIST (Национальный институт стандартов и технологий США, прим. пер.) запустил Privacy Engineering Collaboration Space — площадку для сотрудничества, на которой собраны open source-инструменты, а также решения и описания процессов, необходимых для проектирования конфиденциальности систем и риск-менеджмента. Как модераторы этого пространства, мы помогаем NIST собирать имеющиеся инструменты дифференциальной приватности в области анонимизации. NIST также опубликовал работу «Privacy Framework: A Tool for Improving Privacy through Enterprise Risk Management» и план действий, описывающий ряд проблемных вопросов, связанных с приватностью данных, в том числе и анонимизацией. Сейчас мы хотим помочь Collaboration Space достичь поставленных в плане целей по анонимизации (де-идентификации). А в конечном счете — помочь NIST развить эту серию публикаций в более глубокое руководство по дифференциальной приватности.

Читать дальше →

+17

skillfactory_school 5 ноя 2020 в 16:36

21 канал на YouTube, где вы можете бесплатно изучить ИИ, машинное обучение и Data Science

5 мин

27K

Блог компании SkillfactoryData Engineering*Python*Искусственный интеллектМашинное обучение*

Перевод

Мы уже не раз делились в своем блоге полезными материалами для развития (их список можно найти в конце этого поста). Сегодня продолжаем это начинание и специально перед стартом новых потоков курсов по Data Analytics и Data Science представляем подборку YT-каналов по Data Science, искусственному интеллекту и машинному обучению, существование многих из которых неочевидно: например, представлен канал ArXiv Insights, посвящённый научным работам, и Google Cloud Platform.

Приятного чтения!

+17

kzzzr 2 ноя 2020 в 21:17

Кто ответит за качество аналитики: QA для Хранилища Данных

6 мин

Блог компании OTUSData Engineering*Big Data*Администрирование баз данных*SQL*

Вы любите просыпаться от звонка/сообщения руководителя или бизнес-партнера с просьбой срочно проверить данные и актуальность дашбордов? Я - нет.

Сегодня, когда данные приобретают поистине колоссальное значение, я расскажу как сделать шаг вперед навстречу управляемому и прогнозируемому качеству аналитики с точки зрения DWH, и работы с данными в общем.

Внедрение мониторинга и проактивное устранение проблем позволят выйти на принципиально новый уровень зрелости информационных и аналитических сервисов. И, возможно, помогут обеспечить здоровый и крепкий сон инженеров.

+10

SAP 2 ноя 2020 в 12:44

Как построить поток данных на примере ЧМ-2018 по футболу с помощью моделирования в SAP BW/4HANA

10 мин

5.7K

Блог компании SAPData Engineering*Big Data*Хранилища данных*

Привет, Хабр! Пришло время поговорить о пути данных от источника, где они возникают, до представления, в котором их удобно анализировать. Сейчас все мы работаем в среде, в которой скорость подготовки данных для их использования может стать конкурентным преимуществом. Давайте разберемся, как осуществляется моделирование данных в SAP BW/4HANA, насколько это быстро и удобно, и позволяет ли компаниям извлекать из этого выгоду.

Но сначала немного истории, а потом на примере всем небезразличной темы футбола разберем практические шаги в системе.

skillfactory_school 30 окт 2020 в 17:42

Вдохновляющие портфолио Data Science

6 мин

11K

Блог компании SkillfactoryData Engineering*Карьера в IT-индустрииЛайфхаки для гиков

Перевод

Data Science — сложная область знания. Она в равной степени сочетает в себе математику и статистику, информатику и черную магию. С середины 2020 года Data Science быстро растет, многочисленные соискатели роятся над каждым объявлением о приеме на работу. Кроме того, бушующая пандемия, в дополнение ко всему, тянет вниз.

Старания в получении списка сертификатов об окончании курсов не продвинут вас далеко, если только у вас нет добросовестно заслуженных дипломов магистра или PhD (кандидата наук). Сертификаты массовых открытых онлайн-курсов, таких как на Coursera или eDx, хороши, но у меня нет свидетельств их большой значимости. Kaggle тоже уже не тот: его открытые соревнования — кладбище переобученных моделей, а настоящие соревнования выигрывают команды, с которыми трудно соревноваться, более того, такие соревнования в любом случае ограничены в смысле личного портфолио.

Выход всё же есть — делать собственные интересные проекты и из них собирать портфолио, которое выгодно представит вас. В данном материале представлены вдохновляющие примеры таких портфолио. Используйте их для улучшения вашего собственного портфолио Data Science, изучения новых навыков или чтобы открыть для себя интересные проекты.

Приятного чтения!

+12

skillfactory_school 28 окт 2020 в 17:41

Математическое представление нейронных сетей

4 мин

23K

Блог компании SkillfactoryData Engineering*Искусственный интеллектМатематика*Машинное обучение*

Туториал

Перевод

Продолжаем «неделю нейронных сетей». В этом посте вы узнаете о нейронных сетях на примерах математических моделей. Говоря проще, вы узнаете о том, как представить нейронные сети с помощью математических уравнений. Дата-сайентисту или исследователю машинного обучения было бы неплохо получить представление о том, как нейронные сети могут быть преобразованы в кучу математических уравнений, для вычисления различных значений. Хорошее понимание представления выходных данных функции активации различных вычислительных блоков (узлов, нейронов) в разных слоях может помочь быстрее и лучше понять алгоритм обратного распространения.

Под катом — простое и краткое введение в математическое представление нейронных сетей для интересующихся теорией практиков: от перцептрона до сети с двумя скрытыми слоями.

Приятного чтения!

zoldaten 28 окт 2020 в 17:07

Нарисовать холдинг, посчитать доли КИК — networkx,netwulf,webweb

6 мин

2.8K

Data Engineering*Python*Визуальное программирование*Социальные сети и сообщества

Туториал

В юридической практике корпоративных юристов относительно недавно (несколько лет назад) появилась необходимость составлять и подавать уведомления о контролируемых иностранных компаниях (КИК) в рамках ст. 25.13 НК РФ. Суть этой обязанности — составить и подать документ, в котором будут отражены все связи общества в холдинге по цепочкам от текущего ООО (АО) в РФ до владельца- налогового резидента РФ КИК. Говоря проще, если офшором владеет россиянин (налоговый резидент РФ), а офшор российским ООО (даже через забор промежуточных ООО) более 25 % — уведомлению быть. Изюминка в том, что подавать необходимо всем ООО (АО) в которых эта ситуация наблюдается и подавать как сведения о владении более 25%, так и последующие изменения доли владения своевременно, иначе штрафы (100 000 рублей по каждой компании в цепочке — ст. 129.6 НК РФ). Так как холдинг (совокупность юр. лиц) организм живой и постоянные изменения долей владения неизбежны, за всем этим надо как-то следить, чтобы не насобирать штрафов. Как упростить работу в данном направлении, автоматизировать ее, посвящена данная статья. Статья также будет интересна с точки зрения графического представления связанных структур, например соц. сетей.

Читать дальше →

skillfactory_school 27 окт 2020 в 18:48

Реализуем и сравниваем оптимизаторы моделей в глубоком обучении

14 мин

55K

Блог компании SkillfactoryBig Data*Data Engineering*Python*Машинное обучение*

Туториал

Перевод

Реализуем и сравниваем 4 популярных оптимизатора обучения нейронных сетей: оптимизатор импульса, среднеквадратичное распространение, мини-пакетный градиентный спуск и адаптивную оценку момента. Репозиторий, много кода на Python и его вывод, визуализации и формулы — всё это под катом.

Приятного чтения!

+10

skillfactory_school 26 окт 2020 в 19:01

Почему нам нужно больше Open Source Data Science

8 мин

2.9K

Блог компании SkillfactoryЧитальный залOpen source*Data Engineering*

Перевод

Почти все мы пользуемся ПО с открытым исходным кодом (Open Source Software или OSS), это часть нашей жизни. Коллективное сотрудничество в создании программного обеспечения изменило мир разработки ПО и мир вообще. Но мы не видим тех же действий в области data science. В DAGsHub мы проводим много времени, думая о open source data science (OSDS) и разговаривая с дата-сайентистами. Эта статья представляет собой краткое изложение некоторых таких бесед в нашем сообществе. Цель этой статьи — сформулировать, почему открытый исходный код является важной частью разработки программного обеспечения сегодня и выдвинуть аргумент о том, что открытость источников будет важной частью data science в ближайшем будущем.

Приятного чтения!

+13

Kantrollzed 26 окт 2020 в 13:43

Расширение возможностей алгоритмов Машинного Обучения с помощью библиотеки daal4py

4 мин

Data Engineering*Python*Алгоритмы*Машинное обучение*

Из песочницы

Каждый человек, который когда-либо сталкивался с алгоритмами машинного обучения знает, что даже простые ML модели на большом объёме данных могут обучаться непозволительно долго. Задачи восстановления зависимостей, классификации объектов оборачиваются минутами, а то и часами обучения сети.

Данная статья продемонстрирует, как на примере алгоритмов, взятых из библиотеки Scikit-Learn, можно расширить возможности обучения нейронных сетей, путём использования ускоренных вычислений библиотеки daal4py.

Читать дальше →

Leonid1908 25 окт 2020 в 19:53

Ремонт слухового аппарата. (Почти детективная история)

2 мин

20K

ГаджетыАнализ и проектирование систем*Data Engineering*

Совсем недавно пришел в ремонт слуховой аппарат. НИЧЕГО о нем известно не было. Внешний вид аппарата:

Причина ремонта, аппарат «глух и нем» даже после заряда аккумулятора. После разбора корпуса аппарата, получилось вот что:

Читать дальше →

+23

skillfactory_school 23 окт 2020 в 16:37

Как стать успешным дата-сайентистом и аналитиком данных

7 мин

11K

Блог компании SkillfactoryКарьера в IT-индустрииData Engineering*Big Data*

Перевод

Есть много статей о навыках, необходимых, чтобы быть хорошим дата-сайентистом, или аналитиком данных, но лишь в немногих статьях пишут о навыках, необходимых для успеха — будь то исключительная оценка работы, похвала от руководства, повышение, или все вышеперечисленное. Сегодня мы представляем вам материал, автор которого хотела бы поделиться своим личным опытом работы в качестве дата-сайентиста и аналитика данных, а также тем, чему она научилась ради достижения успеха.

Приятного чтения!

+11

skillfactory_school 23 окт 2020 в 14:08

Что читать специалисту по Data Science в 2020 году

6 мин

5.7K

Блог компании SkillfactoryData Engineering*Машинное обучение*Читальный зал

Перевод

В этом посте делимся с вами подборкой источников полезной информации о Data Science от сооснователя и CTO DAGsHub — сообщества и веб-платформы для контроля версий данных и совместной работы дата-сайентистов и инженеров по машинному обучению. В подборку попали самые разные источники, от аккаунтов в твиттере, до полноценных инженерных блогов, которые ориентированы для тех, кто точно знает, что ищет. Подробности под катом.

Приятного чтения!

+15

skillfactory_school 22 окт 2020 в 16:54

Как просто и быстро искать данные с помощью Whale

4 мин

5.4K

Блог компании SkillfactoryData Engineering*Data Mining*Python*Rust*

Перевод

В этом материале рассказывается о простейшем и быстром инструменте обнаружения данных, работу которого вы видите на КДПВ. Интересно, что whale создан таким образом, чтобы размещаться на удаленном git-сервере. Подробности под катом.

Приятного чтения!

skillfactory_school 21 окт 2020 в 19:40

Разбираемся, в чем разница между Data Mining и Data Extraction

8 мин

16K

Блог компании SkillfactoryData Mining*Data Engineering*Big Data*

Перевод

Два этих модных слова, связанных с Data Science, сбивают с толку многих людей. Data Mining часто неправильно понимают как извлечение и получение данных, но на самом деле все намного сложнее. В этом посте давайте расставим точки над Mining и выясним разницу между Data Mining и Data Extraction.

Приятного чтения!

+11

vlstrochkov 17 окт 2020 в 12:49

Магия Ensemble Learning

4 мин

4.2K

Блог компании OTUSBig Data*Data Engineering*

Перевод

Привет, Хабр! Приглашаем Data Engineer'ов и специалистов по Machine Learning на бесплатный Demo-урок «Вывод ML моделей в промышленную среду на примере онлайн-рекомендаций». А также мы публикуем статью Luca Monno — Head of Financial Analytics at CDP SpA.

Одним из наиболее полезных и простых методов машинного обучения является Ensemble Learning. Ensemble Learning – это метод, лежащий в основе XGBoost, Бэггинга, Случайного Леса и многих других алгоритмов.

На Towards Data Science есть много классных статей, но я выбрал две истории (первая и вторая), которые мне больше всего понравились. Так зачем же писать еще одну статью про EL? Потому что я хочу показать вам, как это работает на простом примере, который дал мне понять, что здесь нет никакого волшебства.

+10

skillfactory_school 14 окт 2020 в 12:12

Как распознать шарлатана от Data Science?

7 мин

Блог компании SkillfactoryКарьера в IT-индустрииData Mining*Data Engineering*Big Data*

Перевод

Возможно, вы слышали об аналитиках, специалистах по машинному обучению и искусственному интеллекту, но слышали ли вы о тех, кому незаслуженно переплачивают? Встречайте шарлатана данных! Эти хитрецы, которых манит прибыльная работа, создают плохую репутацию настоящим специалистам по обработке данных. В материале разбираемся, как выводить таких людей на чистую воду.

Приятного чтения!

vlstrochkov 12 окт 2020 в 14:57

Курс «Промышленный ML на больших данных» — что это, для кого и каких навыков требует?

4 мин

2.4K

Блог компании OTUSBig Data*Data Engineering*

Привет Хабр. Приглашаем на бесплатный Demo-урок «Современные большие данные, анализ и оптимизация производительности распределенных приложений». А также в этой статье решили рассказать, как складывается ситуация на рынке специалистов Data Science и конкретно в Big Data и что вас ждет на курсе по промышленному машинному обучению.

skillfactory_school 12 окт 2020 в 13:48

Data Science: бесплатные курсы для продолжающих обучение

5 мин

6.1K

Блог компании SkillfactoryData Engineering*Машинное обучение*Учебный процесс в IT

Перевод

Как говорил Бьерн Страуструп: «Наша цивилизация в значительной степени зависит от программного обеспечения. Мы должны совершенствовать наши системы и для этого должны расти профессионально». Продолжая мысль Бьерна, можно сказать, что для профессионального роста, мы не можем перестать учиться — у более опытных коллег, а также самостоятельно, используя различные инструменты, например, массовые открытые онлайн-курсы. О них и пойдет речь в статье.

Добро пожаловать под кат!

+13

Old_tutor 8 окт 2020 в 13:35

Данные внутри нас: Чем занимаются биоинформатики?

7 мин

19K

Блог компании SkillfactoryData Engineering*БиотехнологииНаучная фантастика

Рассказываем про людей будущего, которые расшифровывают органическую биг-дату. За последние два десятилетия количество биологических данных, которые можно проанализировать, выросло во много раз благодаря тому, что был расшифрован геном человека. До этого мы и представить не могли, что по информации, хранящейся буквально у нас в крови, можно будет определить наше происхождение, проверить, как организм будет реагировать на определенные лекарства, и даже изменить свою биологическую наследственность.

Вот как это делается

+16

1 2 ...

51 52

54 55 ...

59 60

Data Engineering *

Дифференциальная приватность — анализ данных с сохранением конфиденциальности (введение в серию)

21 канал на YouTube, где вы можете бесплатно изучить ИИ, машинное обучение и Data Science

Кто ответит за качество аналитики: QA для Хранилища Данных

Как построить поток данных на примере ЧМ-2018 по футболу с помощью моделирования в SAP BW/4HANA

Истории

Вдохновляющие портфолио Data Science

Математическое представление нейронных сетей

Нарисовать холдинг, посчитать доли КИК — networkx,netwulf,webweb

Реализуем и сравниваем оптимизаторы моделей в глубоком обучении

Почему нам нужно больше Open Source Data Science

Расширение возможностей алгоритмов Машинного Обучения с помощью библиотеки daal4py

Ремонт слухового аппарата. (Почти детективная история)

Как стать успешным дата-сайентистом и аналитиком данных

Что читать специалисту по Data Science в 2020 году

Ближайшие события

Как просто и быстро искать данные с помощью Whale

Разбираемся, в чем разница между Data Mining и Data Extraction

Магия Ensemble Learning

Как распознать шарлатана от Data Science?

Курс «Промышленный ML на больших данных» — что это, для кого и каких навыков требует?

Data Science: бесплатные курсы для продолжающих обучение

Данные внутри нас: Чем занимаются биоинформатики?

Вклад авторов