Обновить
78.56

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга
Уровень сложности

Как построить поток данных на примере ЧМ-2018 по футболу с помощью моделирования в SAP BW/4HANA

Время на прочтение10 мин
Охват и читатели7.1K

Привет, Хабр! Пришло время поговорить о пути данных от источника, где они возникают, до представления, в котором их удобно анализировать. Сейчас все мы работаем в среде, в которой скорость подготовки данных для их использования может стать конкурентным преимуществом. Давайте разберемся, как осуществляется моделирование данных в SAP BW/4HANA, насколько это быстро и удобно, и позволяет ли компаниям извлекать из этого выгоду.

Но сначала немного истории, а потом на примере всем небезразличной темы футбола разберем практические шаги в системе.

Читать далее

Вдохновляющие портфолио Data Science

Время на прочтение6 мин
Охват и читатели13K
image

Data Science — сложная область знания. Она в равной степени сочетает в себе математику и статистику, информатику и черную магию. С середины 2020 года Data Science быстро растет, многочисленные соискатели роятся над каждым объявлением о приеме на работу. Кроме того, бушующая пандемия, в дополнение ко всему, тянет вниз.

Старания в получении списка сертификатов об окончании курсов не продвинут вас далеко, если только у вас нет добросовестно заслуженных дипломов магистра или PhD (кандидата наук). Сертификаты массовых открытых онлайн-курсов, таких как на Coursera или eDx, хороши, но у меня нет свидетельств их большой значимости. Kaggle тоже уже не тот: его открытые соревнования — кладбище переобученных моделей, а настоящие соревнования выигрывают команды, с которыми трудно соревноваться, более того, такие соревнования в любом случае ограничены в смысле личного портфолио.

Выход всё же есть — делать собственные интересные проекты и из них собирать портфолио, которое выгодно представит вас. В данном материале представлены вдохновляющие примеры таких портфолио. Используйте их для улучшения вашего собственного портфолио Data Science, изучения новых навыков или чтобы открыть для себя интересные проекты.
Приятного чтения!

Математическое представление нейронных сетей

Время на прочтение4 мин
Охват и читатели29K
image
Продолжаем «неделю нейронных сетей». В этом посте вы узнаете о нейронных сетях на примерах математических моделей. Говоря проще, вы узнаете о том, как представить нейронные сети с помощью математических уравнений. Дата-сайентисту или исследователю машинного обучения было бы неплохо получить представление о том, как нейронные сети могут быть преобразованы в кучу математических уравнений, для вычисления различных значений. Хорошее понимание представления выходных данных функции активации различных вычислительных блоков (узлов, нейронов) в разных слоях может помочь быстрее и лучше понять алгоритм обратного распространения.

Под катом — простое и краткое введение в математическое представление нейронных сетей для интересующихся теорией практиков: от перцептрона до сети с двумя скрытыми слоями.
Приятного чтения!

Нарисовать холдинг, посчитать доли КИК — networkx,netwulf,webweb

Время на прочтение6 мин
Охват и читатели3K
В юридической практике корпоративных юристов относительно недавно (несколько лет назад) появилась необходимость составлять и подавать уведомления о контролируемых иностранных компаниях (КИК) в рамках ст. 25.13 НК РФ. Суть этой обязанности — составить и подать документ, в котором будут отражены все связи общества в холдинге по цепочкам от текущего ООО (АО) в РФ до владельца- налогового резидента РФ КИК. Говоря проще, если офшором владеет россиянин (налоговый резидент РФ), а офшор российским ООО (даже через забор промежуточных ООО) более 25 % — уведомлению быть. Изюминка в том, что подавать необходимо всем ООО (АО) в которых эта ситуация наблюдается и подавать как сведения о владении более 25%, так и последующие изменения доли владения своевременно, иначе штрафы (100 000 рублей по каждой компании в цепочке — ст. 129.6 НК РФ). Так как холдинг (совокупность юр. лиц) организм живой и постоянные изменения долей владения неизбежны, за всем этим надо как-то следить, чтобы не насобирать штрафов. Как упростить работу в данном направлении, автоматизировать ее, посвящена данная статья. Статья также будет интересна с точки зрения графического представления связанных структур, например соц. сетей.


Читать дальше →

Реализуем и сравниваем оптимизаторы моделей в глубоком обучении

Время на прочтение14 мин
Охват и читатели77K

Реализуем и сравниваем 4 популярных оптимизатора обучения нейронных сетей: оптимизатор импульса, среднеквадратичное распространение, мини-пакетный градиентный спуск и адаптивную оценку момента. Репозиторий, много кода на Python и его вывод, визуализации и формулы — всё это под катом.
Приятного чтения!

Почему нам нужно больше Open Source Data Science

Время на прочтение8 мин
Охват и читатели3K

Почти все мы пользуемся ПО с открытым исходным кодом (Open Source Software или OSS), это часть нашей жизни. Коллективное сотрудничество в создании программного обеспечения изменило мир разработки ПО и мир вообще. Но мы не видим тех же действий в области data science. В DAGsHub мы проводим много времени, думая о open source data science (OSDS) и разговаривая с дата-сайентистами. Эта статья представляет собой краткое изложение некоторых таких бесед в нашем сообществе. Цель этой статьи — сформулировать, почему открытый исходный код является важной частью разработки программного обеспечения сегодня и выдвинуть аргумент о том, что открытость источников будет важной частью data science в ближайшем будущем.
Приятного чтения!

Расширение возможностей алгоритмов Машинного Обучения с помощью библиотеки daal4py

Время на прочтение4 мин
Охват и читатели3.2K

Каждый человек, который когда-либо сталкивался с алгоритмами машинного обучения знает, что даже простые ML модели на большом объёме данных могут обучаться непозволительно долго. Задачи восстановления зависимостей, классификации объектов оборачиваются минутами, а то и часами обучения сети.


Данная статья продемонстрирует, как на примере алгоритмов, взятых из библиотеки Scikit-Learn, можно расширить возможности обучения нейронных сетей, путём использования ускоренных вычислений библиотеки daal4py.

Читать дальше →

Ремонт слухового аппарата. (Почти детективная история)

Время на прочтение2 мин
Охват и читатели20K
Совсем недавно пришел в ремонт слуховой аппарат. НИЧЕГО о нем известно не было. Внешний вид аппарата:



Причина ремонта, аппарат «глух и нем» даже после заряда аккумулятора. После разбора корпуса аппарата, получилось вот что:
Читать дальше →

Как стать успешным дата-сайентистом и аналитиком данных

Время на прочтение7 мин
Охват и читатели12K

Есть много статей о навыках, необходимых, чтобы быть хорошим дата-сайентистом, или аналитиком данных, но лишь в немногих статьях пишут о навыках, необходимых для успеха — будь то исключительная оценка работы, похвала от руководства, повышение, или все вышеперечисленное. Сегодня мы представляем вам материал, автор которого хотела бы поделиться своим личным опытом работы в качестве дата-сайентиста и аналитика данных, а также тем, чему она научилась ради достижения успеха.
Приятного чтения!

Что читать специалисту по Data Science в 2020 году

Время на прочтение6 мин
Охват и читатели5.9K

В этом посте делимся с вами подборкой источников полезной информации о Data Science от сооснователя и CTO DAGsHub — сообщества и веб-платформы для контроля версий данных и совместной работы дата-сайентистов и инженеров по машинному обучению. В подборку попали самые разные источники, от аккаунтов в твиттере, до полноценных инженерных блогов, которые ориентированы для тех, кто точно знает, что ищет. Подробности под катом.
Приятного чтения!

Как просто и быстро искать данные с помощью Whale

Время на прочтение4 мин
Охват и читатели5.8K

В этом материале рассказывается о простейшем и быстром инструменте обнаружения данных, работу которого вы видите на КДПВ. Интересно, что whale создан таким образом, чтобы размещаться на удаленном git-сервере. Подробности под катом.
Приятного чтения!

Разбираемся, в чем разница между Data Mining и Data Extraction

Время на прочтение8 мин
Охват и читатели18K

Два этих модных слова, связанных с Data Science, сбивают с толку многих людей. Data Mining часто неправильно понимают как извлечение и получение данных, но на самом деле все намного сложнее. В этом посте давайте расставим точки над Mining и выясним разницу между Data Mining и Data Extraction.
Приятного чтения!

Магия Ensemble Learning

Время на прочтение4 мин
Охват и читатели4.8K

Привет, Хабр! Приглашаем Data Engineer'ов и специалистов по Machine Learning на бесплатный Demo-урок «Вывод ML моделей в промышленную среду на примере онлайн-рекомендаций». А также мы публикуем статью Luca Monno — Head of Financial Analytics at CDP SpA.

Одним из наиболее полезных и простых методов машинного обучения является Ensemble Learning. Ensemble Learning – это метод, лежащий в основе XGBoost, Бэггинга, Случайного Леса и многих других алгоритмов.

На Towards Data Science есть много классных статей, но я выбрал две истории (первая и вторая), которые мне больше всего понравились. Так зачем же писать еще одну статью про EL? Потому что я хочу показать вам, как это работает на простом примере, который дал мне понять, что здесь нет никакого волшебства.

Читать далее

Ближайшие события

Как распознать шарлатана от Data Science?

Время на прочтение7 мин
Охват и читатели8.1K

Возможно, вы слышали об аналитиках, специалистах по машинному обучению и искусственному интеллекту, но слышали ли вы о тех, кому незаслуженно переплачивают? Встречайте шарлатана данных! Эти хитрецы, которых манит прибыльная работа, создают плохую репутацию настоящим специалистам по обработке данных. В материале разбираемся, как выводить таких людей на чистую воду.
Приятного чтения!

Курс «Промышленный ML на больших данных» — что это, для кого и каких навыков требует?

Время на прочтение4 мин
Охват и читатели2.7K

Привет Хабр. Приглашаем на бесплатный Demo-урок «Современные большие данные, анализ и оптимизация производительности распределенных приложений». А также в этой статье решили рассказать, как складывается ситуация на рынке специалистов Data Science и конкретно в Big Data и что вас ждет на курсе по промышленному машинному обучению.

Читать далее

Data Science: бесплатные курсы для продолжающих обучение

Время на прочтение5 мин
Охват и читатели6.6K


Как говорил Бьерн Страуструп: «Наша цивилизация в значительной степени зависит от программного обеспечения. Мы должны совершенствовать наши системы и для этого должны расти профессионально». Продолжая мысль Бьерна, можно сказать, что для профессионального роста, мы не можем перестать учиться — у более опытных коллег, а также самостоятельно, используя различные инструменты, например, массовые открытые онлайн-курсы. О них и пойдет речь в статье.
Добро пожаловать под кат!

Данные внутри нас: Чем занимаются биоинформатики?

Время на прочтение7 мин
Охват и читатели24K

Рассказываем про людей будущего, которые расшифровывают органическую биг-дату. За последние два десятилетия количество биологических данных, которые можно проанализировать, выросло во много раз благодаря тому, что был расшифрован геном человека. До этого мы и представить не могли, что по информации, хранящейся буквально у нас в крови, можно будет определить наше происхождение, проверить, как организм будет реагировать на определенные лекарства, и даже изменить свою биологическую наследственность.
Вот как это делается

7 бесплатных книг, которые следует прочитать каждому дата-сайентисту

Время на прочтение4 мин
Охват и читатели16K


Самообразование — пожалуй, один из самых сложных путей и процессов для взрослого человека. Когда вокруг столько отвлекающих факторов, уже трудно заставить себя довести дело до конца (особенно если мотивация неочевидна). Но самообразование как эволюция — это неотъемлемый элемент жизни любого профессионала или того, кто хочет им стать. Книги в этом случае могут стать тем самым выстрелом, которым убиваются два зайца, вы и растете как специалист, и не «выпадаете из жизни». Автор материала подобрал 7 бесплатных электронных книг, которые помогут вам изучать Data Science и ML.
Читать дальше →

Прогулка по граблям: 10 критических ошибок разработки теста для проверки знаний

Время на прочтение8 мин
Охват и читатели3K

Перед записью на новый курс Machine Learning Advanced мы тестируем будущих студентов, чтобы определить уровень их готовности и понять, что именно им необходимо предложить для подготовки к курсу. Но возникает дилемма: с одной стороны, мы должны проверить знания по Data Science, с другой — мы не можем устроить полноценный 4-х часовой экзамен.

Для решения такой задачи мы развернули штаб по TestDev прямо в команде разработки курсов по Data Science (и, похоже, это только начало). Представляем вам список 10 «граблей», на которые наступают при разработке тестов для оценки знаний. Надеемся, что мир онлайн-обучения станет после этого чуть лучше.
От винта!

Data Science — это пузырь?

Время на прочтение7 мин
Охват и читатели8.1K


У нас в SkillFactory, как в школе, которая специализируется на обучении дата-сайентистов и дата-аналитиков, внимательно подходят к вопросу восприятия самой профессии как самими студентами, так и их нанимателями. О требованиях к профессии Data Analyst и путанице в вакансиях мы уже рассказывали в этом материале, а теперь хотим поделиться с вами переводом статьи руководителя отдела интеллектуального принятия решений в Google, в которой она рассказывает о перспективах должности Data Scientist. О рисках компании при найме Data Scientist из-за разного понимания должности или из-за неопытных HR и о том, как обезопасить вас от ошибок в резюме.
Добро пожаловать под кат