Как стать автором
Обновить
37.31

Data Engineering *

обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга
Уровень сложности

Два подхода моделирования исторических данных

Уровень сложности Средний
Время на прочтение 2 мин
Количество просмотров 657

Перевод статьи с Medium

В статье обсуждаются моделирование данных для хранения исторических данных, включая использование временных таблиц и исторических таблиц.

Временные таблицы добавляют две даты к каждой записи для определения периода актуальности данных, в то время как исторические таблицы сохраняют только последние записи в основной таблице, перемещая старые записи в отдельную историческую таблицу.

Это обеспечивает более четкий аудит изменений и улучшает производительность запросов к историческим данным, но требует дополнительного хранения и обслуживания.

Читать далее
Всего голосов 7: ↑5 и ↓2 +3
Комментарии 2

Новости

Книга DataDrivenConstruction. Навигация в эпоху данных в строительной отрасли

Уровень сложности Простой
Время на прочтение 2 мин
Количество просмотров 186

Руководство DataDrivenConstruction, воплотившее в себе исследования и изучения интеграции данных в строительстве, опубликовано.

В книге представлено более 200 уникальных иллюстраций, объясняющих тему данных в строительстве. Книга охватывает более 80 тем и 40 наиболее распространенных бизнес-кейсов по использованию данных в компаниях, работающих в строительном секторе.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 0

Предварительная обработка данных для машинного обучения

Уровень сложности Сложный
Время на прочтение 13 мин
Количество просмотров 1.4K

В данной статье рассмотрим пример предобработки данных для дальнейшего исследования, например, использование метода кластеризации. Но для начала проясним, что из себя представляет машинное обучение и из каких этапов оно состоит.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 1

Как мы упростили работу с данными с помощью пайплайна: пошаговый план

Время на прочтение 6 мин
Количество просмотров 1.2K

Привет, меня зовут Руслан Шкарин. Я Senior Software Engineer и это моя первая статья в DIY-медиа вАЙТИ от beeline cloud. Расскажу, как занимался построением пайплайна для сбора и анализа логов системы в реальном времени для сервиса, который обходил сотни тысяч веб-страниц и парсил контактные данные.

Читать далее
Всего голосов 8: ↑6 и ↓2 +4
Комментарии 1

Истории

«Иногда твоя работа выглядит магией»: что делают дата-сайентисты в промышленности и почему так востребованы

Время на прочтение 10 мин
Количество просмотров 8.4K

Привет, Хабр! Меня зовут Светлана Потапова, я руковожу «Северсталь Диджитал» — подразделением ИТ-функции Северстали, которое занимается разработкой и внедрением решений на основе машинного обучения.

Data Science уже давно вышла за пределы ИТ-компаний, шагнула дальше банков и телекома и пришла в промышленность, в том числе тяжёлую. Все обратили внимание на работу с данными, ведь они справедливо считаются новой нефтью, а их правильное использование даёт компаниям существенные преимущества. Обилие разнообразных задач со своей спецификой привело к появлению отдельного направления — Data Science (DS) в промышленности. 

В этой статье расскажу, зачем становиться дата-сайентистом в промышленности, кто это такой и чем занимается и почему повышать цифровизацию производства непросто, но того стоит. 

Читать дальше →
Всего голосов 14: ↑12 и ↓2 +10
Комментарии 4

Системы генерации отчетов

Уровень сложности Простой
Время на прочтение 8 мин
Количество просмотров 2.4K

Это обзор систем построения отчетов. Какие бывают, зачем они нужны и куда все это движется. В рассмотренных далее системах речь пойдет только об отчетах. А отчет – это выборка данных из источника по заданным критериям. Другой функционал данных систем не будет рассматриваться. Со всеми системами отчетности о которых пойдет речь, я либо работал напрямую, либо они использовались в проектах, в которых я участвовал.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Комментарии 13

Apache Flink: динамическое определение выходного топика в Kafka

Время на прочтение 7 мин
Количество просмотров 2.3K

Всем привет, меня зовут Александр Бобряков. Я техлид в команде МТС Аналитики, занимаюсь Real-Time обработкой данных. Мы начали использовать фреймворк Apache Flink, и я решил поделиться на Хабре своим опытом внедрения этой технологии в цикле статей.

В предыдущей статье — «Apache Flink. Как работает дедупликация данных в потоке Kafka-to-Kafka?» — я рассказывал про построение пайплайна Kafka-to-Kafka с промежуточным разделением потока и дедупликацией событий. Также разобрались, что такое состояние оператора и зачем оно нужно.

В этой статье добавим возможность динамического определения топика в Kafka для каждого события, куда его нужно записать.

Читать далее
Всего голосов 9: ↑9 и ↓0 +9
Комментарии 0

Business intelligence и качество исходных данных

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 2.3K

Сегодня бизнес хочет принимать решения, основываясь на данных, а не на ощущениях, тем более что сейчас для этого есть все возможности. Предприятия накопили терабайты и эксабайты данных, их количество растет в геометрической прогрессии каждый день.

Как повлиял ковид на ценообразование загородной недвижимости? Какой регион выбрать для новой мебельной фабрики?  Вложиться в жилой комплекс эконом или бизнес-класса?    Какие факторы влияют на продление ДМС?  Как должно работать индивидуальное автострахование?

В наши дни ты должен быть data-driven или проиграешь.

Сырые данные предприятия проходят большой путь, чтобы превратиться в управленческие решения. Этот путь включает такие шаги как:

Читать далее
Всего голосов 10: ↑8 и ↓2 +6
Комментарии 0

Модель глубокого обучения, использующая данные ЭКГ для прогнозирования риска внезапной сердечной смерти

Уровень сложности Средний
Время на прочтение 23 мин
Количество просмотров 1.4K

Внезапная сердечная смерть (ВСС) происходит, когда возникают проблемы с электрической активностью в сердце. Это распространенная причина смерти по всему миру, поэтому было бы полезно легко выявлять людей с высоким риском ВСС. Электрокардиограммы - это доступный и широко используемый способ измерения электрической активности сердца. Мы разработали вычислительный метод, который может использовать электрокардиограммы для определения, находится ли человек в повышенном риске ВСС. Наш метод может позволить врачам скрининг больших групп людей и выявление тех, кто находится в повышенном риске ВСС. Это может позволить регулярное наблюдение за этими людьми и, возможно, предотвращение ВСС у некоторых из них.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 2

Подробный гайд: Как собрать дашборд в FineBI за 30 минут

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 3.6K

Хабр, привет! 

Меня зовут Александр Ларин, я руководитель центра технической поддержки и обучения в GlowByte и лидер самого большого в России сообщества FineBI.

В данной статье я хотел бы показать новичкам основы работы в FineBI: как подключиться к источнику данных, создать на его основе датасет, провести обработку данных, собрать свой первый дашборд – и всё это сделать буквально за 30 минут.  А тех, кому этого будет недостаточно, приглашаю на наши курсы

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 4

Паркет устарел. Пора менять

Уровень сложности Средний
Время на прочтение 12 мин
Количество просмотров 20K

Паркет устарел. Пора менять

В этой статье речь пойдет не о напольных покрытиях, а о програмном продукте, более современном конкуренте Apache Parquet, продукте который изначально в 2014 году был разработан компанией Huawei как закрытое и проприетарное ПО, но в 2016 году был преобразован в открытый код и передан в управление Apache Software Foundation, где сейчас поддерживается и разрабатывается open-source сообществом. Речь идет о Apache CarbonData.

Читать далее
Всего голосов 11: ↑10 и ↓1 +9
Комментарии 15

Когнитивные искажения у аналитика данных: найти и починить

Уровень сложности Средний
Время на прочтение 7 мин
Количество просмотров 4.8K

df.head() — с этого момента вы начинаете работу с данными и полагаетесь на увиденное? Я тоже. Так мы наступаем в феномен what you see is all there is («что вижу, то пою, что не вижу, не спою» — вольный перевод). У ограниченного набора данных, возможно, отсортированного, мы видим ещё более ограниченный набор данных. Мы сами этого не понимаем, но дальше нашу работу строим только на увиденном. 

Как починить себя? Принять как данность, что все подвержены когнитивным искажениям. От них нельзя избавиться полностью. Можно «пойти на компромисс: научиться распознавать ситуации, в которых возможны ошибки. И стараться избегать серьёзных ошибок, если ставки высоки». В этой фразе скрыт рецепт для нас: понимаем, где происходят значимые действия во время работы с данными → пробуем распознать «ситуации, в которых возможны ошибки» → придумываем, как можно избежать этих ошибок. 

Я работаю с данными почти 20 лет, и из них семь набирала и растила джунов, три — наставник в Практикуме на курсе «Аналитик данных». По работам начинающих аналитиков (чужие ошибки проще увидеть, чем свои) я пробовала понять, где происходят «значимые действия» и «возможны ошибки» во время предобработки данных. В этой статье предложу свои варианты борьбы.

Читать далее
Всего голосов 7: ↑6 и ↓1 +5
Комментарии 3

Как нейросети помогли нам сократить нагрузку на операторов контакт-центра и сэкономить 396 человеко-часов

Уровень сложности Средний
Время на прочтение 3 мин
Количество просмотров 2.1K

Привет! Меня зовут Дима Офицеров, я продакт-менеджер клиентского сервиса ЮMoney. Моя команда разрабатывает собственное ПО для обслуживания пользователей, обучает искусственный интеллект в виде Манибота, работает над автоматизацией и оптимизацией процессов.

В статье расскажу о Data Science в клиентском сервисе и на примере покажу, что для работы с большим объёмом данных не всегда нужен многочисленный штат специалистов.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Комментарии 18

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн

Вакуумируй это: сбор и удаление мусора в базе данных Greenplum

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 1K

Всем привет! ITSumma на связи! Недавно — 8 февраля мы провели вебинар о мониторинге и обслуживании реляционной базы данных Greenplum. 

При всех своих достоинствах у Greenplum есть подводные камни, о которых стоит знать разработчикам и администраторам. Один из таких потенциально опасных моментов — процедура сбора и удаления мусора, её ещё называют вакуумирование, потому что она инициируется командой Vacuum. Работать с вакуумированием нужно деликатно, иначе велик риск надолго нарушить работу всей системы. Как раз о том, как этого избежать, правильно мониторить и очищать таблицы, мы и рассказывали на вебинаре.

Это статья — выжимка нашего мероприятия. Вот что вы из неё узнаете:

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 0

На что стоит рассчитывать на первой работе: путь стажера (data engineer)

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 2.7K

Меня зовут Виктор и на данный момент я заканчиваю стажировку и перехожу на должность младшего инженера по работе с данными в компании Sapiens solutions. В этой статье я хочу поделиться опытом и дать несколько рекомендаций людям, которые только начинают свой путь в области работы с данными и хотели бы узнать, какие задачи предстоит выполнять, оказавшись на своем первом рабочем месте.

Читать далее
Всего голосов 7: ↑6 и ↓1 +5
Комментарии 5

Уловимые частицы: как сервисы Яндекса помогают прогнозировать последствия извержений вулканов

Время на прочтение 17 мин
Количество просмотров 6.5K

На территории России насчитывается от 200 до 300 вулканов. Около 13 из них находятся под особым наблюдением: это действующие вулканы, которые извергались в течение последних 25 лет. Самые активные расположены на территории Камчатки и Курильских островов, так что экстренные службы в этих регионах живут в постоянной готовности к последствиям извержений. 

Оценкой вулканической активности на Камчатке занимается подразделение Единой геофизической службы РАН. В прошлом году её вулканологи совместно с командами Яндекс Погоды, Yandex Cloud, Школы Анализа Данных (ШАД) и Геоинтеллекта запустили проект, который позволяет визуализировать данные по результатам извержений и предсказывать пеплопады в конкретных населённых пунктах. В дальнейшем разработанный сервис можно будет использовать для других подобных задач, например, прогнозировать пеплопады в регионах за пределами Камчатского края.   

Читать далее
Всего голосов 36: ↑36 и ↓0 +36
Комментарии 4

Сила хакатонов: почему Middle и Senior Engineers должны в них участвовать

Время на прочтение 5 мин
Количество просмотров 2.4K

Привет, Хабр! На связи beeline cloud — обсуждаем вопрос зачем Middle и Senior Engineers хакатоны и нужно ли в них принимать участие? Разобраться в этом поможет автор нашего DIY-медиа вАЙТИ.

Читать далее
Всего голосов 27: ↑16 и ↓11 +5
Комментарии 6

Очистка данных перед загрузкой в хранилище. Подробное руководство с техническими деталями

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 3.7K

Детально рассмотрим, кто занимается очисткой данных, какие инструменты и языки программирования используются для этой цели, приведем примеры кода на SQL для очистки данных, узнаем, сколько времени может занять этот процесс и какие последствия могут наступить при его игнорировании.

Читать далее
Всего голосов 9: ↑0 и ↓9 -9
Комментарии 6

Мой опыт в Airflow: как повысить стабильность загрузки данных в 5 раз

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 6.2K

Когда я пришла на проект, в нём уже было много всего: много данных, много источников, много задач в Airflow. Чтобы ощутить масштаб, достаточно, пожалуй, взглянуть на одну картинку.

Читать далее
Всего голосов 17: ↑16 и ↓1 +15
Комментарии 4

Почему нельзя сделать прогноз CLTV с помощью одной модели

Время на прочтение 17 мин
Количество просмотров 2.4K

Или как превратить набор продуктовых моделей склонности и оттоков в полноценный инструмент прогнозирования продуктового состояния клиента.

В чём специфика задачи оценки СLTV в банке? К каким математическим задачам она сводится? Как их решить и почему стандартные способы, например, модель регрессии, не работает? И чем здесь поможет комплексный подход? 

Привет, меня зовут Мария Самоделкина, я senior Data Scientist в Хабе Юридических Лиц Альфа-Банка - лидирую расчет CLTV в нашей команде. В статье расскажу что это за задача CLTV и для чего ее нужно решать банкам.

Читать далее
Всего голосов 15: ↑15 и ↓0 +15
Комментарии 4

Вклад авторов