Обновить
81.02

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга
Уровень сложности

Business intelligence и качество исходных данных

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели4.1K

Сегодня бизнес хочет принимать решения, основываясь на данных, а не на ощущениях, тем более что сейчас для этого есть все возможности. Предприятия накопили терабайты и эксабайты данных, их количество растет в геометрической прогрессии каждый день.

Как повлиял ковид на ценообразование загородной недвижимости? Какой регион выбрать для новой мебельной фабрики?  Вложиться в жилой комплекс эконом или бизнес-класса?    Какие факторы влияют на продление ДМС?  Как должно работать индивидуальное автострахование?

В наши дни ты должен быть data-driven или проиграешь.

Сырые данные предприятия проходят большой путь, чтобы превратиться в управленческие решения. Этот путь включает такие шаги как:

Читать далее

Модель глубокого обучения, использующая данные ЭКГ для прогнозирования риска внезапной сердечной смерти

Уровень сложностиСредний
Время на прочтение23 мин
Охват и читатели3.7K

Внезапная сердечная смерть (ВСС) происходит, когда возникают проблемы с электрической активностью в сердце. Это распространенная причина смерти по всему миру, поэтому было бы полезно легко выявлять людей с высоким риском ВСС. Электрокардиограммы - это доступный и широко используемый способ измерения электрической активности сердца. Мы разработали вычислительный метод, который может использовать электрокардиограммы для определения, находится ли человек в повышенном риске ВСС. Наш метод может позволить врачам скрининг больших групп людей и выявление тех, кто находится в повышенном риске ВСС. Это может позволить регулярное наблюдение за этими людьми и, возможно, предотвращение ВСС у некоторых из них.

Читать далее

Подробный гайд: Как собрать дашборд в FineBI за 30 минут

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели11K

Хабр, привет! 

Меня зовут Александр Ларин, я руководитель центра технической поддержки и обучения в GlowByte и лидер самого большого в России сообщества FineBI.

В данной статье я хотел бы показать новичкам основы работы в FineBI: как подключиться к источнику данных, создать на его основе датасет, провести обработку данных, собрать свой первый дашборд – и всё это сделать буквально за 30 минут.  А тех, кому этого будет недостаточно, приглашаю на наши курсы

Читать далее

Паркет устарел. Пора менять

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели98K

Паркет устарел. Пора менять

В этой статье речь пойдет не о напольных покрытиях, а о програмном продукте, более современном конкуренте Apache Parquet, продукте который изначально в 2014 году был разработан компанией Huawei как закрытое и проприетарное ПО, но в 2016 году был преобразован в открытый код и передан в управление Apache Software Foundation, где сейчас поддерживается и разрабатывается open-source сообществом. Речь идет о Apache CarbonData.

Читать далее

Когнитивные искажения у аналитика данных: найти и починить

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели8.7K

df.head() — с этого момента вы начинаете работу с данными и полагаетесь на увиденное? Я тоже. Так мы наступаем в феномен what you see is all there is («что вижу, то пою, что не вижу, не спою» — вольный перевод). У ограниченного набора данных, возможно, отсортированного, мы видим ещё более ограниченный набор данных. Мы сами этого не понимаем, но дальше нашу работу строим только на увиденном. 

Как починить себя? Принять как данность, что все подвержены когнитивным искажениям. От них нельзя избавиться полностью. Можно «пойти на компромисс: научиться распознавать ситуации, в которых возможны ошибки. И стараться избегать серьёзных ошибок, если ставки высоки». В этой фразе скрыт рецепт для нас: понимаем, где происходят значимые действия во время работы с данными → пробуем распознать «ситуации, в которых возможны ошибки» → придумываем, как можно избежать этих ошибок. 

Я работаю с данными почти 20 лет, и из них семь набирала и растила джунов, три — наставник в Практикуме на курсе «Аналитик данных». По работам начинающих аналитиков (чужие ошибки проще увидеть, чем свои) я пробовала понять, где происходят «значимые действия» и «возможны ошибки» во время предобработки данных. В этой статье предложу свои варианты борьбы.

Читать далее

Как нейросети помогли нам сократить нагрузку на операторов контакт-центра и сэкономить 396 человеко-часов

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели3.5K

Привет! Меня зовут Дима Офицеров, я продакт-менеджер клиентского сервиса ЮMoney. Моя команда разрабатывает собственное ПО для обслуживания пользователей, обучает искусственный интеллект в виде Манибота, работает над автоматизацией и оптимизацией процессов.

В статье расскажу о Data Science в клиентском сервисе и на примере покажу, что для работы с большим объёмом данных не всегда нужен многочисленный штат специалистов.

Читать далее

Вакуумируй это: сбор и удаление мусора в базе данных Greenplum

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели5.2K

Всем привет! ITSumma на связи! Недавно — 8 февраля мы провели вебинар о мониторинге и обслуживании реляционной базы данных Greenplum. 

При всех своих достоинствах у Greenplum есть подводные камни, о которых стоит знать разработчикам и администраторам. Один из таких потенциально опасных моментов — процедура сбора и удаления мусора, её ещё называют вакуумирование, потому что она инициируется командой Vacuum. Работать с вакуумированием нужно деликатно, иначе велик риск надолго нарушить работу всей системы. Как раз о том, как этого избежать, правильно мониторить и очищать таблицы, мы и рассказывали на вебинаре.

Это статья — выжимка нашего мероприятия. Вот что вы из неё узнаете:

Читать далее

На что стоит рассчитывать на первой работе: путь стажера (data engineer)

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели6.4K

Меня зовут Виктор и на данный момент я заканчиваю стажировку и перехожу на должность младшего инженера по работе с данными в компании Sapiens solutions. В этой статье я хочу поделиться опытом и дать несколько рекомендаций людям, которые только начинают свой путь в области работы с данными и хотели бы узнать, какие задачи предстоит выполнять, оказавшись на своем первом рабочем месте.

Читать далее

Уловимые частицы: как сервисы Яндекса помогают прогнозировать последствия извержений вулканов

Время на прочтение17 мин
Охват и читатели18K

На территории России насчитывается от 200 до 300 вулканов. Около 13 из них находятся под особым наблюдением: это действующие вулканы, которые извергались в течение последних 25 лет. Самые активные расположены на территории Камчатки и Курильских островов, так что экстренные службы в этих регионах живут в постоянной готовности к последствиям извержений. 

Оценкой вулканической активности на Камчатке занимается подразделение Единой геофизической службы РАН. В прошлом году её вулканологи совместно с командами Яндекс Погоды, Yandex Cloud, Школы Анализа Данных (ШАД) и Геоинтеллекта запустили проект, который позволяет визуализировать данные по результатам извержений и предсказывать пеплопады в конкретных населённых пунктах. В дальнейшем разработанный сервис можно будет использовать для других подобных задач, например, прогнозировать пеплопады в регионах за пределами Камчатского края.   

Читать далее

Сила хакатонов: почему Middle и Senior Engineers должны в них участвовать

Время на прочтение5 мин
Охват и читатели2.8K

Привет, Хабр! На связи beeline cloud — обсуждаем вопрос зачем Middle и Senior Engineers хакатоны и нужно ли в них принимать участие? Разобраться в этом поможет автор нашего DIY-медиа вАЙТИ.

Читать далее

Очистка данных перед загрузкой в хранилище. Подробное руководство с техническими деталями

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели5.1K

Детально рассмотрим, кто занимается очисткой данных, какие инструменты и языки программирования используются для этой цели, приведем примеры кода на SQL для очистки данных, узнаем, сколько времени может занять этот процесс и какие последствия могут наступить при его игнорировании.

Читать далее

Мой опыт в Airflow: как повысить стабильность загрузки данных в 5 раз

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели8.9K

Когда я пришла на проект, в нём уже было много всего: много данных, много источников, много задач в Airflow. Чтобы ощутить масштаб, достаточно, пожалуй, взглянуть на одну картинку.

Читать далее

Почему нельзя сделать прогноз CLTV с помощью одной модели

Уровень сложностиСредний
Время на прочтение17 мин
Охват и читатели6.3K

Или как превратить набор продуктовых моделей склонности и оттоков в полноценный инструмент прогнозирования продуктового состояния клиента.

В чём специфика задачи оценки СLTV в банке? К каким математическим задачам она сводится? Как их решить и почему стандартные способы, например, модель регрессии, не работает? И чем здесь поможет комплексный подход? 

Привет, меня зовут Мария Самоделкина, я senior Data Scientist в Хабе Юридических Лиц Альфа-Банка — лидирую расчет CLTV в нашей команде. В статье расскажу что это за задача CLTV и для чего ее нужно решать банкам.

Читать далее

Ближайшие события

Зачем Data Science специалисту разбираться в коде, контейнеризации и коммуникациях

Время на прочтение7 мин
Охват и читатели3.2K

Привет, Хабр! Я Надежда Калмыкова, главный специалист по анализу данных и машинному обучению Департамента цифрового развития. Я работаю в отделе прототипирования ПГК, где мы проверяем жизнеспособность бизнес-идей. Что на ваш взгляд должен уметь специалист Data Science (DS)в первую очередь? Вы, вероятно, ответите как-то так: обрабатывать огромное количество данных, искать взаимосвязи, строить модели, обучать их, выстраивать предиктивную аналитику. С этим более-менее понятно.

А нужно ли специалисту DS уметь настраивать хранилище данных или вести переговоры с клиентами? Поделюсь своим мнением в статье и расскажу на примерах из опыта работы в ПГК, а ваши примеры жду в комментариях.

Читать далее

Требования к данным для систем ИИ по верификации людей

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели3.2K

Чтобы обеспечить надежную и точную верификацию людей при использовании систем ИИ, необходимо разработать и определить оптимальные требования к наборам данных. Целью данного исследования является определение стандартов формирования наборов данных для повышения качества работы систем верификации людей по изображению.

Читать далее

Сравнение локальных моделей машинного перевода для английского, китайского и русского языков

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели13K

"Машинный перевод – одна из наиболее актуальных и востребованных задач в сфере искусственного интеллекта, позволяющая снизить барьер в доступности информации на различных языках. Большинство данных в интернете представлены на английском и русском языках. Количество данных на китайском языке в открытом доступе становится с каждым днем всё больше.  Поэтому необходимо всё больше инструментов позволяющих использовать все эти языки для своей работы.

Читать далее

Приглашаем на Cinimex DATA meetup (офлайн/онлайн)

Время на прочтение2 мин
Охват и читатели789

Привет, Хабр! Мы начинаем новый сезон ИТ-событий и приглашаем всех желающих в Санкт-Петербург на DATA meetup посвященный, темам инжиниринга данных, анализа данных и bi-аналитики.

Меня по-прежнему зовут Антон, и вот наша программа.

Читать далее

Как мы внедряли каталог данных DataHub и искали компромисс между BI, DWH и ИБ

Время на прочтение9 мин
Охват и читатели8.8K

Счастлив тот аналитик, у которого в компании есть дата-каталог — единая точка входа для поиска информации о данных невероятно экономит время, data lineage выстроен, а уровень заполненности документации на высоком уровне.

Чтобы это были не только мечты, наша команда аналитиков задумалась, как претворить их в реальность. Нам хотелось, чтобы инструмент для поиска описания данных был удобным как библиотечный каталог с широким функционалом. 

Меня зовут Костя Тюрин, я руковожу командой BI в СберМаркете. Год назад мы решили внедрить дата-каталог, и сейчас его MAU превышает количество аналитиков в два раза: им пользуется наша команда, а ещё дата-инженеры, менеджеры и команда ИБ. В статье делюсь нашим опытом внедрения DataHub’a и планами на дальнейшее развитие инструмента.

Читать далее

Инженерные данные в 21 веке

Уровень сложностиСредний
Время на прочтение21 мин
Охват и читатели3.1K

«Инженерные данные в 21 веке» 

Привет друзья! Как можно было понять из заголовка статьи, речь пойдёт об управлении инженерными данными.  Цель - дать общий взгляд под новым углом. Статья выполнена по канонам постмодерна, пестрит отсылками и будет не только полезной, но и занимательной, коей и стоит быть статье на Хабре. Приведу реальные кейсы, в нужных местах дам определения и сошлюсь на стандарты, где уместно.

Интернет, в лице одного из GPT-ботов даёт следующее определение: Инженерные данные — структурированная цифровая информация в электронном виде, которая используется в процессе проектирования, разработки и производства инженерных систем и изделий...

Объект данных – квант информации, который состоит из идентификатора и значений параметров. Объект данных обозначает реальный или абстрактный объект физического мира, в этом и есть его смысл. Так, на пример, 3D модель – это набор структурированных инженерных данных, содержит уникально идентифицированные объекты, с перечнем свойств, часть из которых передают пространственное расположение и геометрическую форму объектов. Документ (файл) как таковой тоже является объектом данных: у него есть идентификатор и перечень метаданных, описывающих его свойства. Однако сама техническая информация сконцентрирована не в заголовке файла, а в массиве файла. Если этот документ не таблица или база данных (БД) – то техническая информация в нём может быть отнесена к неструктурированным данным, хотя сам документ может при этом оставаться объектом данных.       

Читать далее

Spark не для чайников: где?

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели5.2K

Apache Spark уже давно перестал быть просто технологией и превратился в своего рода стандарт для обработки больших данных. Этот фреймворк, сочетающий в себе скорость, надежность и масштабируемость, вышел далеко за пределы простого инструмента, превратившись в надежного партнера для огромного числа проектов. Поэтому, когда речь заходит о масштабных вычислениях и эффективной обработке данных, Spark - первое, что приходит на ум. Отсюда и большой интерес к нему, в том числе со стороны начинающих инженеров.

В мире Apache Spark начинающим точно не пропадешь: статьи, уроки, курсы - на любой вкус. Что хабр, что медиум, а так же другие онлайн-платформы просто завалены статьями, где вам в 100500-ый раз говорят про SparkContext, Driver и Executor, приводят тривиальные примеры кода из официальной документации (ок-ок, поправлюсь - часто все же с небольшими изменениями), читают уже заезженных датасет с поездками такси в Нью-Йорке и делают какие-то тривиальные агрегации, рассуждают с умным видом про разницу coalesce и repartition и т.п. Не отстают и произовдители курсов класса "Войти в ИТ" - как известные онлайн-школы, так и "частники" на порталах типа Udemy, Pluralsight и т.п. Выбор курсов по Spark там очень велик.

А в чем, собственно, проблема то ===>