Обновить
77.96

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга
Уровень сложности

Хранилища данных. Обзор технологий и подходов к проектированию

Уровень сложностиПростой
Время на прочтение26 мин
Охват и читатели32K

В эру цифровых технологий данные стали жизненно важным ресурсом для организаций.  Но просто наличие данных без формы или модели недостаточно. Чтобы данные превратились в информацию, а затем в ценные инсайты и знания, способные вывести организацию в лидеры рынка, необходимо применение соответствующих подходов к управлению, хранению и обработке данных. Хранилище данных как система как раз предоставляет инфраструктуру и инструменты для эффективного выполнения этих функций. По этой причине сегодня темы по проектированию архитектуры хранилищ данных настолько востребованы и актуальны.

В этой статье будут рассмотрены основные подходы к проектированию архитектуры хранилищ данных (DWH), эволюция архитектур, взаимосвязь Data Lake, Data Factory, Data Lakehouse, Data Mesh c DWH, преимущества и недостатки подходов к моделированию данных. Материал будет полезен тем, кто работает с корпоративными данными: аналитики, инженеры и архитекторы данных.

Читать далее

PandasAI — кратно ускоряем работу аналитика данных в одну строчку

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели12K

Ускоряем написание кода при работе с таблицами и библиотекой Pandas с помощью PandasAI в несколько раз за пару строк. Хитрецы уже используют ...

Читать далее

GigaChat + RAG: как гига нам инструкции для разметки пишет в 3 раза быстрее

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели4.1K

Почти за всем хорошим ML стоят хорошие данные. И так получилось, что таких данных часто нет и их приходится добывать, а даже добыв, из них нужно сделать что-то подходящее, и (если сильно огрубить) такой процесс называется разметкой.

Разметка — такая штука, когда все в индустрии делают примерно одно и то же, но чуть-чуть или сильно по разному. Разметка — очень нудная штука сама по себе, и потому ее запуском, отладкой и настройкой инженеры заниматься вот совсем не любят. Сам процесс довольно монотонен, но когда у тебя мультимодальный конвейер из поступающих данных, то делать всяческие инструменты для разметки и предлагать инженерам решения без их участия — это весело!

Одна из наших важнейших метрик, помимо качества результата, это позаимствованный у бизнеса термин ttm (time to market), что в нашем случае — время от момента прихода клиента с идеей по момент продуманного запуска его задачи в разметку.

В этой статье — пошагово о том, как мы не только ускорили написание инструкций, но и даже попутно повысили их качество. Идея — гениально проста, рецепт — повторяем, эффект — огонь.

Расчехляйте вашу LLM, закатайте рукава, тут есть много работки!

Читать далее

Основы теории вероятностей для будущих программистов и дата-аналитиков

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели18K

Теория вероятностей — важный инструмент, который помогает создавать случайные числа для симуляций и криптографии, улучшать алгоритмы и структуры данных, а еще — разрабатывать точные модели для машинного обучения.

Вместе с Ильей Котовым, специалистом по Data Science в МТС Big Data, разбираемся в основных понятиях теории вероятностей и рассказываем, где и как ее используют. 

Читать далее

Как упаковать бэкенд-код на Go для аналитики на базе Spark

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели2.1K

Всем привет! Я Ваня Ахлестин, занимаюсь поддержкой и развитием аналитической платформы кластера Search&Recommendations на базе Spark и Hadoop в Авито. Сегодня расскажу, как начать использовать ваш код из Python или PySpark и не тратить много времени дорогих разработчиков.

Читать далее

Перспективы профессии Data Science: ликбез для джунов

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели3.6K

Меня зовут Женя Толстов, я тимлид ML-отдела в группе компаний ФСК и наставник на курсе «Специалист по Data Science» в Практикуме. О специфике работы в девелопменте и своих рабочих задачах я уже рассказал в статье «Чем на самом деле занимается дата-сайентист»

Сегодня поделюсь своим мнением о перспективах профессии. Это статья для джунов, студентов и для тех, кто только выбирает направление в IT. Рассказываю, какие возможности для развития в дата-сайенс есть сейчас и какие появятся в ближайшем будущем, а ещё подсвечиваю неочевидные для новичков особенности работы дата-сайентиста. 

Читать далее

Современные каталоги данных: эволюция и применение больших языковых моделей

Время на прочтение5 мин
Охват и читатели1.9K

Каталоги данных стали неотъемлемой частью современной архитектуры данных. Они играют ключевую роль в управлении метаданными, обеспечивая прозрачность, контроль и повышение эффективности работы с данными. В последние годы эта область активно развивается, и на российском рынке также появляются успешные истории внедрения. В этой статье мы рассмотрим текущее состояние open-source решений и уделим особое внимание применению больших языковых моделей в каталогах данных.

Я со своей стороны хочу разобраться в текущем состоянии этой части современного open-source стэка данных и внимательнее посмотреть на некоторые новые аспекты.

Читать далее

Альтернативы кимбалловской архитектуре DW/BI

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели2K

Речь идет про отрасль хранения данных (DW, Data Warehousing) и анализа данных (BI, Business Intelligence). И вот две доминирующие альтернативы архитектуре данных Кимбалла: 

Читать далее

Как мы решали задачу сегментирования бизнес-объектов

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели761

Привет! Меня зовут Владимир, я руководитель управления разработки и тестирования в СИГМЕ. Сегодня хочу рассказать, как наша команда дорабатывала CRM-систему заказчика. Она используется для контроля всевозможных коммуникаций с клиентами — от звонков на горячую линию и переписки в мессенджерах до визитов в офисы и почтовых рассылок. Архитектурно CRM спроектирована так, что способна сопровождать оказание практически любых услуг, но исторически сосредоточена на взаимодействии с клиентами энергосбытовых компаний.

Перед нами стояла задача написать подсистему, которая позволит настраивать условия и в соответствии с ними сегментировать клиентскую базу. Клиенты, соответствующие заданным условиям, будут попадать в определенный сегмент. Эта функция нужна заказчику, чтобы выстраивать диалог с клиентами с учетом их психологического профиля и предпочтений, а также адресно предлагать услуги.

Читать далее

Повышаем Data Quality: щепотка Soda для ваших данных

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели4K

Привет! Меня зовут Александр Кудрявцев, я аналитик данных в команде Data Platform Банки.ру. Недавно мы озадачились вопросом контроля качества данных (Data Quality) и стали искать комплексное решение. Один из инструментов, который попал в поле зрения, — Soda Core. О нем и пойдет речь в материале.

Читать далее

Чем на самом деле занимается специалист по Data Science

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели1.7K

Меня зовут Женя Толстов, я тимлид ML-отдела в группе компаний ФСК и наставник на курсе «Специалист по Data Science» в Практикуме. Работаю в IT больше 10 лет: начинал как аналитик данных, со временем перешёл в дата-сайенс. Поработал в консалтинге, в стартапе с американской культурой, в крупном телекоме и финтехе. Недавно попал в нетипичную для дата-сайентистов сферу — в девелопмент. 

Мой опыт будет полезен, если вы делаете первые шаги в профессии или хотите узнать, есть ли в «стройке» интересные ML-задачи. 

Читать далее

Интеграция LLM в корпоративное хранилище данных

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели5.2K

В данной статье рассматриваются способы интеграции Large Language Models (LLM) в корпоративные системы хранения данных. Основное внимание уделено использованию LLM для автоматического извлечения информации из текстовых данных с последующим формированием SQL-запросов. В рамках исследования также изучаются методы пост-обработки результатов SQL-запросов с целью улучшения точности и адаптивности моделей к конкретным характеристикам и особенностям баз данных.

Работа включает в себя анализ существующих решений и методов оценки эффективности LLM в контексте их интеграции в корпоративные информационные системы. Особое внимание уделяется применению Preference Learning via Database Feedback — подхода, направленного на обучение моделей на основе обратной связи от баз данных, что способствует более точному и адаптивному выполнению запросов пользователей.

Исследование также охватывает разработку примеров интеграции LLM в реальные корпоративные хранилища данных с целью демонстрации практической применимости и эффективности предлагаемых подходов.

Читать далее

Краеугольные камни ClickHouse

Уровень сложностиПростой
Время на прочтение21 мин
Охват и читатели17K

Привет, Хабр! Меня зовут Артемий Кравцов, я работаю инженером в Wildberries. Сегодня расскажу про то, что люблю – про ClickHouse. Моя цель – осветить некоторые ключевые особенности в архитектуре ClickHouse и в том, как он хранит данные.

Что такое куски и слияния? Как быть с частыми вставками? Как обновлять значения в строках? Что не так с точечными чтениями? Как сделать тяжёлый JOIN?

Статья рассчитана на тех, кто только знакомится с ClickHouse.

Читать далее

Ближайшие события

Лучшие библиотеки Python для Data Science в 2024 году

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели13K

Python — один из самых распространенных языков программирования в Data Science (третье место в опросе разработчиков StackOverflow). Популярность языка обусловлена наличием множества пакетов, которые можно использовать для решения различных задач в области науки о данных, включая машинное обучение, предварительную обработку данных, анализ данных и их визуализацию.

Новичку в этой области может быть сложно понять, с чего начать, особенно при таком обилии ресурсов — в Python имеется более 100 000 встроенных библиотек, и выучить их все просто невозможно. Именно поэтому в этой статье мы рассмотрим 8 самых полезных библиотек Python для Data Science.

Читать далее

Автопереобучение моделей в Production

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели1.9K

Модели машинного обучения становятся критически важными для бизнеса, помогая оптимизировать процессы и принимать более обоснованные решения. Однако их актуальность и точность могут быстро снижаться из-за изменения данных. Автоматическое переобучение моделей в продакшене решает эту проблему, обеспечивая обновление и улучшение моделей без значительных временных затрат.

В этой статье мы рассмотрим процесс автоматического переобучения моделей ML в продакшене, используя инструменты MLOps. Обсудим интеграцию таких инструментов, как AirFlow и Spark, с CI/CD пайплайнами, а также создание конфигурационного модуля, позволяющего разработчикам сосредоточиться на моделях, не углубляясь в инфраструктурные детали.

Читать далее

Простая документация с dbt: Упрощение документирования хранилищ данных

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели2.8K

Когда вы в последний раз впервые смотрели на хранилище данных? Помните то чувство фрустрации, когда вы не знали, что содержат таблицы orders_final_v1? Или как отличить user_uuid от user_id? Любой специалист по данным может понять эти ощущения.

К счастью, dbt (Data Build Tool) значительно упростил задачу документирования хранилищ данных. Все, что нужно сделать, это включить описание наших таблиц и колонок в YAML-файл схемы. Затем вся информация собирается в аккуратный HTML-файл.

Данная статья это перевод с английского с некоторыми адаптациями. Перевод сделан НЕшколой для инженеров Inzhenerka.Tech совместно с автором симулятора по DWH на dbt Павлом Рословцом. Больше материала в нашем сообществе.

Читать далее

Как благодаря переезду хранилища данных прокачать стек, архитектуру и скиллы команды

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели2K

Приветствую всех читателей! Меня зовут Николай Самсонов. Я являюсь руководителем платформы данных в команде Учи.ру. В своей работе часто сталкиваюсь с ситуацией, когда бизнесу нужны метрики и показатели здесь и сейчас, в то время как автоматизация получения и обработки терабайт данных для их расчета может занимать значительное количество времени.  

Правильный стек, правильная архитектура и правильное видение процесса ELT — залог успешной аналитики, с этим никто не спорит. Но как прийти к ним и как найти баланс между затратами времени на исследование и поддержкой уже сделанного в бесконечном потоке A/B-тестирований, дашбордов, метрик и Ad hoc-запросов?

Читать далее

Соединяя лучшее из двух миров: как мы построили мост между Spark и Greenplum в ITSumma

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели2.1K

В этой статье ведущий администратор баз данных ITSumma Алексей Пономаревский расскажет о том, как мы интегрировали популярный фреймворк для распределенной обработки данных Apache Spark с мощной массивно-параллельной базой данных Greenplum.

Текст будет полезен для разработчиков, решающих схожие задачи по интеграции распределенных фреймворков обработки с реляционными БД, использующих параллельные вычисления.

Читать далее

Качество данных и роботы: как мы высвободили 5 рабочих часов в день сотрудника DQ

Уровень сложностиПростой
Время на прочтение15 мин
Охват и читатели1.4K

Привет, меня зовут Катя Моисеева, я руководитель направления качества данных в Data Office Tele2. Мы уже рассказывали о том, как с нуля строили процессы качества данных на различных площадках (выступления можно посмотреть по ссылке).

Сейчас для нас остро встал вопрос о ресурсах нашей команды, а точнее их «резиновости» — поток входящих инцидентов растет по мере подключения новых систем к проверкам качества, а команда остается в составе 3 сотрудников. Возникает вопрос — а какая она, идеальная команда качества данных, которая сможет создать процессы с нуля, внедрить и привить культуру внутренним заказчикам, свести к минимуму риски возникновения инцидентов, а еще минимизировать затраты компании?

Под катом поделились своим опытом борьбы с хаосом из потока входящих задач и запросов от бизнеса и о маленьком роботе‑спасителе, который экономит нам ежедневно 5 часов сотрудника DQ и внедрить которого по силам каждому.

Читать далее

Как маскировка данных спасает вашу приватность

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели3.1K

Сколько личной информации о вас хранится в мире онлайна? От финансовых операций и медицинских досье до социальных сетей и корпоративных баз данных – данные каждого из нас оказываются в цифровом пространстве, привлекая внимание злоумышленников и вызывая беспокойство как у нас, так и у служб безопасности.

Одним из распространенных методов защиты является маскировка данных. Для более ясного понимания этого процесса давайте рассмотрим различные техники маскировки и попробуем разобраться, с чем это едят.

Данная статья нацелена на джунов и специалистов, которые только начинают погружаться в тематику.

Читать далее