Обновить
77.56

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга
Уровень сложности

Инфраструктура для Data-Engineer DBT

Уровень сложностиПростой
Время на прочтение16 мин
Охват и читатели4.5K

dbt является мощным фреймворком, который включает в себя два популярных языка: SQL + Python.

При помощи dbt можно создавать разные "слои" данных или выделить dbt только под один слой, к примеру dm.

При помощи понятного и всем известного SQL интерфейса можно создавать разные модели для вашего DWH или Data Lake.

Читать далее

Эпопея шахматных движков: мой опыт в разработке шахматной программы

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели2.7K

В этой статье я расскажу про личный опыт написания шахматной программы на языке TypeScript. С какими проблемами столкнулся и пути к их решению :-)

Читать далее

Как мы укротили 156 ETL-процессов в Airflow за один день: метод, который изменил работу DevOps

Время на прочтение10 мин
Охват и читатели4.1K

Всё началось с того, что однажды мы решили развернуть Airflow для управления нашими ETL-процессами. И не просто развернули, а сделали это в K8s. Но зачем это понадобилось?

Наша задача была довольно проста: взять данные из одной системы и переложить их в другую. Главным хранилищем данных у нас был Greenplum. Эта система имеет интересное расширение под названием PXF (Pivotal Extensible Framework). С его помощью можно подключаться к различным источникам и забирать оттуда данные, а также отправлять их из Greenplum во внешние системы.

Но что такое PXF и почему он так крут?

Читать далее

Data Science и машинное обучение: примеры использования в реальных проектах

Время на прочтение5 мин
Охват и читатели6.4K

Искусственный интеллект (AI) и машинное обучение (ML) уже давно вышли за рамки экспериментальных разработок и стали частью реальных проектов в бизнесе и промышленности. Их применение открывает новые горизонты для анализа данных, автоматизации задач и повышения эффективности работы компаний. В этой статье будут приведены примеры использования машинного обучения в реальных проектах, а также базовые шаги для обработки больших данных и настройки моделей. Для более глубокого изучения будут предложены полезные ресурсы и ссылки на инструментальные библиотеки.

В последние годы Data Science стал одним из самых востребованных направлений в IT-индустрии. ML-модели и алгоритмы анализа данных используются во многих отраслях: от медицины до ритейла, от финансового сектора до промышленного производства. Эти технологии помогают компаниям и организациям принимать обоснованные решения на основе данных, улучшать прогнозирование и автоматизировать многие процессы.

Читать далее

Как оценить LLM модель

Время на прочтение13 мин
Охват и читатели2K

В одном из прошлых блогов я представил концепцию тестирования LLM. Однако тестирование больших языковых моделей - достаточно сложная тема, которая требует дальнейшего изучения. Существует несколько соображений относительно тестирования моделей машинного обучения и, в частности, LLM, которые необходимо учитывать при разработке и развертывании вашего приложения. В этом блоге я предложу общую структуру, которая будет служить минимальной рекомендацией для тестирования приложений, использующих LLM, включая разговорные агенты, расширенную генерацию поиска и агентов и т. д.

Читать далее

Two-Tier Data Model архитектура: концепт и мысли

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели1.4K

Краткая цель статьи — сделать потоки данных проще, более тестируемыми и управляемыми с DTO и Runtime Model структурой.

Эта статья — набор мыслей и экспрессии опыта моего текущего видения этой проблемы, как комбинации опыта от работы над проектами и может быть, переизобретение колеса:) Но, в то же время, я хотел бы поделиться этими мыслями — и, надеюсь, вдохновить и посмотреть на структуры данных.

Концепт использует немного функционала Entities, описанных Robert C. Martin (Uncle Bob) в Clean Architecture, также Model‑Driven engineering вместе с концептом immutability.

Эта статья:

— разделена на секцию теории и применения, чтобы статью можно было понять разработчикам не знающим язык используемый в примерах (Dart).
в основном фокусируется на client‑side (frontend, app, server‑side рендеринг) разработчиках, но думаю что может быть интересна и другим разработчикам..
— для примеров используется абстрактное финансовое приложение и язык Dart.

Читать далее

Чем можно заняться в IT

Время на прочтение4 мин
Охват и читатели4.6K

IT – это не пузырь, который может лопнуть. Оно уже настолько плотно вошло в нашу жизнь, что повсюду, куда бы мы ни посмотрели, мы видим его следы, и это не изменится.

В этой статье вы узнаете, что такое IT и чем можно заняться в IT помимо программирования.

Читать далее

Apache Flink: Unit и E2E-тестирование оператора с таймерами в Apache Flink

Время на прочтение19 мин
Охват и читатели524

Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. В предыдущей части я рассказал про создание Flink-джобы Kafka-to-Kafka с оператором на основе встроенных таймеров. Такой пайплайн позволяет создавать вызов через определенное время после обработки события.

В этом посте я расскажу, как можно протестировать операторы с таймерами и какие подводные камни могут возникнуть.

Весь разбираемый исходный код есть в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии. Эта статья соответствует релизной ветке с названием release/8_Test_for_Trigger_Flink_Job.

Это мой девятый материал про Apache Flink. По мере выхода новых ссылки на них будут появляться ниже.

Список моих статей про Flink:

Читать далее

Государственные перевороты: бармалеи выпрыгивают как черти из табакерки. Не хотите, дети, в Африку сыграть?

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели1.9K

На исторических данных за 1991-2019 год покажем, как можно "увидеть" и "выцепить" признаки переворота.  С помощью машинного обучения и ансамблевых модели. Ансамбли (конечно, не музыкальные), как показывает практика, – более эффективны в таких делах, и самое главное -  хорошо "тюнятся" и "чипуются".

*Nota Bene (та Bene, что ни разу не гессерит). При всем негативном отношении к революциям, переворотам и прочим событиям в любой части мира, это – объективная реальность, которую можно не только изучать, но и предупреждать.

Читать далее

Что такое DWH?

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели28K

DWH (Data Warehouse или по русски Хранилище данных) - это специализированная система для хранения и управления большими объемами данных, которые объединяются из разных источников с целью анализа и построения отчетов 

Короче, это место, где все нужные данные из разных мест собираются и потом ими уже удобно пользоваться - строить разные отчетики, строить ИИ на благо всему человечеству и подобные вещи

Грубо говоря, задача при построении хорошего DWH состоит в том, чтобы построить Базу Данных и все необходимое вокруг него, в которой будут лежать правильные данные в удобном виде и в которую можно слать большие-сложные SQL запросы и не бояться, что что-то сломается и всем этим было удобно пользоваться

Читать далее

Оценка LLM: метрики, фреймворки и лучшие практики

Время на прочтение12 мин
Охват и читатели2.9K

Дженсен Хуанг в своем выступлении на саммите «Data+AI» сказал: «Генеративный ИИ есть везде, в любой отрасли. Если в вашей отрасли еще нет генеративных ИИ, значит вы просто не обращали внимания на это».

Однако широкое распространение вовсе не означает, что эти модели безупречны. В реальных бизнес-кейсах модели очень часто не достигают цели и нуждаются в доработке. Вот тут-то и приходят на помощь оценки LLM: они помогают убедиться, что модели надежны, точны и соответствуют бизнес-предпочтениям.

В этой статье мы подробно разберем, почему оценка LLM имеет решающее значение, и рассмотрим метрики, фреймворки, инструменты и сложности оценки LLM. Мы также поделимся некоторыми надежными стратегиями, которые мы разработали в ходе работы с нашими клиентами, а также расскажем о лучших практиках.

Читать далее

Разметка изображений: самый полный гайд

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели4K

Представьте себе, что от точности разметки изображений зависит успех вашего проекта: будь то способность нейросети распознавать сложные объекты или автоматизация рутинных задач. Но в чем ее специфика, какие виды разметки изображений существуют и какой тип аннотации лучше подходит под ваш проект?

В этой статье мы раскрываем все тонкости процесса, делимся проверенными методами и реальными кейсами от команды Data Light, чтобы помочь вам вывести проекты на новый уровень. Если вы хотите разобраться в разметке изображений и узнать, как избежать подводных камней, эта статья точно будет вам полезна.

Читать далее

Предиктивная аналитика политических кризисов с помощью machine learning (на исторических данных)

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели2.2K

Допустим, вы инвестор-финансист, покупающий государственные облигации банановой республики или акции компании по выращиванию и поставке бананов или даже правитель бананового рая – всегда необходимо учитывать не только финансовые, но и политические риски в развитии страны. Представим, что наша основная задача - оценить риски. Просто, цинично, в стиле real politic без всякой душеспасительности и ... котиков.

Читать далее

Ближайшие события

Визуализация и аугментация текстовых данных

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели1.4K

В современном мире, где данные играют ключевую роль в принятии решений, визуализация и аугментация текстовых данных становятся важными инструментами для анализа и понимания информации. Эти методы позволяют не только представить данные в наглядной форме, но и улучшить их качество, что делает их более полезными для различных задач. Сегодня достаточно быстро генерировать большой объем расширенной, но лишенной лишнего и максимально близкой к исходному запросу в 1-5 предложений информацию.

По данной информации можно принимать определенные решения: что стоит использовать при показе продукта, стартапа, презентации. Что стоит написать, чтобы тот или иной контингент сотрудников лучше понял и усвоил предлагаемый материал с данными. Что стоит рассказать, а о чем можно промолчать. Автоматизация и даже роботизация работы с текстовыми данными и их визуализация позволяет сэкономить колоссальное количество времени на создание контента, а время уделить возможности выбирать из разных набросков, шаблонов, предложений. В будущем и сам выбор может быть автоматизирован системами принятия решений и нейросетями.

Читать далее

Управление Данных с Elasticsearch: Обучение и Практика

Время на прочтение5 мин
Охват и читатели7.5K

В эпоху больших данных эффективный поиск и анализ информации становятся критически важными для бизнеса и разработки. Elasticsearch — это мощный инструмент, который позволяет быстро и эффективно обрабатывать огромные объемы данных, предоставляя пользователям возможность находить нужную информацию в считанные секунды.

Эта статья предназначена для тех, кто хочет освоить основы Elasticsearch и научиться использовать его возможности на практике. Мы рассмотрим ключевые концепции, такие как индексы, документы и запросы, а также научимся настраивать окружение и выполнять основные операции. Независимо от того, являетесь ли вы разработчиком, аналитиком или просто хотите расширить свои знания о современных технологиях обработки данных, это руководство поможет вам уверенно шагнуть в мир Elasticsearch. Подготовьтесь к увлекательному путешествию в мир поисковых технологий!

Начать практику

Atlas: Как реконструировать 3D сцену из набора изображений

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели1.9K

Всем привет! Если вы увлекаетесь 3D-технологиями или просто хотите узнать больше о современных методах создания трехмерных моделей, вам точно стоит прочитать эту статью. Мы погрузимся в метод Atlas — уникальный способ 3D-реконструкции сцены на основе всего лишь 2D-изображений. Вы узнаете, как линейная регрессия и усеченная знаковая функция расстояния (TSDF) могут значительно упростить процесс моделирования, обеспечивая более точные результаты без необходимости использования карт глубины.

Мы рассмотрим ключевые концепции, такие как извлечение признаков с помощью 2D-CNN и превращение их в воксельные объёмы, а также узнаем, как 3D-CNN уточняет эти признаки для более глубокого понимания сцены. Даже если вы не знакомы с терминологией, я постараюсь объяснить всё доступным языком.

Читать далее

Анализ тональности текста: зачем он нужен и как его использовать? Объясняем за 7 минут

Время на прочтение5 мин
Охват и читатели2.2K

Как компании выявляют эмоции в тысячах отзывов и комментариев? Почему одни маркетинговые кампании становятся невероятным успехом, а другие — провалом?

Анализ тональности текста — мощный инструмент, который помогает бизнесу не только считывать эмоции клиентов, но и на практике улучшать продукт, автоматизировать поддержку и управлять репутацией. Сегодня мы подробно разберем, как анализ тональности работает в реальных кейсах, и покажем, как вы можете внедрить его для достижения своих бизнес-целей.

Читать далее

Как родился термин «Культура работы с данными»

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели396

Привет, Хабр! С Вами Георгий, автор книги "Оптимизируй ЭТО Немедленно". И сегодня я расскажу о том, как родился перевод термина "Data-Literacy".

В [теперь уже] далеком 2019 году мы разрабатывали новую стратегию по продвижению Бизнес-Аналитики в России: мы верили в продукт и считали рынок сильно недооценённым, но продавать было некому: мы уже и так хорошо прошлись по рынку, имя "Qlik" было всем хорошо известно и у нас уже была хорошая клиентская база. Но мы хотели большего...

Дело в том, что количество потребителей бизнес-аналитики довольно невелико - это или непосредственно бизнес-аналитики, или руководство, для которых данные аналитики готовят отчеты. Руководства в компании счетное количество, да и аналитиков тоже: ну, сколько может быть бизнес-аналитиков в коммерческом отделе или отделе маркетинга? 5, 10? Ну - 40, и это - в очень крупной компании. Ну плюс финансы. Плюс логистика. Кадрам еще пару лицензий. И все - на огромную торговую сеть покупается 100 лицензий, и этого хватает. Конечно, первая идея, как увеличить использование аналитических инструментов - это опустить их на уровень ниже (а лучше - на 2-3 уровня), сделать аналитические инструменты доступными для более широкого круга сотрудников, желательно - не просто для всех желающих, а для всех сотрудников, кто работает с информацией.

Читать далее

Инфраструктура для Data-Engineer Apache Iceberg

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели6.6K

В этой статье вы узнаете что такое Apache Iceberg, как его можно использовать и для чего он вообще нужен.

В статье также рассматривается вопрос Data Lake.

Читать далее

Под капотом GCN

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели1.3K

Здравствуйте! Сегодня мы погружаемся в тему графовых сверточных сетей (GCN) и ключевых принципов, стоящих за ними. Если вам интересно узнать больше, я настоятельно рекомендую перейти на статью на Habr, где вы найдёте подробный анализ и актуальные примеры применения GCN.

Введение

GCN (Graph Convolutional Networks) — это масштабируемый подход к полуконтролируемому обучению, который применяется к данным, представленным в виде графов. Если вы хотите глубже понять, как сверточные нейронные сети (CNN) адаптируются для работы с графовыми структурами, загляните в статью на Habr.

Выбор архитектуры GCN основан на принципе локализованного приближения первого порядка спектральных сверток для графов. Что это значит? Мы рассматриваем только ближайших соседей узла, а спектральная свертка позволяет извлекать информацию с помощью спектра графа. В подробностях вы сможете разобраться, прочитав статью.

Метод

Рассмотрим задачу классификации узлов в графе, где метки доступны лишь для небольшого числа узлов. Графо-ориентированное полу-контрольное обучение предлагает интересные решения для такой задачи. Чтобы лучше понять использование графовой регуляризации и как она работает в функции потерь, обращайтесь к статье.

Не упустите шанс углубиться в эту увлекательную тему и раскрыть все нюансы GCN!

Читать далее