Обновить
75.91

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга
Уровень сложности

Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели733

Если вы хотите научить модель машинного зрения разбираться в сортах кукурузы или, скажем, отличать пешеходов от автомобилей, вам нужно подготовить датасет с изображениями, где уже будут размечены пешеходы и початки кукурузы, снятые с разных ракурсов в разное время суток. Когда дело ограничивается злаковыми культурами, для этих целей можно использовать опенсорсное решение, а вот компании, работающие с белковыми формами жизни и их биометрией — например, банки, — за неимением своих датасетов часто обращаются за помощью к другим компаниям. 

Чтобы выяснить, как на практике выглядит такая разработка датасетов на аутсорсе, мы поговорили с Владиславом Барсуковым, руководителем группы речевых и генеративных данных в Data Light. Он поделился своим взглядом на проблемы в сфере разметки биометрических данных и рассказал о подводных камнях, с которыми приходится сталкиваться в ходе подготовки, проверки, обработки и выгрузки датасетов для алгоритмов ML. Бонусом — интересный кейс с разметкой 60 000 фотографий, пол и возраст на которых проверяли сначала нейросетью, а потом — вручную. 

Читать далее

Airflow 3 is Coming

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели4.8K

Как-то один из самых главных контрибьюторов в Airflow Ярек Потиюк рассказал, что Airflow 3 станет новым золотым стандартом индустрии. Это довольно смелое заявление. Я же считаю, что в Airflow 3  еще многого не хватает, чтобы действительно стать стандартом.

Если вы еще не знаете, что такое Airflow, то, к сожалению, это статья будет сложной. Давайте вместе освежим память.

Airflow - это платформа с открытым исходным кодом для написания и управления рабочих процессов. Airflow была основана в 2014 году в AirBnB. С тех пор платформа прошла путь до версии 1.0 в 2015 году, стала Apache Top Level Project в 2019 и плотно обосновалась как Enterprise Production-Ready в 2020 с версией 2.0.

Читать далее

5 лучших фреймворков с открытым исходным кодом для оценки больших языковых моделей (LLM) в 2024 году

Время на прочтение4 мин
Охват и читатели2.1K

«У меня такое чувство, что решений для оценки LLM больше, чем проблем, связанных с их оценкой», — сказал Дилан, руководитель отдела ИИ в компании из списка Fortune 500.

И я полностью согласен — кажется, что каждую неделю появляется новый репозиторий с открытым исходным кодом, пытающийся сделать то же самое, что и другие 30+ уже существующих фреймворков. В конце концов, чего действительно хочет Дилан, так это фреймворка, пакета, библиотеки, как угодно, который просто количественно оценил бы производительность LLM (приложения), которую он хочет запустить в продакшен.

Итак, как человек, который когда-то был на месте Дилана, я составил список из 5 лучших фреймворков для оценки LLM, существующих в 2024 году :) 😌

Начнем!

Читать далее

Каталог данных своими руками из PowerBi и небольшой БД

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели3.4K

Привет! Я Николай, аналитик во ВкусВилле, я запустил и поддерживаю проект по каталогу данных в ВВ. 

Поиск данных — нелегкая задача, особенно при большом объеме бизнеса. Много источников информации и множество аналитиков связаны со сложностями как при онбординге, так и в процессе работы. Чтобы жить стало проще, мы решили создать свою систему для каталогизации источников и определения единого источника правды. 

Сделали каталог своими руками, как подошли к этому вопросу и что получили в итоге —расскажу в этом материале. 

Читать далее

Нам нужен RAG, вам нужен RAG: как встроить LLM туда, где она не нужна

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели3.8K

Когда хайп захватывает умы, кажется, что любое техническое решение должно строиться вокруг новой модной технологии и что теперь-то мы ух заживем! Сегодня у нас на хайпе RAG (Retrieval-Augmented Generation), вчера — NFT, позавчера — блокчейн везде и всюду.

Давайте попробуем разобраться, нужен ли RAG на самом деле, или это просто «новый блокчейн» и через год все набьют шишки и забудут о нем.

Читать далее

Платформа данных в хранилище Магнит OMNI

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели2.5K

Всем привет! Меня зовут Михаил, я руковожу разработкой хранилища данных «Магнит OMNI». Хочу рассказать, как мы решали проблемы его создания: разделение ресурсов хранилища между несколькими большими равнозначными заказчиками; переиспользование кода для оптимизации рутинных задач; развитие платформы DWH в условиях активно растущего бизнеса; навигация в сотнях витрин и соблюдение единообразия расчёта метрик.

Читать далее

Руководство для начинающих по оценке конвейеров RAG с использованием RAGAS

Время на прочтение7 мин
Охват и читатели1.5K

В постоянно развивающемся мире машинного обучения и искусственного интеллекта разработка приложений языковых моделей, в частности систем генерации дополненного извлечения (RAG), становится все более сложной. Однако настоящая проблема возникает не во время первоначального создания, а при постоянном обслуживании и улучшении этих приложений. Именно здесь в игру вступает RAGAS — оценочная библиотека, предназначенная для предоставления метрик для конвейеров RAG. В этой статье мы рассмотрим библиотеку RAGAS и научим вас использовать ее для оценки конвейеров RAG.

Читать далее

Как должен выглядеть идеальный GitHub для поиска работы

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели8.7K

Сколько раз вы слышали совет: "Укажи GitHub в резюме для поиска работы"?

Многие думают, что просто создать аккаунт и запушить пару репозиториев будет достаточно, чтобы работодатели будут выстраиваться в очередь. Но на самом деле это совсем не так.

Сегодня мы разберёмся, почему пустой GitHub не только не помогает в поиске работы, но и может навредить вашим карьерным перспективам.

Читать далее

SpyderIDE: Твоя новая «восьмилапая» подруга для Python-разработки

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели11K

Дорогие друзья, порадуемся тому факту, что даже в мире IDE есть свои пауки. Не те, что заползают в ваш код, добавляя баги, а настоящие спасатели программного хаоса. Сегодня речь пойдет о SpyderIDE, любимице научного сообщества и тех, кто слишком увлечен pandas и numpy, чтобы замечать окружающий мир.

Читать далее

Пора перестать в любой непонятной ситуации строить DWH для аналитики

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели5K

Привет!
Кажется, первая статья нашла своего благодарного читателя.Снова мысли от CDO трудящегося вместе с одной небольшой компанией ру-сегмента.
Продолжу о том, что "наболело".

Эта статья может быть Вам полезна, если консалтинг/интегратор/CTO/CIO/сын маминой подруги настойчиво хочет решить все Ваши "проблемы" в аналитике классным корпоративным хранилищем, далее - DWH.

Читать далее

Безграничная расширяемость: как экосистема плагинов помогает Trino работать в любом аналитическом ландшафте

Время на прочтение6 мин
Охват и читатели640

"Trino — это PostgreSQL для аналитики" — нескромно охарактеризовали Trino в одном из блогов. Я не люблю кликбейтные заголовки, но эта фраза действительно емко описывает одну из самых сильных сторон Trino — расширяемость.

В этом блоге я расскажу, как устроены плагины Trino — строительные блоки, которые позволяют гибко адаптировать возможности продукта под потребности современных аналитических платформ.

Читать далее

Оценка приложений RAG с помощью RAGA

Время на прочтение8 мин
Охват и читатели1.6K

Фреймворк с метриками и данными, сгенерированными LLM, для оценки производительности конвейера с дополненной генерацией данных.

Читать далее

Генерация дополненного извлечения (RAG): от теории к реализации LangChain

Время на прочтение7 мин
Охват и читатели3.4K

От теории из оригинальной академической статьи до ее реализации на Python с OpenAI, Weaviate и LangChain

Читать далее

Ближайшие события

Как приготовить DataVault и не испортить Greenplum

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели2.6K

Меня зовут Виталий Дудин, я руководитель направления Платформы больших данных в Х5 Digital. Вместе с командой мы строим аналитическую дата-платформу для экспресс-доставки. В этой статье поговорим про то, как она устроена и почему в какой-то момент мы решили всё переделать с нуля. Также немного расскажу про старое хранилище на PostgreSQL, про его преимущества и недостатки. Про то, как устроена новая аналитическая дата-платформа, модель DataVault на Greenplum и про то, как сделать так, чтобы всё работало, а не тормозило.

Читать далее

В поисках потерянных данных: переход со StreamSets на Data Boring

Время на прочтение5 мин
Охват и читатели358

Наш заказчик столкнулся с реальной проблемой, когда из-за использования устаревшего ETL-инструмента StreamSets оказался в ситуации, в которой его система начала давать сбои, а это напрямую влияло на финансовые результаты. Мы решили помочь, организовав миграцию на более современное решение — Luxms Data Boring.

В этой статье мы, Николай Павлов и Наталья Глодя, делимся опытом нашей команды в поисках потерянных данных и рассказываем о том, как важно не дожидаться критических ситуаций, а заранее обновлять свои инструменты. Узнайте, как мы смогли не только решить проблему заказчика, но и обеспечить надежность и эффективность бизнес-процессов с помощью отечественного ПО, подходящего под условия импортозамещения.

Читать далее

Инфраструктура для Data-Engineer форматы файлов

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели939

В современной дата-инженерии работа с данными неразрывно связана с различными форматами файлов. Каждый формат имеет свои особенности, преимущества и области применения. В этой статье мы рассмотрим наиболее популярные форматы, научимся с ними работать и поймем, когда какой формат лучше использовать.

Читать далее

Михаил Водолагин, ex-CDO Deeplay: «Люди умудряются выстрелить себе в ногу очень по-разному!»

Уровень сложностиСредний
Время на прочтение34 мин
Охват и читатели1.4K

Что, на ваш взгляд, самое странное может сделать кандидат на собеседовании? Вы когда‑нибудь задавали себе вопрос, в чём главное отличие дата инженера от «обычного» аналитика? Знаете, в чём основная разница между опытным сотрудником и тимлидом? Слышали истории о том, как можно с нуля вырастить и поддерживать на плаву полноценный департамент работы с данными?

На эти и многие другие вопросы я разговаривал с Михаилом Водолагиным. Он очень долго руководил командами дата саентистов и аналитиков, строил команды с нуля, внедрял аналитические системы. CDO (chief data oficer) для него — уже пройденный этап.

Кроме того, Миша обладает уникальной эмпатией, которая позволяет ему видеть проблемы с разных сторон.

Читать далее

От слов к делу: Практические кейсы применения NLP в Ингосстрахе

Уровень сложностиСредний
Время на прочтение22 мин
Охват и читатели2K

Для полноценной работы страховой компании нужен большой штат сотрудников, которые общаются при помощи великого и могучего русского языка. А значит есть поле для автоматизации процессов работы средствами NLP. Именно про это данная статья.

Мы рассмотрим варианты решения типовых задач в страховании и не только.

Читать далее

Инженер машинного обучения: чем он занимается и какие ему нужны навыки

Время на прочтение6 мин
Охват и читатели10K

Привет! Меня зовут Антон Моргунов, я инженер МО в «Базис.Центре» и программный эксперт курса «Инженер машинного обучения» в Яндекс Практикуме. В этой статье я расскажу, что такое машинное обучение, чем занимается инженер МО, какие навыки и компетенции ему пригодятся, а также в каких компаниях востребован этот специалист. А в конце дам пару советов для начинающих инженеров МО.

Читать далее

Репликация данных с использованием Debezium и Kafka

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели2.7K

В этой статье мы рассмотрим эволюцию стратегий репликации данных, начиная с ручных подходов и заканчивая автоматизированными решениями, использующими современные технологии, такие как Kafka и Debezium. Ниже описан пример примененный в компании Wildberries.

Читать далее