Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

full_moon 11 дек 2024 в 11:12

Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов

Средний

10 мин

733

Блог компании Data LightБлог компании Magnus TechМашинное обучение * Data Engineering * Искусственный интеллект

Обзор

Если вы хотите научить модель машинного зрения разбираться в сортах кукурузы или, скажем, отличать пешеходов от автомобилей, вам нужно подготовить датасет с изображениями, где уже будут размечены пешеходы и початки кукурузы, снятые с разных ракурсов в разное время суток. Когда дело ограничивается злаковыми культурами, для этих целей можно использовать опенсорсное решение, а вот компании, работающие с белковыми формами жизни и их биометрией — например, банки, — за неимением своих датасетов часто обращаются за помощью к другим компаниям.

Чтобы выяснить, как на практике выглядит такая разработка датасетов на аутсорсе, мы поговорили с Владиславом Барсуковым, руководителем группы речевых и генеративных данных в Data Light. Он поделился своим взглядом на проблемы в сфере разметки биометрических данных и рассказал о подводных камнях, с которыми приходится сталкиваться в ходе подготовки, проверки, обработки и выгрузки датасетов для алгоритмов ML. Бонусом — интересный кейс с разметкой 60 000 фотографий, пол и возраст на которых проверяли сначала нейросетью, а потом — вручную.

Читать далее

+16

sann05 11 дек 2024 в 10:10

Airflow 3 is Coming

Средний

5 мин

4.8K

Data Engineering * Big Data * Apache * Python * Open source *

Обзор

Recovery Mode

Как-то один из самых главных контрибьюторов в Airflow Ярек Потиюк рассказал, что Airflow 3 станет новым золотым стандартом индустрии. Это довольно смелое заявление. Я же считаю, что в Airflow 3 еще многого не хватает, чтобы действительно стать стандартом.

Если вы еще не знаете, что такое Airflow, то, к сожалению, это статья будет сложной. Давайте вместе освежим память.

Airflow - это платформа с открытым исходным кодом для написания и управления рабочих процессов. Airflow была основана в 2014 году в AirBnB. С тех пор платформа прошла путь до версии 1.0 в 2015 году, стала Apache Top Level Project в 2019 и плотно обосновалась как Enterprise Production-Ready в 2020 с версией 2.0.

Читать далее

+6

kucev 10 дек 2024 в 09:30

5 лучших фреймворков с открытым исходным кодом для оценки больших языковых моделей (LLM) в 2024 году

4 мин

2.1K

Машинное обучение * Искусственный интеллектData Mining * Data Engineering * Big Data *

Перевод

«У меня такое чувство, что решений для оценки LLM больше, чем проблем, связанных с их оценкой», — сказал Дилан, руководитель отдела ИИ в компании из списка Fortune 500.

И я полностью согласен — кажется, что каждую неделю появляется новый репозиторий с открытым исходным кодом, пытающийся сделать то же самое, что и другие 30+ уже существующих фреймворков. В конце концов, чего действительно хочет Дилан, так это фреймворка, пакета, библиотеки, как угодно, который просто количественно оценил бы производительность LLM (приложения), которую он хочет запустить в продакшен.

Итак, как человек, который когда-то был на месте Дилана, я составил список из 5 лучших фреймворков для оценки LLM, существующих в 2024 году :) 😌

Начнем!

Читать далее

0

Nikerik 9 дек 2024 в 09:32

Каталог данных своими руками из PowerBi и небольшой БД

Средний

6 мин

3.4K

Блог компании ВкусВиллData Engineering * Хранение данных * IT-стандарты *

Кейс

Привет! Я Николай, аналитик во ВкусВилле, я запустил и поддерживаю проект по каталогу данных в ВВ.

Поиск данных — нелегкая задача, особенно при большом объеме бизнеса. Много источников информации и множество аналитиков связаны со сложностями как при онбординге, так и в процессе работы. Чтобы жить стало проще, мы решили создать свою систему для каталогизации источников и определения единого источника правды.

Сделали каталог своими руками, как подошли к этому вопросу и что получили в итоге —расскажу в этом материале.

Читать далее

+7

antipov_dmitry 8 дек 2024 в 06:27

Нам нужен RAG, вам нужен RAG: как встроить LLM туда, где она не нужна

Простой

4 мин

3.8K

Data Engineering * Data Mining * Big Data * Искусственный интеллектМашинное обучение *

Мнение

Когда хайп захватывает умы, кажется, что любое техническое решение должно строиться вокруг новой модной технологии и что теперь-то мы ух заживем! Сегодня у нас на хайпе RAG (Retrieval-Augmented Generation), вчера — NFT, позавчера — блокчейн везде и всюду.

Давайте попробуем разобраться, нужен ли RAG на самом деле, или это просто «новый блокчейн» и через год все набьют шишки и забудут о нем.

Читать далее

+8

Magnit_tech 6 дек 2024 в 10:50

Платформа данных в хранилище Магнит OMNI

Средний

7 мин

2.5K

Блог компании Magnit TechХранение данных * Data Engineering *

Кейс

Всем привет! Меня зовут Михаил, я руковожу разработкой хранилища данных «Магнит OMNI». Хочу рассказать, как мы решали проблемы его создания: разделение ресурсов хранилища между несколькими большими равнозначными заказчиками; переиспользование кода для оптимизации рутинных задач; развитие платформы DWH в условиях активно растущего бизнеса; навигация в сотнях витрин и соблюдение единообразия расчёта метрик.

Читать далее

+6

kucev 6 дек 2024 в 10:04

Руководство для начинающих по оценке конвейеров RAG с использованием RAGAS

7 мин

1.5K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

В постоянно развивающемся мире машинного обучения и искусственного интеллекта разработка приложений языковых моделей, в частности систем генерации дополненного извлечения (RAG), становится все более сложной. Однако настоящая проблема возникает не во время первоначального создания, а при постоянном обслуживании и улучшении этих приложений. Именно здесь в игру вступает RAGAS — оценочная библиотека, предназначенная для предоставления метрик для конвейеров RAG. В этой статье мы рассмотрим библиотеку RAGAS и научим вас использовать ее для оценки конвейеров RAG.

Читать далее

+1

k0rsakov 6 дек 2024 в 06:00

Как должен выглядеть идеальный GitHub для поиска работы

Простой

2 мин

8.7K

Хранение данных * Data Engineering * Терминология ITBig Data * IT-стандарты *

Туториал

Сколько раз вы слышали совет: "Укажи GitHub в резюме для поиска работы"?

Многие думают, что просто создать аккаунт и запушить пару репозиториев будет достаточно, чтобы работодатели будут выстраиваться в очередь. Но на самом деле это совсем не так.

Сегодня мы разберёмся, почему пустой GitHub не только не помогает в поиске работы, но и может навредить вашим карьерным перспективам.

Читать далее

-7

FeLkan 4 дек 2024 в 09:15

SpyderIDE: Твоя новая «восьмилапая» подруга для Python-разработки

Простой

8 мин

11K

Data Engineering * Data Mining * Python * Научно-популярноеВизуализация данных *

Из песочницы

Дорогие друзья, порадуемся тому факту, что даже в мире IDE есть свои пауки. Не те, что заползают в ваш код, добавляя баги, а настоящие спасатели программного хаоса. Сегодня речь пойдет о SpyderIDE, любимице научного сообщества и тех, кто слишком увлечен pandas и numpy, чтобы замечать окружающий мир.

Читать далее

+8

AkaMikhelson 4 дек 2024 в 07:54

Пора перестать в любой непонятной ситуации строить DWH для аналитики

Простой

4 мин

5K

Big Data * Хранение данных * Data Engineering *

Мнение

Привет!
Кажется, первая статья нашла своего благодарного читателя.Снова мысли от CDO трудящегося вместе с одной небольшой компанией ру-сегмента.
Продолжу о том, что "наболело".

Эта статья может быть Вам полезна, если консалтинг/интегратор/CTO/CIO/~~сын маминой подруги~~ настойчиво хочет решить все Ваши "проблемы" в аналитике классным корпоративным хранилищем, далее - DWH.

Читать далее

+8

devozerov 4 дек 2024 в 05:30

Безграничная расширяемость: как экосистема плагинов помогает Trino работать в любом аналитическом ландшафте

6 мин

640

Блог компании CedrusDataData Engineering * SQL * Big Data *

"Trino — это PostgreSQL для аналитики" — нескромно охарактеризовали Trino в одном из блогов. Я не люблю кликбейтные заголовки, но эта фраза действительно емко описывает одну из самых сильных сторон Trino — расширяемость.

В этом блоге я расскажу, как устроены плагины Trino — строительные блоки, которые позволяют гибко адаптировать возможности продукта под потребности современных аналитических платформ.

Читать далее

+1

kucev 3 дек 2024 в 10:34

Оценка приложений RAG с помощью RAGA

8 мин

1.6K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

Фреймворк с метриками и данными, сгенерированными LLM, для оценки производительности конвейера с дополненной генерацией данных.

Читать далее

+2

kucev 2 дек 2024 в 09:55

Генерация дополненного извлечения (RAG): от теории к реализации LangChain

7 мин

3.4K

Машинное обучение * Искусственный интеллектData Mining * Data Engineering * Big Data *

Перевод

От теории из оригинальной академической статьи до ее реализации на Python с OpenAI, Weaviate и LangChain

Читать далее

+1

lelbydd 29 ноя 2024 в 09:59

Как приготовить DataVault и не испортить Greenplum

Средний

12 мин

2.6K

Блог компании X5 DigitalХранение данных * Data Engineering *

Туториал

Меня зовут Виталий Дудин, я руководитель направления Платформы больших данных в Х5 Digital. Вместе с командой мы строим аналитическую дата-платформу для экспресс-доставки. В этой статье поговорим про то, как она устроена и почему в какой-то момент мы решили всё переделать с нуля. Также немного расскажу про старое хранилище на PostgreSQL, про его преимущества и недостатки. Про то, как устроена новая аналитическая дата-платформа, модель DataVault на Greenplum и про то, как сделать так, чтобы всё работало, а не тормозило.

Читать далее

+18

lux_nikpav 29 ноя 2024 в 09:29

В поисках потерянных данных: переход со StreamSets на Data Boring

5 мин

358

Блог компании Luxms BIBig Data * Data Engineering * Хранение данных *

Кейс

Наш заказчик столкнулся с реальной проблемой, когда из-за использования устаревшего ETL-инструмента StreamSets оказался в ситуации, в которой его система начала давать сбои, а это напрямую влияло на финансовые результаты. Мы решили помочь, организовав миграцию на более современное решение — Luxms Data Boring.

В этой статье мы, Николай Павлов и Наталья Глодя, делимся опытом нашей команды в поисках потерянных данных и рассказываем о том, как важно не дожидаться критических ситуаций, а заранее обновлять свои инструменты. Узнайте, как мы смогли не только решить проблему заказчика, но и обеспечить надежность и эффективность бизнес-процессов с помощью отечественного ПО, подходящего под условия импортозамещения.

Читать далее

+7

k0rsakov 29 ноя 2024 в 06:00

Инфраструктура для Data-Engineer форматы файлов

Простой

6 мин

939

Data Engineering * Хранение данных * Big Data * Data Mining *

Туториал

В современной дата-инженерии работа с данными неразрывно связана с различными форматами файлов. Каждый формат имеет свои особенности, преимущества и области применения. В этой статье мы рассмотрим наиболее популярные форматы, научимся с ними работать и поймем, когда какой формат лучше использовать.

Читать далее

+5

tsaregorodtsev 28 ноя 2024 в 16:36

Михаил Водолагин, ex-CDO Deeplay: «Люди умудряются выстрелить себе в ногу очень по-разному!»

Средний

34 мин

1.4K

Data Engineering * Data Mining * Big Data * Python *

Интервью

Что, на ваш взгляд, самое странное может сделать кандидат на собеседовании? Вы когда‑нибудь задавали себе вопрос, в чём главное отличие дата инженера от «обычного» аналитика? Знаете, в чём основная разница между опытным сотрудником и тимлидом? Слышали истории о том, как можно с нуля вырастить и поддерживать на плаву полноценный департамент работы с данными?

На эти и многие другие вопросы я разговаривал с Михаилом Водолагиным. Он очень долго руководил командами дата саентистов и аналитиков, строил команды с нуля, внедрял аналитические системы. CDO (chief data oficer) для него — уже пройденный этап.

Кроме того, Миша обладает уникальной эмпатией, которая позволяет ему видеть проблемы с разных сторон.

Читать далее

-2

wingerv 28 ноя 2024 в 10:07

От слов к делу: Практические кейсы применения NLP в Ингосстрахе

Средний

22 мин

2K

Блог компании ИнгосстрахData Engineering * Машинное обучение * Искусственный интеллектBig Data *

Из песочницы

Для полноценной работы страховой компании нужен большой штат сотрудников, которые общаются при помощи великого и могучего русского языка. А значит есть поле для автоматизации процессов работы средствами NLP. Именно про это данная статья.

Мы рассмотрим варианты решения типовых задач в страховании и не только.

Читать далее

+5

TroyMan 28 ноя 2024 в 07:55

Инженер машинного обучения: чем он занимается и какие ему нужны навыки

6 мин

10K

Блог компании Яндекс ПрактикумМашинное обучение * Data Engineering * Искусственный интеллектУчебный процесс в IT

Привет! Меня зовут Антон Моргунов, я инженер МО в «Базис.Центре» и программный эксперт курса «Инженер машинного обучения» в Яндекс Практикуме. В этой статье я расскажу, что такое машинное обучение, чем занимается инженер МО, какие навыки и компетенции ему пригодятся, а также в каких компаниях востребован этот специалист. А в конце дам пару советов для начинающих инженеров МО.

Читать далее

+8

didalex 27 ноя 2024 в 18:46

Репликация данных с использованием Debezium и Kafka

Средний

5 мин

2.7K

SQL * Data Engineering * IT-инфраструктура *

Кейс

В этой статье мы рассмотрим эволюцию стратегий репликации данных, начиная с ручных подходов и заканчивая автоматизированными решениями, использующими современные технологии, такие как Kafka и Debezium. Ниже описан пример примененный в компании Wildberries.

Читать далее

0

1 2 ...

24

25 26 ...