Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

kucev 19 сен в 11:01

Селективная генерализация: улучшение возможностей при сохранении alignment

16 мин

4.4K

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

TL;DR: Мы провели бенчмаркинг семи методов, направленных на предотвращение эмерджентного рассогласования и других форм некорректного обобщения с использованием ограниченного объёма alignment-данных. Мы демонстрируем устойчивый трейдофф между способностями модели и согласованием, подчеркивая необходимость более эффективных методов для снижения этого конфликта. Простое включение alignment-данных в микс обучающих данных оказывается недостаточным для предотвращения рассогласования, однако простое наложение KL Divergence penalty на alignment-данные показывает лучшие результаты, чем более сложные подходы.

Читать далее

+3

koptelovak 18 сен в 13:45

Data Governencе – это про ответственность за данные и их качество

Простой

6 мин

4.6K

Блог компании OTUSData Engineering *

Мнение

Мой опыт работы больше связан с темой анализа и оптимизации бизнес-процессов, поэтому процессное регулирование (process governance) мне было знакомо не понаслышке: реестр процессов, владельцы процессов, непрерывный цикл улучшения процессов, требования к целевому состоянию процессов (описан, измеряется, оптимизирован, оцифрован). Еще помню еженедельные заседания комитета по бизнес-процессам, секретарем которого я являлся несколько лет, а возглавлял этот комитет – ключевой руководитель в организации.

Поэтому, когда в мне потребовалось разобраться с системой управления данными, мне было не сложно, просто меняется объект управления и добавляется специфика объекта, то есть данных.

Для тех, кто не знает, что такое регулирование (governance) и чем оно отличается от обычного управления, регулирование – это практики для больших организаций, которые фокусируются на создании организационной среды, в которой «классическое» управление сможет эффективно функционировать, а также в поддержании этой среды на необходимом уровне.

Читать далее

+2

alexandervarlamov 17 сен в 12:00

Подключаем Claude по MCP к базе данных на домашнем компьютере

Средний

8 мин

7.8K

Data Engineering * PostgreSQL * SQL * Базы данных * Искусственный интеллект

Туториал

Про протокол MCP (Model Context Protocol) сейчас говорят всё чаще. Этот протокол позволяет нейросетям общаться с внешним миром. С его помощью к LLM можно подключать любые источники данных или системы управления, и всё это через один универсальный стандарт. MCP часто сравнивают с USB — устройство одно, протокол один, а число сценариев применения практически бесконечно.

В статье расскажу про практический сценарий «как связать LLM и базу данных». Это может сделать любой на своём компьютере.

Протокол MCP придумали ребята из Anthropic. Далее будем использовать нейросети Claudе Sonnet и Claude Opus — это LLM от Anthropic.

Зачем это нужно? Такая связка позволит промтами вытаскивать инсайты из данных, создавать отчёты в PDF и строить интерактивные отчёты в HTML. Это работает на моём компьютере последние два месяца и результаты очень обнадёживающие.

Чтобы было интереснее, в качестве данных возьмём все вакансии Habr Career c описаниями.

Читать далее

+4

StanislavRG 17 сен в 09:43

Spark Connect. А нужны ли перемены?

Простой

10 мин

4.8K

Блог компании ArenadataBig Data * Data Engineering * Apache * Базы данных *

Обзор

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Apache Spark давно и прочно занял место одного из ключевых инструментов в арсенале инженеров и дата-сайентистов, работающих с большими данными. Его способность быстро обрабатывать огромные объёмы информации, гибкость за счёт поддержки множества языков (Python, Scala, Java, SQL) и возможность решать самые разнообразные задачи — от сложных ETL до машинного обучения и стриминга — делают его незаменимым инструментом в мире анализа данных.

Читать далее

+12

mipt_digital 17 сен в 09:00

Что случается с медицинскими данными без стандартов отчетности: кейс менингита и survival-анализа в R

8 мин

3.8K

Блог компании Центр «Пуск» МФТИМашинное обучение * R * Data Engineering *

Кейс

Без стандартов — ни к журналу, ни к себе не подступишься: в этой статье — история анализа выживаемости пациентов с менингитом и то, как внедрение STROBE и TRIPOD полностью изменило подход к работе с медицинскими данными. На примере кейса и кода на R автор показывает, как стандарты отчетности помогают структурировать исследование, избежать потерь данных, честно построить модель и — главное — самому понять, что ты сделал.

Читать далее

+9

TechRecruiter 16 сен в 15:01

Полезные задачи на Kaggle ( LLM, Diffusion Models)

Простой

2 мин

7.1K

Data Engineering * Искусственный интеллектКарьера в IT-индустрииМашинное обучение *

Туториал

В мире Data Science и Data Engineering ценится не только теория, но и практический опыт: умение работать с реальными данными, строить модели и доводить решения до результата. Однако получить такой опыт непросто: рабочие проекты часто закрыты NDA, а учебные кейсы не отражают сложность реальных задач.

Именно поэтому платформа Kaggle заняла особое место в индустрии. Это крупнейшее мировое сообщество специалистов по данным:

Читать далее

+1

Vinttri 16 сен в 09:32

Как избавиться от проприетарных ETL: кейс миграции на dbt

Простой

10 мин

8.1K

Блог компании ГазпромбанкPython * Big Data * Data Engineering *

Кейс

Несколько лет назад наш корпоративный слой данных жил на проприетарных технологиях. Данных было много, а основная СУБД — MPP-система Sybase IQ — долго не обновлялась. Мы регулярно сталкивались с тем, что у кластера «падали» ноды, каталог базы повреждался, порой даже терялись данные, а вендор не спешил выпускать исправления или даже признавать проблему. ETL-процессы работали через IBM DataStage, который также перестал развиваться. Все решения были закрыты, и мы не могли влиять на их улучшение. Vendor lock-in означает, что вы зависите от поставщика: если вендор не поддерживает нужные возможности, развитие замедляется, а долгоживущие ошибки остаются нерешенными. Такое положение становилось критичным.

Мы поняли, что для устойчивого развития платформы нужно срочно искать альтернативу: переходить на стек, которым мы можем управлять сами. При этом важно было сохранить команду: десятки разработчиков и аналитиков уже работали с существующей моделью. Новому решению следовало быть удобным для аналитиков, прозрачным для бизнеса и гибким для инженеров.

В этой статье рассказываем о том, как мы перешли с проприетарных ETL-инструментов на open-source на базе dbt, какие проблемы решали по ходу внедрения, и как построили экосистему вокруг dbt для автоматизации рутинных задач.

Читать далее

+24

asomegoodboy 16 сен в 09:05

7 SQL-запросов, которые решают 90% всех задач на работе

Простой

4 мин

39K

Блог компании Timeweb CloudBig Data * Data Engineering * SQL * Базы данных *

Дайджест

Каждый день одно и то же. Открываешь клиент базы данных, чтобы что-то проверить, посчитать или найти. И снова пишешь почти тот же SELECT, что и вчера, с тем же WHERE и JOIN. Знакомо?

SQL в большинстве случаях не требует сложные 100-строчные запросы с вложенными подзапросами на три уровня глубины. Чаще всего нам нужны простые, отточенные и, главное, эффективные конструкции.

В этой статье я собрал 7 таких запросов-«рабочих лошадок». Это не какой-то там справочник, а готовая шпаргалка для реальных задач.

Читать далее

+78

dmakhortov 16 сен в 06:05

AI-ассистент в мире кода: как стать пилотом, а не пассажиром

Простой

6 мин

6.6K

Блог компании Яндекс ПрактикумИскусственный интеллектData Engineering * Анализ и проектирование систем *

Мнение

Сегодня невозможно игнорировать тот факт, что AI-ассистенты, такие как ChatGPT, GitHub Copilot или Gemini, стали частью рабочего процесса. Но использовать их бездумно — значит обесценить собственное обучение и будущие карьерные перспективы.

Меня зовут Дмитрий Махортов, я специалист по машинному обучению и ревьюер на курсе «Специалист по Data Science» в Яндекс Практикуме. Эта статья — руководство о том, как сделать AI вашим главным союзником в обучении, а не тем, кто учится вместо вас. Советы подойдут студентам, изучающим Data Science.

Читать далее

+7

kucev 15 сен в 11:30

Скаутинг 2.0: как ИИ и xG находят таланты раньше рынка

5 мин

4.3K

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

Футбол больше не сводится лишь к интуиции и традициям. Теперь это соревнование за то, кто сможет эффективнее использовать данные. От продуманной трансферной стратегии «Брайтона» до работы Луиша Кампуша в ПСЖ — клубы всё активнее обращаются к продвинутой аналитике, чтобы опередить соперников. Это означает использование инструментов на базе искусственного интеллекта, машинного обучения и футбольных данных для более раннего поиска талантов, снижения рисков при трансферах и получения конкурентных преимуществ.

Читать далее

+3

alealandreev 14 сен в 12:03

Polars — «убийца Pandas» на максималках

Простой

35 мин

7.8K

Rust * Python * Big Data * Data Mining * Data Engineering *

Туториал

Всем привет! Меня зовут Александр Андреев, я инженер данных. Сегодня я хочу рассказать вам о библиотеке Polars - потенциальной замене Pandas, любимой у большинства дата-инженеров и дата-саентистов библиотеки для работы с данными.

В своей статье я последовательно пройдусь от истории библиотеки Polars до примеров кода, технических аспектов ее производительности и в конце дам ссылки на все бенчмарки, обучающие материалы и дополнительные статьи, которые использовались для написания данного обзора-туториала по этой замечательной библиотеке.

Читать далее

+13

MrS2608 14 сен в 10:15

Разработка Pipes Counting: как сделать оффлайн AI-инструмент

Средний

7 мин

4.8K

Android * Big Data * Искусственный интеллектTensorFlow * Data Engineering *

Обзор

Из песочницы

Pipes Counting — технический разбор (мобильная разработка + ML)

Приветствуем вас, дорогие читатели! В этой статье мы, ученики 10 класса из школы "Летово", хотим поделиться своим опытом разработки мобильного приложения PipesCounting, созданного для автоматизированного подсчета труб в пачке. За 6 месяцев мы прошли путь от идеи и до публикации приложения, в том числе сбор и расширение датасета, обучение моделей и сборки приложения. Здесь мы хотим поделиться нашим опытом и трудностями с которыми мы столкнулись, чтобы облегчить процесс для тех, кто будет заниматься чем-то похожим, рассказать о возможных подходах и предупредить о сложностях.

С приложением PipesCounting мы заняли второе место в престижном международном конкурсе AI Challenge в категории “Металлургия”, а также постели с ним международную конференцию AI Journey.

Читать далее

+4

Arkronus 14 сен в 09:15

Self-service аналитика для… Excel?

Средний

4 мин

4.6K

Big Data * Data Engineering *

Кейс

Одним из самых распространенных инструментов для внедрения аналитики является BI инструменты – Tableau, Superset, Datalens и многие другие, десятки их. Это отличные инструменты, но какие бы крутые и сложные визуализации традиционно у каждого из таких инструментов одной из важнейших фич является «Экспорт в Excel» - пользователям нужны выгрузки, детальные данные и т.д. На одном из проектов я обсуждал с заказчиком перспективы развития BI в компании – что уже сделано, что делаем дальше и менеджер задал коварный вопрос: «Артём, дашборды это конечно здорово, но можно ли сделать так, чтобы данные загружались к нам сразу в Excel, причем автоматически». И вот что вы придумали...

Читать далее

0

randall 11 сен в 14:44

Готовим данные для LLM: открытые инструменты для нормализации, очистки и не только

Простой

4 мин

7.4K

Блог компании MWS CloudData Engineering * Big Data * Машинное обучение * Искусственный интеллект

Обзор

Компании активно внедряют у себя решения на основе больших языковых моделей: боты техподдержки, умный поиск по базе знаний, выявление мошенников в диалоге или HR-ассистенты.

Но самостоятельно вывести модель в полноценное продакшн-использование не так просто. К тому же для разных сценариев нужно тестировать разные модели. Это требует больших усилий. Чтобы уменьшить порог входа в эту технологию, мы создали собственную платформу — MWS GPT. Под капотом — наша инфраструктура с GPU.

О том, как тестировать разные LLM в MWS GPT и запускать ИИ-агентов без кода скоро расскажем на вебинаре — присоединяйтесь.

Для обучения LLM требуются огромные и разнообразные датасеты. Однако качество данных часто важнее простого объёма: хорошие данные позволяют модели лучше обобщать и снижать ошибки. К счастью, есть открытые решения, способные помочь с их обработкой.

Сегодня делимся подборкой систем контроля качества ML-датасетов, проектом для автоматической категоризации и системой контроля версий для наборов данных.

Читать далее

+3

kucev 11 сен в 11:00

GEPA вместо RL: как рефлексивная эволюция промптов обгоняет обучение с подкреплением

31 мин

4.4K

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

Большие языковые модели (LLM) всё чаще адаптируются к downstream-задачам с помощью методов RL, таких как Group Relative Policy Optimization (GRPO), которые нередко требуют тысячи прогонов для освоения новых задач. Мы утверждаем, что интерпретируемая природа языка может предоставлять LLM куда более богатую обучающую среду по сравнению с policy gradient’ами, основанными на разреженных скалярных наградах.

Чтобы проверить эту гипотезу, мы представляем GEPA (Genetic-Pareto) — оптимизатор промптов, который системно использует natural language reflection для извлечения высокоуровневых правил из trial-and-error процесса. Для любой AI-системы, содержащей один или несколько промптов LLM, GEPA сэмплирует траектории на уровне системы (например, рассуждения, вызовы инструментов и их выводы) и анализирует их на естественном языке, чтобы диагностировать проблемы, предлагать и тестировать обновления промптов, а также объединять комплементарные инсайты с границы Парето собственных попыток.

Благодаря такому дизайну GEPA нередко превращает даже несколько прогонов в существенный прирост качества. На четырёх задачах GEPA в среднем превосходит GRPO на 10% и до 20% максимум, при этом используя до 35× меньше прогонов. GEPA также опережает ведущий оптимизатор промптов MIPROv2 более чем на 10% на двух LLM и демонстрирует обнадёживающие результаты как стратегия поиска на этапе инференса для задач оптимизации кода.

Читать далее

0

Kartafan 10 сен в 15:05

Автоматизируем подготовку промтов для GPT: Python-функция для детального описания DataFrame

Простой

3 мин

9.9K

Python * Big Data * Data Engineering * Искусственный интеллектПрограммирование *

Туториал

Привет, меня зовут Виталий. Автор телеграмм канала «Детектив данных» про смену профессии и мой вкат в «аналитику» после 30 лет. И да, я уже наверное года полтора использую помощь нейросети при написании кода на Питоне.

Следствие установило, что для получения качественного ответа часто приходится потратить довольно много времени на описание таблицы, где какой тип данных, примеры, формат, количество nan значений, диапазон дат и прочие нюансы.

Будто при допросе вместо описания преступника, следователь внимательно изучает все родинки у допрашиваемого лица. И у адвоката.

В качестве жертвы у нас рабочее время, которое можно потратить на описание задачи.

В какой то момент я подумал, а почему бы не сделать универсальную функцию которая будет собирать эту информацию за меня, и сразу писать какой нибудь универсальный промт, потому что, до кучи мне и его лень писать.

В общем вашему вниманию предлагаю эту функцию. Всё что нужно, это вставить код в ячейку, и в следующей команде указать ваш датафрейм. Принт выведет вам готовый промт с описанием вашей таблицы, расскажет тип данных каждого столбца, покажет примеры значений, диапазоны и количество пропусков, а заодно проверит датафрейм на дубликаты.

Смотрим функцию, сохраняем

+4

VGcom 10 сен в 07:05

Что стоит за дистрибуцией Greenplum?

Средний

13 мин

4.7K

Блог компании BegetData Engineering * PostgreSQL * SQL * Базы данных *

Что известно про Greenplum?
Это MPP система на базе PostgreSQL, которая нужна, чтобы работать с большими объемами данных и делать OLAP. Отлично, но лично меня не устраивает это поверхностное знание, хочется узнать, что внутри. Какие алгоритмы использует Greenplum в своих процессах. Я хочу начать с дистрибуции, и приглашаю вас с собой в это путешествие.

Что внутри?

+12

kucev 8 сен в 11:00

Humans-in-the-loop vs synthetic data: за что идёт борьба на рынке AaaS

8 мин

5K

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

Scale зарабатывает более $750 млн в год на продаже данных для RLHF. Кто собирается их потеснить?

Scale AI — стартап, ранее известный своими контрактами на разметку данных для беспилотных автомобилей и военных проектов, приближается к годовому обороту в $1 млрд благодаря своим дата-сервисам, используемым в техниках вроде reinforcement learning from human feedback (RLHF). Я давно слышал слухи об их масштабах, о том, что они работают буквально со всеми крупными AI-лабораториями — от Meta до OpenAI, но увидеть подтверждение этого в публичных отчетах ощущается совсем иначе.

Читать далее

0

qlever 5 сен в 12:10

Dagster или Airflow: что выбрать для оркестрации в DWH-проектах?

14 мин

7.5K

Data Engineering * Big Data * Хранение данных * Анализ и проектирование систем * Базы данных *

Рассказываем, какие задачи решают оркестраторы в проектах внедрения корпоративных хранилищ данных. Выясняем, в чем разница между инструментами, и почему Dagster становится все популярнее в DWH-проектах, чем Airflow.

Читать далее

+7

badcasedaily1 4 сен в 13:19

RocksDB-стейт в стриминге: как ловить потерянные события и дубликаты

Средний

11 мин

5.2K

Блог компании OTUSData Engineering * Big Data * Программирование * Apache *

Обзор

В стриминговых пайплайнах всё чаще приходится иметь дело не только с бесконечным потоком данных, но и с состоянием, которое нужно хранить и восстанавливать без потерь. С выходом Spark 3.2 у разработчиков появилась возможность подключать RocksDB в качестве state store — и это открывает новые горизонты для работы с большими объёмами данных. В статье разбираем, как использовать этот подход на практике: от борьбы с дубликатами и пропущенными событиями до тонкостей конфигурации и устойчивости стриминга.

Читать далее

+6

1 2 ...

8

9 10 ...