Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

@kucev 11 авг в 11:30

Как AI-редактор Cursor меняет процесс разработки — и стоит ли ему доверять

19 мин

23K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Одним из крупнейших сдвигов в современном софтверном девелопменте стало стремительное распространение AI-инструментов для написания кода. Эти решения помогают как разработчикам, так и людям без технического бэкграунда быстрее писать код, запускать прототипы и готовые приложения. Среди таких инструментов достаточно быстро привлёк внимание Cursor, почти сразу он занял позицию одного из лидеров рынка.

В этой статье я подробнее рассмотрю Cursor, его сильные и слабые стороны, а также сравню его с другими AI-редакторами кода. Это будет практический гайд, в котором я поделюсь своим опытом использования Cursor для создания to-do приложения. К концу материала у вас сложится четкое представление о том, подходит ли Cursor для вашего собственного девелоперского workflow.

Поехали.

Читать далее

+5

@protmaks 10 авг в 17:22

Сравнение двух Excel онлайн в оперативной памяти. Добавлен Экспорт

Простой

2 мин

9K

Data Engineering * Open source *

Кейс

Перевод

После публикации первой части и практического опыта, сделал небольшие доработки в свой онлайн инструмент для сравнения двух Excel , также можно сравнить Excel и CSV файлы без преобразований.

Начну с небольшого вступления, почему я начал делать данный инструмент. Я работаю инженером данных и довольно многое автоматизировал в своей работе. В последнее время я занимаюсь миграцией различных скриптов из SAS в Databricks. Для сравнения таблиц есть несколько готовых инструментов типа datacompy, а также свои наработки. Там всё просто, можно преобразовать любые форматы и сравнить. Но вот появилась необходимость сравнить Excel, как результат работы скрипта и CSV выгруженный из Databricks. Есть несколько способов сделать это:

Читать далее

+5

@kucev 4 авг в 11:00

MCP — новый кирпичик в фундаменте AI-разработки

9 мин

8K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Одна из горячих тем в области AI-кодинг-тулов и developer tooling — протокол MCP (Model Context Protocol), представленный Anthropic в ноябре 2024 года. Он стремительно набирает популярность: AI-модели и инструменты для разработчиков активно внедряют его.

Аналогия для объяснения MCP — это как «порт USB-C для AI-приложений»: он создает универсальную точку расширения, через которую LLM и девтулы могут интегрироваться друг с другом, а также с базами данных, тикетинг-системами и т. д. Концепция начинает набирать популярность и в других областях, но MCP изначально создавался как способ расширить функциональность девелоперских IDE — таких как Claude Desktop, Claude Code, VS Code, Cursor, Windsurf и других. Сегодня мы сосредоточимся именно на этом применении, разобрав:

1. Что такое MCP? Практический пример. Раньше мне приходилось использовать отдельный инструмент, чтобы делать запросы к базе данных в production-приложении. С MCP я могу «разговаривать» с базой данных прямо из IDE — это действительно меняет правила игры!

2. Происхождение MCP. Два инженера из Anthropic — Дэвид Сориа Парра и Джастин Спар-Саммерс — реализовали MCP, решая собственную проблему: они хотели, чтобы Claude Desktop лучше работал с девтулзами.

3. Чтобы понять MCP, нужно понимать Language Server Protocol (LSP). Многие базовые идеи MCP вдохновлены подходом Microsoft к упрощению интеграции языковой поддержки в IDE.

Читать далее

+5

@Andrey_Biryukov 2 авг в 10:40

Кейс: Редактирование стандартных документов в Битрикс24

5 мин

6.8K

Блог компании OTUSCRM-системы * Data Engineering * DevOps *

Работа с документами - неотъемлемая часть документооборота. Документы завершают устные переговоры между различными сторонами и подтверждают их обязанности и ответственность.

Читать далее

+5

@badcasedaily1 5 июл в 12:32

Кластерные A/B-тесты: как победить эффект соседа

Простой

6 мин

475

Блог компании OTUSВизуализация данных * Data Mining * Data Engineering *

Обзор

Привет, Хабр!

Сегодня мы рассмотрим, как спасаться от «эффекта соседа», рандомизируя не пользователей, а их кластеры в A/B тестах.

У классического AB-теста есть аксиома SUTVA: мол, результат конкретного юзера зависит только от его собственной ветки «treatment / control». Реальность улыбается и кидает в лицо соцсетью, где лайк друга поднимает и твою вовлечённость, курьером, который обгоняет коллег и заражает их скоростью, и cпасибками «приведи друга — получи бонус». Итог — наблюдения больше не независимы.

Внутрикамерный жаргон это называет network interference. Чем плотнее граф связей, тем сильнее лечение «просачивается» за контрольные границы.

Читать далее

+5

@badcasedaily1 30 июн в 18:47

Что делает shuffle=True и как не сломать порядок

Простой

6 мин

1.2K

Блог компании OTUSМашинное обучение * Data Engineering * Анализ и проектирование систем *

Обзор

Привет, Хабр! В этой статье рассмотрим невинный на первый взгляд параметр shuffle=True в train_test_split.

Под «перемешать» подразумевается применение псевдо‑рандомного пермутационного алгоритма (обычно Fisher‑Yates) к индексам выборки до того, как мы режем её на train/test. Цель — заставить train‑и-test быть независимыми и одинаково распределёнными (i.i.d.). В scikit‑learn эта логика зашита в параметр shuffle почти всех сплиттеров. В train_test_split он True по умолчанию, что прямо сказано в документации — «shuffle bool, default=True».

Читать далее

+5

@tretiakov_dm 2 июн в 11:40

Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow

Средний

7 мин

1.9K

Блог компании Lenta techPython * Data Mining * Data Engineering * Big Data *

Кейс

Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной работы с данными, но в какой-то момент мы столкнулись с тем, что стандартный подход через SparkKubernetesOperator стал сдерживать развитие: не хватало гибкости, возникали сложности в сопровождении и процесс настройки был излишне сложным для разработчиков.

Читать далее

+5

@VasiliyS178 22 мая в 13:18

Повышаем эффективность хранения данных до 300 раз с помощью таблиц SCD-2

Простой

13 мин

2.5K

Блог компании X5 TechData Engineering * Хранение данных * Алгоритмы * Python *

Туториал

Всем привет, меня зовут Василий. С 2021 года работаю в роли инженера данных в Х5 Tech, успел за это время познакомиться с несколькими интересными проектами и подходами в области обработки данных, об одном из которых пойдет речь далее.

В этой статье расскажу о том, как можно повысить эффективность хранения данных за счет уменьшения их дублирования.

Разберем, что из себя представляют Slowly Changing Dimensions-2 (далее SCD-2) таблицы и самостоятельно реализуем на PySpark алгоритм сохранения данных в них. Попутно поговорим о том, как находить изменения в любой таблице, даже если отсутствуют поля для выбора изменившихся записей, и научимся получать из созданной SCD-2 таблицы срезы на требуемую дату в прошлом.

Читать далее

+5

@vonirug 21 мая в 08:16

Заметки и материалы по итогам Lakehouse Meetup #3

Простой

3 мин

916

Блог компании CedrusDataБлог компании Лемана ТехData Engineering *

CedrusData совместно с Лемана Тех провели митап, где рассмотрели реальный опыт внедрения современных технологий анализа данных: реализация lakehouse на Trino в Лемана Тех, использование Nessie в Азбуке Вкуса.

Читать далее

+5

@Kirill__Kr 19 мая в 13:07

Приходят как-то аналитики на офисную кухню, а там дата-инженеры в нарды играют…

Средний

5 мин

3.8K

Блог компании Профи.руХранение данных * Data Engineering * Базы данных *

Мнение

Один из игроков — я, Кирилл Красновид, тимлид BI-команды в Профи.ру. Наша задача — делать так, чтобы каждый быстро и удобно получал нужную информацию без лишней суеты и ожиданий.

Поэтому мы стараемся все автоматизировать и оптимизировать. Сегодня расскажу, как решаем эти задачи, а ещё про собственные хранилища аналитиков и bus-фактор.

Читать далее

+5

@Dan_uk89 12 мая в 16:58

QIC Tech Meetup → Almaty

2 мин

222

КонференцииУправление продуктом * Data Engineering *

Приходите на бесплатный двухдневный митап 21 и 22 мая в Алматы от спикеров QIC digital hub, Kolesa Group, Yandex и DataArt! Эксперты рынка поделятся своими знаниями и кейсами в работе с продуктами и данными.

Читать далее

+5

@Virron 15 апр в 10:16

Погружение в ClickHouse: делаем первые и успешные шаги

Простой

6 мин

11K

SQL * Big Data * Хранение данных * Data Engineering *

Из песочницы

Привет! Меня зовут Андрей Дорожкин, и я руковожу командой администрации баз данных в Hybrid. В этом материале я поделюсь опытом работы с ClickHouse — колоночной БД, разработанной специально для аналитических запросов, которая позволяет получать результаты в разы быстрее традиционных решений. Также я подсвечу, как устроен этот продукт, чем он отличается от реляционных баз данных, и в каких сценариях его использование может дать бизнесу реальное преимущество.

Пара слов о компании Hybrid. Мы — независимая AdTech-экосистема с собственным стеком технологий и решений для любых рекламных целей. Развиваем собственные технологии благодаря in-house отделу разработки, который каждый день работает над их улучшением. ClickHouse — инструмент, который мы выбираем для хранения данных за высокую скорость обработки запросов, эффективное сжатие данных и масштабируемость.

Читать далее

+5

@makler322 11 апр в 11:01

Динамическое ценообразование в каршеринге: путь от таблички до ML

Простой

12 мин

1.5K

Блог компании СитидрайвData Engineering * Машинное обучение *

Роадмэп

✏️ Технотекст 7

Всем привет! Меня зовут Воронцов Александр, я занимаюсь машинным обучением и анализом данных в Ситидрайве. В этой статье расскажу, как мы развивали систему динамического ценообразования: что это такое на практике, почему это так важно для каршеринга и с какими сложностями мы столкнулись.

Читать далее

+5

@ekhavronina 10 мар в 06:01

Оптимизация дашбордов в Superset

Средний

10 мин

4.4K

Блог компании ГазпромбанкData Engineering * SQL * Визуализация данных *

В этой статье я бы хотела поделиться опытом в оптимизации дашбордов в Apache Superset. Мы в Газпромбанке перешли на этот BI-инструмент относительно недавно. В основном мы работаем в нем с движком Impala.

Иногда бывает так, что некоторые дашборды загружаются дольше других, роняют страницу в браузере или даже замедляют работу для других пользователей на кластере.

У коллег накопился большой опыт в оптимизации SQL-запросов (о чем недавно также вышла статья) и в стандартах разработки витрин. Но конкретно в работе с построением дашбордов есть своя специфика, которая не всегда учитывается, когда речь заходит об оптимальности работы. Superset так же проводит все расчеты на стороне источника через запросы к БД, как это происходит в обычных IDE. Только он преобразует конечный результат в графики, что скрывает от наших глаз сложные запросы, которые иногда там формируются.

Ниже мы рассмотрим, как можно оптимизировать работу с датасетами, графиками и содержанием дашборда, а также как ускорить загрузку с помощью агрегированных таблиц.

Читать дальше →

+5

@UtrobinMV 3 фев в 23:43

Как я объединил перевод и суммаризацию текстов, и что из этого вышло

Средний

8 мин

1.3K

Data Mining * Машинное обучение * Искусственный интеллектNatural Language Processing * Data Engineering *

Туториал

Перевод и суммаризация текстов – это две задачи, которые на первый взгляд кажутся совершенно разными. Перевод требует точного передачи исходного содержания на другой язык, сохраняя все детали и нюансы. Суммаризация же предполагает сокращение текста до его основных идей, часто убирая второстепенные детали.

Однако при ближайшем рассмотрении эти задачи имеют много общего...

Читать далее

+5

@Aimnew 26 ноя в 05:01

Сравниваю Jupyter Notebook, Google Colab, Kaggle и Marimo глазами исследователя и начинающего Data Scientist

Простой

13 мин

7.2K

Data Engineering * IT-инфраструктура * Визуализация данных * Графические оболочки * Интерфейсы *

Обзор

Я пришел в Data Science не сразу. Учился в магистратуре по вечерам, работая в совершенно другой сфере (строительство). Осваивать машинное обучение и анализ данных было интересно, но один из самых неожиданных вопросов, который возник буквально сразу - в какой среде писать код?

На первый взгляд кажется, что Jupyter Notebook, Google Colab, Kaggle и сравнительно новая Marimo - это одно и то же, ноутбук с ячейками и Python (так же поддерживаются другие языки программирования). Но на практике каждая из этих сред подходит для разных задач, где-то удобнее учиться, а где-то работать командой.

Эта статья - результат моего практического сравнения сред, которое я проводил во время обучения и выполнения исследовательских задач, связанных с анализом и подготовкой данных, моделированием и машинным обучением.

Статья будет полезна:

Читать далее

+4

@VladSMR 25 ноя в 04:11

СПРУТ 1 = TAP + DD

Средний

2 мин

7.3K

Блог компании Национальный инновационный центрData Engineering * IT-инфраструктура * Информационная безопасность * Сетевые технологии *

Такая вот незатейливая формула. Спрут 1 – это Test Access Point и Data Diode в одном флаконе. КДПВ перед Вами.

Читать далее

+4

@Aimnew 23 ноя в 21:00

Сравнение инструментов разметки данных для CV: Label Studio & CVAT & Roboflow — опыт разметки 6000+ изображений

Простой

9 мин

9.3K

Data Engineering * Визуализация данных * Интерфейсы * Искусственный интеллектМашинное обучение *

Обзор

Если вы хоть раз обучали модель компьютерного зрения, вы знаете, как качество данных решает всё. На первый взгляд кажется, что задачи у всех инструментов одинаковые: поставить рамку, провести полигон, экспортировать данные, но в реальности всё упирается в детали...

Читать далее

+4

@PhoenixLi 14 ноя в 03:15

Сверхбыстрые запросы: принципы Compaction при разделении хранения и вычислений в StarRocks и руководство по тюнингу

Средний

12 мин

6.9K

Data Engineering * Big Data * Open source * SQL *

Перевод

StarRocks при каждом импорте данных создаёт новую версию, что со временем приводит к росту числа мелких файлов и падению эффективности запросов. Фоновый процесс Compaction объединяет версии, устраняет дубликаты и сокращает количество I/O. В материале разобраны: архитектура Compaction в режиме разделения хранения и вычислений (FE — Scheduler, BE/CN — Executor), диспетчеризация по Partition и Tablet, критерии безопасной очистки данных, а также практики тюнинга. Показано, как смотреть Compaction Score на уровне Partition, отслеживать и отменять задачи, и какие параметры FE/BE/CN действительно влияют на производительность (compact_threads, lake_compaction_max_tasks и др.). Отдельно затронут мониторинг и алерты в Grafana/Prometheus. Текст ориентирован на инженеров DWH/OLAP и эксплуатацию высоконагруженных систем хранения данных.

Читать далее

+4

@Navio 30 окт в 09:07

Ставка на GenAI: генеративные модели меняют правила игры в автономном транспорте

Простой

4 мин

5K

Блог компании NavioData Engineering * IT-компанииАлгоритмы * Транспорт

Ретроспектива

Автономный транспорт давно вышел за пределы закрытых полигонов и футуристичных историй. Он уже работает и приносит пользу бизнесу и людям. В России тягачи Navio два года возят реальные грузы коммерческих клиентов по трассе М-11 «Нева». А в США, Китае или Европе можно совершить поездку на роботакси. Тем не менее, восприятие технологии остается противоречивым. Видео, где автомобиль без водителя в салоне не может выехать с кольцевого перекрестка или воспринимает человека в майке с надписью STOP как команду к действию, усиливают скепсис и снижают доверие к результатам разработчиков. Почему компании, которые работают над технологией с 2009 года [больше 15 лет], не смогли добиться ее стабильной работы.

Классический подход в разработке автономного транспорта

Алгоритмический подход признан классическим в разработке автономного транспорта. Логическая архитектура построена на основе последовательности действий водителя за рулем:

восприятие окружающего мира — набор сенсоров (радары, лидары, камеры);

определение местоположения — карты, модуль позиционирования, сенсоры;

предсказывание действий других объектов вокруг — алгоритмы на базе кинематической составляющей и модели динамики объектов;

планирования пути — руководство к действию или свод правил, основанный на правилах дорожного движения (ПДД);

управление — модуль внутри автомобиля приводит его в движение.

Этот код пишется 15 лет и никогда не будет завершен

Несовершенность классического подхода обнаружилась на этапе планирования пути. При алгоритмическом подходе условия прописываются вручную (what-if сценарии). Автономное транспортное средство принимает решение на основе типа объекта (автомобиль, пешеход, др.), дальше добавляются такие условия, как состояние дорожного покрытия, погода, светофоры, другие объекты. Все это ведет к экспоненциальному росту проверок вложенных условий. Обладая достаточным парком автомобилей, за несколько лет разработчик может закрыть самые часто встречающиеся сценарии на дороге. Следующие несколько лет проездов выловят более редкие случаи и укрепят базу. Но остается открытым вопрос, что делать с уникальными ситуациями, как человек в футболке с надписью STOP или объездом препятствия в месте, где обгон запрещен разметкой. Невозможно вручную прописать все условия заранее, мир сегодня слишком непредсказуем. Такой подход не позволит масштабировать технологию и обеспечить ее стабильность на 100%, особенно в условиях города. Такая бесконечность сценариев называется Long Tail.

Читать далее

+4

1 2 ...

11

12 13 ...