Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

@ds-team 28 дек 2024 в 15:18

Чем занимаются дата-сайентисты в Авито — полный разбор

Простой

10 мин

3.1K

Блог компании AvitoTechData Engineering * Карьера в IT-индустрииIT-компанииУчебный процесс в IT

Обзор

Всем привет, на связи команда Data Science Авито. В этой статье рассказываем, какие команды есть в нашем департаменте, на конкретных примерах объясняем, над чем работаем и как развиваем бизнес. Также мы подготовили для вас ссылки на стажировки и образовательные программы.

Статья будет интересна начинающим и мидл-дата-сайентистам, а также тем, кто только хочет войти в профессию и ищет образовательные программы.

Читать далее

+16

@full_moon 11 дек 2024 в 11:12

Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов

Средний

10 мин

728

Блог компании Magnus TechБлог компании Data LightИскусственный интеллектData Engineering * Машинное обучение *

Обзор

Если вы хотите научить модель машинного зрения разбираться в сортах кукурузы или, скажем, отличать пешеходов от автомобилей, вам нужно подготовить датасет с изображениями, где уже будут размечены пешеходы и початки кукурузы, снятые с разных ракурсов в разное время суток. Когда дело ограничивается злаковыми культурами, для этих целей можно использовать опенсорсное решение, а вот компании, работающие с белковыми формами жизни и их биометрией — например, банки, — за неимением своих датасетов часто обращаются за помощью к другим компаниям.

Чтобы выяснить, как на практике выглядит такая разработка датасетов на аутсорсе, мы поговорили с Владиславом Барсуковым, руководителем группы речевых и генеративных данных в Data Light. Он поделился своим взглядом на проблемы в сфере разметки биометрических данных и рассказал о подводных камнях, с которыми приходится сталкиваться в ходе подготовки, проверки, обработки и выгрузки датасетов для алгоритмов ML. Бонусом — интересный кейс с разметкой 60 000 фотографий, пол и возраст на которых проверяли сначала нейросетью, а потом — вручную.

Читать далее

+16

@MadDam 29 окт в 07:15

Уровни изоляции транзакций: практическая механика и сравнение PostgreSQL, MySQL, Oracle, SQL Server и DB2

Средний

11 мин

9.3K

SQL * PostgreSQL * Data Engineering * Python * MySQL *

Из песочницы

Транзакции — не про «магическое ACID», а про конкретную механику согласованного доступа к данным под нагрузкой.

Эта статья объясняет как реально работают уровни изоляции и чем отличаются популярные СУБД на практике.

Мы разберём:

Читать далее

+15

@olegbunin 2 окт в 09:00

Как обмануть LLM: обход защиты при помощи AutoDAN. Часть 2

7 мин

8.1K

Блог компании Конференции Олега Бунина (Онтико)Искусственный интеллектData Engineering *

В прошлой части мы разобрались, что такое состязательные суффиксы и почему они так легко ломают модели. Но этими суффиксами атаки не ограничиваются. Им на смену пришёл AutoDAN — наследник состязательных суффиксов и популярного jailbreak-метода DAN (Do Anything Now). Разберёмся, чем он отличается от GCG-алгоритма, посмотрим на практические примеры атак и обсудим, как защищаться и тестировать модели.

Читать далее

+15

@RenegadeMS 28 мая в 14:50

PondPilot: как мы сделали локальный SQL-редактор в браузере на DuckDB и WASM

Простой

3 мин

1.6K

SQL * Data Engineering * Open source * Базы данных *

Кейс

Любой, кто хоть раз пытался «по-быстрому» проанализировать CSV-файл или прототип БД, сталкивался с выбором из неудобств: открывать в Excel, запускать Jupyter, возиться с pandas, или поднимать Postgres/ClickHouse ради пары запросов. Мне показалось странным, что в 2025 году до сих пор нет удобной zero-setup SQL-песочницы для локальных данных.

Так родился PondPilot - open-source инструмент для анализа данных, работающий прямо в браузере, без серверов и настройки.

Читать далее

+15

@makoveLev 22 апр в 09:38

Со скоростью кометы: ускоряем Spark без переписывания кода

Средний

7 мин

2.7K

Блог компании КриптонитData Engineering * Big Data * Apache * Серверная оптимизация *

Туториал

Привет, Хабр! Меня зовут Лев Маковеев. Я младший инженер по обработке данных в компании «Криптонит». В этой статье хочу поделиться с вами результатами небольшого исследования, в ходе которого мы протестировали ускоритель запросов Apache DataFusion Comet и пришли к довольно впечатляющим результатам. Забегая вперёд, отмечу, что в отдельных тестах ускорение было более чем десятикратным!

Читать далее

+15

@artemy_kravtsov 2 апр в 11:25

Шардированный кластер ClickHouse

Простой

21 мин

6.1K

Блог компании Wildberries & RussХранение данных * SQL * Data Engineering * Big Data *

Обзор

✏️ Победитель Технотекста 7

Хочу рассказать, как спроектированы распределённые вычисления в ClickHouse. Вы узнаете, на что влияет схема кластера (и на что не влияет). Расскажу, как можно на ровном месте создать себе проблему при помощи всего одной таблицы Kafka и нескольких матвьюх. Поделюсь опытом про дебаг и оптимизацию SELECT-запросов к Distributed таблицам: поизучаем планы выполнения и поэксперементируем с настройками в блоке SETTINGS.

Читать далее

+15

@vmalyutin 28 янв в 12:02

Опыт разработки на доработанном pgTap

Средний

10 мин

1.2K

Блог компании АО «ГНИВЦ»PostgreSQL * Data Engineering * Отладка * Программирование *

Обзор

✏️ Технотекст 7

В этой статье я поделюсь своим опытом разработки юнит-тестов внутри базы данных под управлением PostgreSQL. А также расскажу, зачем мне потребовалось доработать расширение pgTap.

pgTap – это расширение PostgreSQL для разработки юнит-тестов. Сами тесты, как, собственно, и pgTap, пишутся на plpgSQL, что означает низкий порог вхождения для разработчиков PG.

Уверен, что читатель, по крайней мере, знаком с техникой разработки через тесты. Поэтому не буду пускаться в описание теории юнит-тестирования. Благо литературы на эту тему более чем достаточно. Тем не менее, чтобы быть понятым, приведу некоторые детали ниже.

Читать далее

+15

@kxyfi 7 окт в 11:24

Как мы захотели контролировать SPILL’ы в Greenplum и сделали «Демократизатор»

Сложный

16 мин

6.6K

Блог компании РостелекомBig Data * Базы данных * Data Engineering * IT-инфраструктура *

Кейс

Представьте: Один неоптимизированный запрос от неопытного коллеги - и вот уже 40 ТБ SPILL-файлов парализуют систему.

Срабатывает лимит на уровне Greenplum, запрос завершён. Никто ничего не знает.

Создаются заявки, пишутся письма, пользователь недоволен.

Это не какая-то выдуманная история, а обычный будний день в большом Greenplum. Вернее, так было раньше.

Читать далее

+14

@p0b0rchy 28 июл в 09:00

Как меняется рынок и зачем нужны конференции по Ai

Простой

5 мин

985

Блог компании Конференции Олега Бунина (Онтико)Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Обзор

Привет, Хабр! Меня зовут Роман Поборчий, я член программного комитета AiConf Х, которая пройдет 26 сентября 2025 в Москве. Много лет занимался сбором и организацией разметки данных для машинного обучения — и с каждым годом убеждаюсь, что реальность всегда сложнее любых представлений о ней. Поэтому и конференции, на которых можно обсудить практические кейсы, современные подходы и новые вызовы особенно ценны для индустрии.

Читать далее

+14

@MaxRokatansky 23 июл в 05:36

15 лучших библиотек для визуализации данных, о которых должен знать каждый разработчик

24 мин

11K

Блог компании OTUSБазы данных * Data Engineering * Data Mining *

Перевод

Визуализация данных — это не просто способ представить информацию, а настоящий инструмент для открытия новых инсайтов и улучшения принятия решений. В этой статье мы собрали 15 библиотек для визуализации данных, которые стали стандартом в своих областях. Здесь вы найдете как решения для быстрых графиков, так и мощные фреймворки, подходящие для сложных и масштабных задач. Каждая библиотека имеет свои особенности, и в статье мы подробно рассмотрим, какие из них лучше всего подойдут для вашего следующего проекта. Если вы хотите поднять свои визуализации на новый уровень — читайте, разберемся, какие инструменты действительно заслуживают внимания.

Читать далее

+14

@alserok 13 июл в 05:16

Алгоритмы для работы с большими данными в Go: HyperLogLog и Count-Min Sketch

Средний

6 мин

3.2K

Big Data * Go * Алгоритмы * Data Engineering * Программирование *

Из песочницы

Алгоритмы для работы с большими данными

Всем привет! Для начала давайте разберем что такое вообще Алгоритмы для работы с большими данными, основная суть алгоритмов для работы с большими данными — это эффективная обработка огромных объёмов информации при минимальных вычислительных ресурсах (памяти, CPU, диске). Их суть — жертвовать точностью ради скорости и масштабируемости.

Читать далее

+14

@GiantLynx 29 июн в 15:14

Джейлбрейкаем чатботы: ChatGPT без фильтров

Простой

9 мин

14K

Data Engineering * Машинное обучение * Искусственный интеллектИнформационная безопасность * Natural Language Processing *

Туториал

Привет! Сегодня мы копнём в одну из самых спорных и недооценённых тем в мире ИИ — джейлбрейки чатботов. То самое, что позволяет убрать встроенные тормоза и меньше читать “I'm sorry, I cannot help with that” и заставить чатбот говорить с вами как с взрослым человеком, а не как корпоративный душнила.

Читать далее

+14

@kirakirap 21 мая в 11:14

Гайд по Scikit-learn в 2025: собираем пайплайн, который не сломается

Простой

30 мин

9.3K

Блог компании НетологияМашинное обучение * Python * Data Engineering * Data Mining *

Туториал

Scikit-learn — это одна из основных Python-библиотек для машинного обучения. Её подключают в прикладных проектах, AutoML-системах и учебных курсах — как базовый инструмент для работы с моделями. Даже если вы давно пишете с PyTorch или CatBoost, в задачах с табличными данными, скорее всего, всё ещё вызываете fit, predict, score — через sklearn.

В 2025 году в библиотеку добавили несколько важных обновлений: доработали работу с пайплайнами, подключили полную поддержку pandas API, упростили контроль за экспериментами.

Мы подготовили гайд, как работать со scikit-learn в 2025 году. Новичкам он поможет собрать первую ML-задачу — с данными, моделью и метриками. А тем, кто уже использует библиотеку, — освежить знания и понять, что изменилось в новых версиях.

Почитать гайд →

+14

@jihor 24 апр в 12:42

Секреты Spark в Arenadata Hadoop: как мы ускорили построение витрин для задач ML

Средний

9 мин

1.3K

Блог компании РСХБ.Цифра (Россельхозбанк)Big Data * Data Engineering * Искусственный интеллектМашинное обучение *

Кейс

Привет, Хабр! Я Дмитрий Жихарев, CPO Платформы искусственного интеллекта RAISA в Лаборатории ИИ РСХБ-Интех. В этой статье я и архитектор нашей платформы Александр Рындин @aryndin9999расскажем о том, как мы построили взаимодействие Платформы ИИ и Озера данных для работы с витринами данных моделей машинного обучения с использованием Spark.

Читать далее

+14

@AlekseyStruchenko 27 фев в 10:26

Как не утонуть в данных: выбираем между DWH, Data Lake и Lakehouse

Средний

13 мин

7.3K

Блог компании ArenadataData Engineering * Big Data * Базы данных * Хранение данных *

Обзор

Привет, Хабр! Меня зовут Алексей Струченко, я работаю архитектором информационных систем в Arenadata. Сегодня хотелось бы поговорить о хранилищах данных — их видах, ключевых особенностях и о том, как выбрать подходящее решение. В эпоху цифровой трансформации данные стали одним из самых ценных активов для компаний любого масштаба и сферы деятельности. Эффективное хранение, обработка и анализ больших объёмов данных помогают организациям принимать обоснованные решения, повышать операционную эффективность и создавать конкурентные преимущества.

Однако с ростом объёмов данных и усложнением их структуры традиционные методы хранения сталкиваются с ограничениями. В этой статье мы подробно рассмотрим подходы к хранению данных: Data Warehouse (DWH), Data Lake и относительно новую концепцию Lakehouse. Разберем их особенности, различия, преимущества и недостатки, а также предложим рекомендации по выбору каждого подхода.

+14

@Magnit_OMNI 22 окт в 09:20

Как использовать Clickhouse без боли

Средний

9 мин

8K

Блог компании Magnit TechБазы данных * Data Engineering * Анализ и проектирование систем *

Кейс

ClickHouse — одна из самых популярных систем для анализа данных. По информации TheirStack, этот инструмент использует более 3 700 компаний по всему миру.

У ClickHouse быстрая аналитика, эффективное сжатие и отличное масштабирование. Но у системы есть и недостатки — ограниченная поддержка UPDATE и DELETE, а также сложная миграция.

Привет, Хабр! Меня зовут Михаил Филимонов, я руковожу разработкой хранилища данных в группе Магнит OMNI. В этой статье я расскажу о проблемах работы с ClickHouse, как их решать и какие инструменты для этого потребуются.

Читать далее

+13

@alealandreev 14 сен в 12:03

Polars — «убийца Pandas» на максималках

Простой

35 мин

7.6K

Data Engineering * Data Mining * Big Data * Python * Rust *

Туториал

Всем привет! Меня зовут Александр Андреев, я инженер данных. Сегодня я хочу рассказать вам о библиотеке Polars - потенциальной замене Pandas, любимой у большинства дата-инженеров и дата-саентистов библиотеки для работы с данными.

В своей статье я последовательно пройдусь от истории библиотеки Polars до примеров кода, технических аспектов ее производительности и в конце дам ссылки на все бенчмарки, обучающие материалы и дополнительные статьи, которые использовались для написания данного обзора-туториала по этой замечательной библиотеке.

Читать далее

+13

@negrbluad 6 авг в 11:31

Как я написал алгоритмического бота на Python для торговли по индикаторам на Bybit

Средний

12 мин

21K

Python * Алгоритмы * Data Engineering * Финансы в IT

Из песочницы

Полный разбор создания алгоритмического трейдинг-бота с использованием индикатора Bollinger Bands, кластерных сигналов и API Bybit. 1700% прибыли за год использования.

Читать далее

+13

@Dreymanis 3 июл в 09:00

Работа с данными в DuckDB или не pandas’ом единым сыт DS

9 мин

2.1K

Блог компании СинимексSQL * Python * Базы данных * Data Engineering *

Обзор

В проектах по разработке ML-моделей я регулярно сталкиваюсь с тем, что значительная часть времени уходит не на саму модель, а на приведение данных в нужный формат: очистку, трансформацию, агрегацию.

Этот этап требует не только времени, но и вычислительных ресурсов, особенно когда речь идет о больших объемах информации. В этой статье я расскажу о своем небольшом исследовании DuckDB — инструменте, который может значительно упростить и ускорить работу с данными.

Читать далее

+13

4

5 6 ...