Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

@ozero17 21 окт в 06:00

Упрощаем Spark через Catalog API

Средний

5 мин

4.2K

Big Data * Data Engineering * Базы данных * Распределённые системы *

Туториал

Говоря о серьезных кластерах в компаниях, нам часто приходится взаимодействовать со сторонними отделами и их данными. И зачастую, когда речь идет об ad-hoc, самый эффективный инструмент - Trino. Он удобен тем, что в платформе данных можно добавить каталог, который позволит по сути избежать настройки коннекшена для конечного пользователя. Просто в запросе указываешь название каталога данных и трино сам понимает, что нужно взять данные со сторонней базы данных. Но все меняется, когда выразительности SQL нам перестает хватать для выполнения поставленных задач и мы переходим в Spark. Точнее, менялось. С релизом Spark 3.0 появилась возможность взаимодействовать с внешними источниками так же просто, как в Trino.

Читать далее

+4

@Upgini 13 окт в 16:00

Быстрый поиск полезных внешних данных для улучшения точности ML модели в Python

Простой

6 мин

5.2K

Data Engineering * Data Mining * Машинное обучение *

Туториал

Перевод

Эта статья - пример того как можно с помощью публичных Python библиотек обогатить тестовый датасет новыми внешними полезными данными и значимо улучшить качество ML модели.

Читать далее

+4

@Devenir-Glorieux 9 окт в 11:29

Как я сделал LLM-сервис, который понимает буровые сводки

Простой

5 мин

5.8K

Python * Будущее здесьData Engineering *

Из песочницы

Привет! Меня зовут Стас, я занимаюсь R&D в компании ROGII.

Я пришёл в ROGII после нескольких лет работы «в поле» — от тундры Уренгойских месторождений до Сахалина. Там я понял, что буровые данные живут в хаосе: у каждого вендора — свой формат, у каждой скважины — свой стиль отчёта.
Когда я оказался в компании, которая консолидирует буровые данные в облаке, задача встала ребром: нужно научить машину понимать суточные рапорты так же, как это делает инженер.

Мы собрали 507 PDF‑файлов (всего 14 678 страниц) и выделили 23 типа отчётов по признаку компании и структуры.
Но традиционные подходы: ручной ввод, регулярки, rule‑based и классический NLP — оказались или неэффективными, или нежизнеспособными.
Тогда я обратился к LLM.

Читать далее

+4

@thedarksideblog10 4 окт в 11:15

Как я пытался сделать нейросеть аналитиком: провалы и уроки

Средний

3 мин

10K

Аналитика мобильных приложений * Искусственный интеллектData Engineering *

Из песочницы

Наверняка многим знакома ситуация: у тебя есть куча данных, отчетов, KPI, а команда тонет в Excel‑таблицах и Jira‑тикетах. И вот тебе кажется, что решение простое: «Давайте посадим нейросеть на аналитику».

Я решил попробовать. И вот что из этого вышло.

Читать далее

+4

@KhanAta 3 окт в 16:16

Байесовский анализ и временные ряды в прогнозировании отказов оборудования на примере нефтегазовых компаний

Простой

7 мин

7.4K

Data Engineering * Python * Big Data * Data Mining *

Из песочницы

Предсказание отказов оборудования в нефтегазовой отрасли задача, которая напрямую связана с деньгами и безопасностью. Простои установки стоят миллионы, а аварии могут привести к еще большим потерям. В компаниях вроде X и Z тема предиктивного обслуживания обсуждается не ради модернизации ради самой модернизации, а потому что каждый дополнительный час работы без поломки снижает затраты.

В отличие от прогнозирования спроса или продаж, где данных много и повторяются стандартные паттерны, с отказами все иначе. Оборудование способно работать месяцами без проблем, а потом неожиданно ломается. Получается, что у нас есть длинная история "все было нормально" и очень мало записей про то, как и когда все же что-то сломалось.

Читать далее

+4

@1kotleta 29 сен в 11:00

Разбираемся в профессиях: Data Analyst, Data Engineer, Analytics Engineer и BI Engineer

Простой

6 мин

7.5K

Big Data * Data Engineering * Визуализация данных * Хранение данных *

Аналитика

Перевод

Кто вы в мире данных — аналитик, BI-разработчик или Data Engineer? 🔍 Разбираем реальные роли и показываем, чем они отличаются на практике.

Читать далее

+4

@alexandervarlamov 17 сен в 12:00

Подключаем Claude по MCP к базе данных на домашнем компьютере

Средний

8 мин

7.6K

Data Engineering * PostgreSQL * SQL * Базы данных * Искусственный интеллект

Туториал

Про протокол MCP (Model Context Protocol) сейчас говорят всё чаще. Этот протокол позволяет нейросетям общаться с внешним миром. С его помощью к LLM можно подключать любые источники данных или системы управления, и всё это через один универсальный стандарт. MCP часто сравнивают с USB — устройство одно, протокол один, а число сценариев применения практически бесконечно.

В статье расскажу про практический сценарий «как связать LLM и базу данных». Это может сделать любой на своём компьютере.

Протокол MCP придумали ребята из Anthropic. Далее будем использовать нейросети Claudе Sonnet и Claude Opus — это LLM от Anthropic.

Зачем это нужно? Такая связка позволит промтами вытаскивать инсайты из данных, создавать отчёты в PDF и строить интерактивные отчёты в HTML. Это работает на моём компьютере последние два месяца и результаты очень обнадёживающие.

Чтобы было интереснее, в качестве данных возьмём все вакансии Habr Career c описаниями.

Читать далее

+4

@MrS2608 14 сен в 10:15

Разработка Pipes Counting: как сделать оффлайн AI-инструмент

Средний

7 мин

4.8K

Android * Big Data * Искусственный интеллектTensorFlow * Data Engineering *

Обзор

Из песочницы

Pipes Counting — технический разбор (мобильная разработка + ML)

Приветствуем вас, дорогие читатели! В этой статье мы, ученики 10 класса из школы "Летово", хотим поделиться своим опытом разработки мобильного приложения PipesCounting, созданного для автоматизированного подсчета труб в пачке. За 6 месяцев мы прошли путь от идеи и до публикации приложения, в том числе сбор и расширение датасета, обучение моделей и сборки приложения. Здесь мы хотим поделиться нашим опытом и трудностями с которыми мы столкнулись, чтобы облегчить процесс для тех, кто будет заниматься чем-то похожим, рассказать о возможных подходах и предупредить о сложностях.

С приложением PipesCounting мы заняли второе место в престижном международном конкурсе AI Challenge в категории “Металлургия”, а также постели с ним международную конференцию AI Journey.

Читать далее

+4

@Kartafan 10 сен в 15:05

Автоматизируем подготовку промтов для GPT: Python-функция для детального описания DataFrame

Простой

3 мин

9.9K

Python * Big Data * Data Engineering * Искусственный интеллектПрограммирование *

Туториал

Привет, меня зовут Виталий. Автор телеграмм канала «Детектив данных» про смену профессии и мой вкат в «аналитику» после 30 лет. И да, я уже наверное года полтора использую помощь нейросети при написании кода на Питоне.

Следствие установило, что для получения качественного ответа часто приходится потратить довольно много времени на описание таблицы, где какой тип данных, примеры, формат, количество nan значений, диапазон дат и прочие нюансы.

Будто при допросе вместо описания преступника, следователь внимательно изучает все родинки у допрашиваемого лица. И у адвоката.

В качестве жертвы у нас рабочее время, которое можно потратить на описание задачи.

В какой то момент я подумал, а почему бы не сделать универсальную функцию которая будет собирать эту информацию за меня, и сразу писать какой нибудь универсальный промт, потому что, до кучи мне и его лень писать.

В общем вашему вниманию предлагаю эту функцию. Всё что нужно, это вставить код в ячейку, и в следующей команде указать ваш датафрейм. Принт выведет вам готовый промт с описанием вашей таблицы, расскажет тип данных каждого столбца, покажет примеры значений, диапазоны и количество пропусков, а заодно проверит датафрейм на дубликаты.

Смотрим функцию, сохраняем

+4

@ira-k 25 авг в 06:22

Новые темы и фокус на практике: как изменился курс по Data Science в Яндекс Практикуме

Простой

7 мин

6.9K

Блог компании Яндекс ПрактикумData Engineering * Анализ и проектирование систем * Карьера в IT-индустрииУчебный процесс в IT

Обзор

Курс «Специалист по Data Science» — один из первых в Яндекс Практикуме. Он запустился в 2019 году — за это время рынок и требования работодателей поменялись, а значит, должны меняться и учебные программы.

На связи команда курса — сегодня мы расскажем, почему сделали программу длиннее, какие темы добавили и как приступить к обучению, если захотите присоединиться.

Читать далее

+4

@mmshaa9 23 авг в 10:46

Личный топ методов Pandas

2 мин

10K

Data Engineering * Big Data * Python *

Pandas — это изумительная библиотека на Python для анализа и обработки данных. Она настолько хороша, что проще сказать, чего она не умеет, чем перечислить все её возможности. В мире аналитики это настоящий швейцарский нож.

В этой статье я хочу поделиться личным топом методов, которые помогают в первичной обработке больших данных.

Читать далее

+4

@kucev 14 авг в 11:00

ИИ под контролем: Guardrails как щит от рисков в агентных системах

18 мин

6.4K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Вы когда-нибудь задавали вопрос AI-чатботу и получали в ответ что-то вроде: «Я не могу с этим помочь»? Если да — значит, вы уже сталкивались с guardrails в действии. Это встроенные механизмы контроля, ограничивающие, что именно может и не может делать система ИИ.

Например, представьте себе AI-агента, работающего в роли тревел-ассистента. Он поможет вам забронировать рейсы или отели, но не станет отвечать на вопросы по истории или объяснять, как починить компьютер. Это потому, что его поведение ограничено guardrails, сконфигурированными под выполнение конкретных задач.

В этой статье мы разберёмся, что такое guardrails, как они работают и почему они критичны для построения безопасных и надёжных агентных систем ИИ. Поехали!

Читать далее

+4

@ElizavetaRyumshina 12 авг в 06:46

Работа с Oracle Data Integrator (ODI): прямой доступ к метаданным

Средний

11 мин

5.7K

Блог компании МегаФонOracle * SQL * Data Engineering *

Работая с Oracle Data Integrator (ODI), мы ценим его графический интерфейс за автоматизацию рутины и удобство разработки. Однако, когда проект масштабируется до десятков пакетов и сотен сущностей, GUI перестает быть оптимальным инструментом для отслеживания потоков данных, глубокого анализа и аудита зависимостей.

В таких случаях ключом к эффективности становится прямое взаимодействие с метаданными ODI через SQL‑запросы к его репозиториям. Эта статья посвящена именно этому — практической работе со структурой репозиториев ODI и детальному разбору SQL‑запроса для построения потоков данных.

Читать далее

+4

@shkato 3 авг в 12:16

Chief Data Officer: роскошь или необходимость для компаний?

Средний

10 мин

7.8K

IT-компанииData Engineering * Big Data *

Из песочницы

Фразу «данные — новая нефть» слышали, наверное, все. Но нефть сама себя не перерабатывает — нужен специалист, отвечающий за «перегонку» данных в пользу бизнеса. В больших корпорациях эту роль все чаще отдают Chief Data Officer (CDO) — директору по данным. Действительно ли каждой компании жизненно необходим такой человек, или это дань моде? Сейчас попробую разобраться на человеческом языке, без бюрократии и с капелькой иронии.

+4

@kracko23 31 июл в 15:19

Лайфхаки BI SuperSet (часть 1)

Простой

4 мин

6.4K

Визуализация данных * Apache * Data Engineering * Big Data * Data Mining *

Туториал

10 базовых и не очень лайфхаков по работе с BI Apache SuperSet, чтобы сделать её проще и эффективней.

Читать далее

+4

@kucev 23 июл в 11:00

AI-агенты в деле: 15 рабочих примеров для роста вашего бизнеса

14 мин

12K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

AI-агенты радикально меняют подход технических команд к автоматизации, переходя от традиционных, основанных на правилах workflow к более динамичным, интеллектуальным системам, способным адаптироваться и принимать решения в реальном времени.

В отличие от статической автоматизации, основанной на предопределенных триггерах и действиях, AI-агенты используют большие языковые модели (LLM) для обработки сложных данных, понимания контекста и реагирования на непредсказуемые сценарии.

В этой статье мы рассмотрим 15 практических примеров AI-агентов, продемонстрируем, как они автоматизируют сложные задачи и оптимизируют рабочие процессы. Также мы объясним, как платформы вроде n8n упрощают разработку, кастомизацию и масштабирование AI-агентов для применения в реальных бизнес-кейсах.

Поехали!

Читать далее

+4

@pihel 1 июл в 10:30

Что нового в Apache Spark 4.0

Средний

11 мин

2.6K

Блог компании КОРУС КонсалтингData Engineering * Big Data * Apache * SQL *

Обзор

Apache Spark — это мощный фреймворк для распределённой обработки больших объёмов данных, позволяющий выполнять сложные вычисления на кластерах компьютеров с высокой производительностью и гибкостью.

И вот 23 мая 2025 года компания Apache выпустила новую версию Spark 4.

Стоит отметить, что Apache Spark — масштабный фреймворк с широким функционалом. В данной статье я сосредоточусь на нововведениях, которые в первую очередь затронут пользователей Spark SQL и PySpark.

Читать далее

+4

@NITIKO 24 июн в 10:12

СТЦ продолжает открывать мир с орбиты

1 мин

1.4K

Блог компании Специальный Технологический ЦентрData Engineering * HabrКосмонавтика

Любителям космического контента посвящается – делимся новой порцией фотографий, сделанными нашими кубсатами III пусковой кампании. В этот раз в фокусе 12-юнитового МКА оказались такие мировые столицы, как Нью-Йорк, Париж и Брюссель.

Читать далее

+4

@kucev 20 июн в 09:05

Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

4 мин

1.9K

Искусственный интеллектМашинное обучение * Big Data * Data Mining * Data Engineering *

Привет! Меня зовут Роман Куцев, я основатель LLM Arena. У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в реальности.

Так родилась идея: собрать открытый, структурированный датасет промптов и дать AI-комьюнити инструмент, с которым можно не просто смотреть, но и исследовать, фильтровать, понимать логику запросов юзеров к LLM.

Изучая Arena Explorer от LMSYS, мы сначала хотели взять их путь за основу. Но быстро стало понятно — мы можем и должны пойти дальше. И построили систему, которая обусловлена русскоязычным контекстом, с другим уровнем прозрачности и внимания к качеству.

Читать далее

+4

@dev_flex 22 мая в 12:58

Каталог данных: что за зверь и с чем его едят

Средний

5 мин

997

Блог компании SM LabОткрытые данные * Управление проектами * Data Engineering * Управление продуктом *

Кейс

Всем привет! Меня зовут Роман Грибов, я директор по развитию данных и аналитики в «Спортмастере». Вместе с моей коллегой Татьяной Шишкиной, руководителем направления «Каталог данных», мы расскажем о том, что это за инструмент, как он работает и как позволяет сделать проще жизнь аналитиков, архитекторов и многих других (включая даже тех из нас, кто просто когда-либо смотрел на аббревиатуру «GMV» с немым вопросом «Что ты такое?»), а еще объясним главные цели его внедрения.

Читать далее

+4

1 2 ...

12

13 14 ...