Как стать автором
Поиск
Написать публикацию
Обновить
92.53

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга

Automate Your Daily Tasks in 10 Minutes: A Practical Guide to n8n for Beginners

Until 2022, I thought automation was only large companies. But in 2022 I discovered n8n, and everything changed. Now, I automate routine work, reports, and even whole business processes—sometimes in under 10 minutes. Here’s how it works, what surprised me, and what you can try today.

In 2022, I deployed n8n on a separate VPS to demonstrate the ability to process design data from Revit and show that it's like working in Dynamo or Grasshopper, but for data managers and automation pipelines outside of Autodesk products.

But it was hard to get experts interested in 2022 - at the time, n8n was still in its early stages: there were no Python nodes, no LLM integration, and most workflows took weeks to create, relying on scattered blog posts and incomplete examples on forums.

Fast forward to 2025, and everything has changed.

Today, thanks to native LLM nodes, you can simply ask ChatGPT, Claude, or any advanced AI assistant to generate automation n8n pipelines — whether for validating parameters or producing custom QTO tables — and get ready-to-run workflows in seconds.

Why Bother with Automation?

Let’s be honest: most “office work” is repetitive. Copy-paste, renaming files, sending the same email—again and again. It’s boring and, more importantly, wastes hours every week. For me, automation started as an experiment, but quickly became a must-have. Once you automate your first task, you won’t want to go back.

What is n8n and Why Use It?

n8n (pronounced “n-eight-n”) is a free, open-source tool for automating anything—emails, file operations, notifications, even AI tasks. The best part? No coding needed. You just drag, drop, connect blocks, and press play. It runs on Windows, Mac, or Linux. I set up my first workflow in under 15 minutes.

How I Got Started (And You Can Too)

  1. Install Node.js (from the official site, takes 2 minutes)

  2. Install n8n with one command

  3. Open n8n in your browser (local or online)

  4. Start building: drag blocks (“nodes”) to connect apps, add logic, or even call ChatGPT to write emails for you!

Video Tutorial:
Automate Your CAD-BIM Workflows Local with n8n + ChatGPT & Claude | No Code, No Plugins, No Internet

My first workflow? Automating project reports — collecting data, formatting it, and sending it as an email, all triggered by a single button.

Video Tutorial:
Automate Your CAD-BIM Workflows Local with n8n + ChatGPT & Claude | No Code, No Plugins, No Internet

Where the Magic Happens: AI & Templates

The next “wow moment” for me was connecting n8n to AI tools like Claude and ChatGPT. Need to generate text, analyze data, summarize, or respond to messages? Just add a ChatGPT node—no API coding, just your prompt.

Short on time? n8n has a big library of ready-made templates. You can find workflows for almost any need: document processing, cloud backups, database syncs, even advanced stuff like BIM/CAD data processing. Grab a template, tweak it for your needs, done.

Lessons Learned and Tips

  • Don’t overthink: Start simple. Even automating one small task (like downloading attachments from email) pays off.

  • Debug as you go: n8n makes it easy to see where something breaks—just follow the logs, tweak, and re-run.

  • Experiment: The community is active and shares real-life examples. Some of my best workflows came from GitHub repos or the official n8n library.

  • Combine tools: I use n8n with spreadsheets, databases, cloud storage, and AI. Everything connects!

Why You Should Try It

After a few weeks, I realized how much time I was saving. Reports that took 30 minutes now take 2. Integrations that seemed impossible (like sending BIM data to a spreadsheet, then to Teams) were suddenly simple.

Automation isn’t just for techies anymore. With tools like n8n, anyone can build and run real workflows—saving hours, reducing errors, and focusing on what really matters.

Теги:
+2
Комментарии3

Repeater - планировщик для анализа данных, упрощенный Apache Airflow.

Repeater запускает задачи по расписанию. Задачи - последовательности консольных программ - описываются в toml-файлах. Запуски отображаются в веб-интерфейсе.

Пример задачи - запуск скриптов wiki_stats.py и wiki_pageviews.py импорта верхнеуровневой статистики Википедии в локальную базу.

title = "wiki"
cron = "0 55 * * * *"

[[tasks]]
name = "wiki_stats"
cmd = "python3 ./examples/wiki_stats.py"   

[[tasks]]
name = "wiki_pageviews"
cmd = "python3 ./examples/wiki_pageviews.py --end_date={{.scheduled_dt}}"

Бэкэнд написан на Go. Команды ниже запустят Докер-контейнер с сервисом и окружение для примеров:
- Repeater http://localhost:8080 - планировщик
- ClickHouse http://localhost:8123 и http://localhost:9000 - база данных
- ch-ui http://localhost:8001 - веб-интерфейс к базе данных
- Streamlit http://localhost:8002 - дашборды

git clone https://github.com/andrewbrdk/Repeater
cd Repeater
docker compose up --build

В примерах импорт количества просмотров страниц Википедии, курса биткоина, статистики репозитория Линукса на Гитхабе. Графики в Streamlit http://localhost:8002 .

Интересны применения проекта. Попробуйте! Впечатления пишите в комментариях. Спасибо!

Репозиторий: https://github.com/andrewbrdk/Repeater

Теги:
+1
Комментарии0

Хотите стать мастером регулярных выражений?

Тогда новый бесплатный курс — для вас!

Кто-то боится регулярных выражений, а потому избегает их. Кто-то пользуется этим инструментом и решает с его помощью сложные задачи. Мы подумали, что хорошо бы собрать полезные статьи по этой теме в одном месте и помочь читателям избавиться от «регекспофобии». Ну или, наоборот, усугубить ее — тут уж как получится.

В курсе разберем не только базовый синтаксис, но и осветим темы посложнее. Посмотрим даже, как можно комментировать регулярки в движках, которые не поддерживают такую функциональность. Уделим особое внимание работе с кириллицей. Все разбираем на примерах.

После изучения материалов вы сможете:

  • моментально извлекать данные из гигабайтов текста;

  • валидировать формы любой сложности;

  • правильно обрабатывать тексты на русском (никаких сломанных \b);

  • решать сложные задачи с помощью lookarounds и именованных групп;

  • повысить свой уровень в работе со скриптами и редакторами.

Все материалы бесплатные. Не требуется даже регистрация.

Начать обучение в Академии Selectel →

Теги:
+7
Комментарии0

Чем занимается команда Data Science в финтехе

Рассказывает Слава, инженер машинного обучения в ЮMoney.

У нас в компании много данных, которые можно обрабатывать, чтобы улучшать пользовательский опыт. Например, данные пользовательских обращений ЮKassa из разных каналов: чатов с техподдержкой, почты, звонков в колл-центр.

Мы передаём тексты из обращений модели, которую обучили относить их к определённому классу (подключение СБП, вопросы по возвратам, платёжным методам и т. д.). Постоянно появляются новые темы, поэтому приходится регулярно дополнительно обучать модель. Разбив все поступающие обращения по группам, можно оценить их количество и построить дашборд.  

Если по одной теме у нас пять тысяч обращений, по второй — десять тысяч, а по третьей — всего два, значит, нам нужно уделить особое внимание первым двум.

В классификаторе пользовательских обращений мы используем языковые модели типа BERT. Также развиваем использование больших языковых моделей (LLM). У них много знаний «из коробки», они не требуют дообучения и могут применяться для разных задач. Есть и недостатки (требовательность к вычислительным ресурсам или галлюцинации), но LLM способны выполнять задачи намного быстрее, чем человек.

Ещё одно интересное направление Data Science, которое мы тестируем, — распознавание изображений и классификация по категориям. Сейчас мы решаем эту задачу с помощью модели clip, но планируем проверить эффективность работы visual LLM, например Qwen-VL. Этот вид моделей анализирует изображение и даёт текстовое описание, которое можно использовать в продуктах, например при проверке сайтов, которые подключаются к ЮKassa.

Также LLM хорошо выполняет задачи написания саммари — например, по итогам проведённой встречи. Предварительно отдельная модель (у нас это Whisper) переводит аудио в текст, что сильно ускоряет работу коллег.

***

Делитесь в комментариях, есть ли команда Data Science в вашей компании и какие задачи она решает. 🙌 А также следите за нашими новыми материалами о том, как технологии меняют финтех изнутри. Впереди ещё много интересного!

Теги:
0
Комментарии0

Быстрая замена mypy на Rust'е: pyrefly

Еще одно видео про еще один новый тайпчекер для питона на расте! Много их нынче стало.

В видео:

  • Обсуждаем первую версию: pyre-check, обсудили taint analysis

  • Сравниваем pyrefly с ty и mypy

  • Смотрим на внутреннее устройство

  • Применяем на реальном проекте

Ключевые ссылки из выпуска:

Вывод: пока очень сырой, много багов, но быстрый. Ключевой вывод: отлично, что есть конкуренция.

Теги:
Всего голосов 7: ↑7 и ↓0+8
Комментарии1

Здесь кто-нибудь есть?

Давненько не было постов! Теперь посты будут выходить намного чаще, поэтому ждите интересный контент! Сегодня хочу с Вами поделиться своими наблюдениями по самым распространенным страхам при входе или же в начале карьеры в IT, а также конечно же расскажу, как с ними бороться!

Поехали!

Большие деньги - большая ответственность, я еще немного поучусь и можно ходить на собеседования

Самое частое заблуждение и страх - это то, что я не до конца изучил материал и мне рано идти на собеседования. IT действительно кажется сложной сферой, особенно на старте. Куча непонятных терминов, новые технологии, быстрая смена трендов. Главное — не пытаться сразу охватить всё. Дроби путь на маленькие шаги: сначала разберись в основах, потом усложняй задачи.

Признайте, что никто не знает всего, даже сеньоры постоянно гуглят и учатся. Учись радоваться прогрессу, пусть даже небольшому — это отличный способ победить страх перед сложностью. Я часто на работе вижу людей, которые знают намного меньше меня, но при этом зарабатывают больше денег. Думаете, что они думают про это?

Убейте в себе внутреннего "отличника", который хочет всё идеально знать. Начните действовать как можно раньше, ведь главный наш ресурс - это время. Если не начнете ходить по собеседованиям сейчас, то потом может стать поздно!

Я слишком стар/молод/у меня нет профильного образования

Это миф. В IT реально можно войти в любом возрасте и с любым бэкграундом. Большинство компаний смотрит на твои навыки и то, как ты решаешь задачи, а не на диплом. Например у меня еще ни разу не спрашивали про мой диплом и про моё образование, но при этом огромное кол-во людей верит в то, что реально нужен крутой бэкграунд, а не опыт. Важно показывать интерес к профессии, прокачивать навык прохождения собеседований, учиться продавать себя на рынке труда и тогда у Вас всё получится! Как говорил Олег Тинькофф: "Продай свои мозги дорого". Это очень хорошо описывает в целом текущее состояние рынка.

Я буду выглядеть глупо среди опытных коллег Это нормально — не знать и ошибаться, особенно в начале. Важно не бояться задавать вопросы. В IT очень развита культура поддержки: тебе скорее помогут, чем осудят. Воспринимай каждую ошибку как точку роста, а не как провал. Ведь наш опыт - это сумма всех наших ошибок. Думаете, что какой-то сеньор никогда не допускал ошибок?

Я не найду работу без опыта От каждого второго человека слышу это. Мол я не могу найти работу без опыта, всё дело в опыте! А потом я открываю его резюме и вижу, что там полная каша и оказывается, что дело не в опыте, а в резюме или же в чём-то другом. Не бойтесь искать любую возможность попробовать реальные проекты. На старте важно показывать свою мотивацию и учиться командной работе. Не стесняйся писать в компании напрямую, предлагать свою помощь за отзыв или за опыт — так много кто стартует.

Теперь дам общие советы, которые подойдут под любой Ваш страх. Но помните, что я Вам даю всего лишь отмычки, а Вы их уже сами подбираете под Ваши "проблемные" двери:

  • Разделяй путь на маленькие задачи и радуйся каждому шагу.

  • Найди ментора, чтобы не оставаться один на один с вопросами.

  • Веди дневник успехов — записывай даже маленькие победы.

  • Не сравнивай свой путь с другими, особенно в соцсетях — у каждого свой старт и темп.

  • Признай: страх — это нормально. Его испытывали все, кто сегодня работает в IT.

Понравился пост? Тогда переходите ко мне в телеграмм канал, там находится много полезного материала, для входа в IT!

Теги:
Всего голосов 6: ↑1 и ↓5-2
Комментарии4

В начале был датасет, и был он в уме дата-инженера, и имя ему было Хаос...

В мире машинного обучения термин «датасет» звучит примерно из каждого утюга, и даже если ваша сфера не ML, вы наверняка догадываетесь: это какой-то набор данных. Вот только какой именно — сильно зависит от задачи. Порой один датасет похож на другой примерно как кактус на ёлку: что-то зелёное и колется.

Часто в начале данных нет вовсе, и их приходится создавать вручную, искать в открытых источниках или генерировать синтетически, а иногда комбинировать подходы. Упорядочить хаос — задача не из лёгких, особенно если вы создаёте кастомный датасет под конкретную модель.

От чего зависит структура датасета? Если коротко: буквально от всего.

Поставленная задача, тип данных, структура, формат аннотаций, объём, качество, наличие разметчиков или доступа к "умным" моделям и даже количество «мусора» — всё это влияет на итоговую структуру. Например, даже для такой относительно несложной задачи, как обучение чатбота для покупок товаров, мы иногда работаем с:

  • Парами «вопрос–ответ». Такой вариант был хорош на раннем этапе разработки.

  • Триплетами (вопрос + хороший и плохой ответ, чтобы модель точно знала, что НЕ нужно отвечать) - такой формат хорошо заходит reasoning-моделям, когда мы ожидаем от модели более сложного поведения и умения задать вопрос, быстро "отсекающий" нерелевантный товар или неважные признаки.

Пользователь: хочу морковь

Ответ A: вам мытую или обычную?
Ответ B: скока вешать в граммах?

Предпочтение: ответ A

Примеры разных типов датасетов

📸 Computer Vision

Датасеты для задач компьютерного зрения. Картинки котиков, людей и машин (ImageNet) и (MS COCO). Учим ИИ отличать милую чихуахуа от маффина. Например, ImageNet содержит более 14 млн размеченных фотографий, а MS COCO — изображения с детальными аннотациями сцен.

🎵 Музыка и рекомендательные системы

Million Song Dataset — метаданные и фичи 1 млн треков.

Новый релиз от Яндекса — YAMBDA на Hugging Face, анонсирован в посте на Хабре. Это 500 млн взаимодействий с музыкальным контентом, включая признаки и флаги «рекомендовано/нет».

Чем он интересен:

  • Использует эмбеддинги вместо аудио

  • Подходит для обучения RecSys моделей в «индустриальных» условиях

  • Поддерживает архитектуры с input context (история прослушиваний)

🩺 Медицина

MIMIC-CXR — крупный публичный датасет рентгеновских снимков грудной клетки с диагнозами и метками. Один из главных бенчмарков в медицинском CV.

Проблемы: сложная лексика, разнообразие патологий, неполные аннотации. Такие датасеты часто требуют пост-обработки, аннотации врачами и серьёзного контроля качества.

📊 Табличные данные для задач логистической регрессии

UCI Adult — классика для бинарной классификации (доход >50K или нет). Здесь встречаются числовые и категориальные признаки. Часто используется для обучения простых моделей и feature engineering.

Именно такие данные лежат в основе скоринговых систем банков. Да-да, когда вы подаёте заявку на ипотеку, зачастую не человек, а модель принимает первичное решение на основе ваших параметров. ИИ тихо решает судьбу вашего жилья и кошелька.

🤖 Робототехника и сенсоры

KITTI Dataset — реальная дорожная обстановка с камеры, лидара и GPS. Используется в задачах:

  • Детекции объектов

  • 3D реконструкции

  • SLAM и навигации

Датасеты для роботов — одни из самых тяжёлых по объёму, синхронизации и сложности синтеза сигналов.

По мере развития технологий модели обретают мультивозможности, и датасеты тоже усложняются…А как же понять, какой датасет подойдёт именно для вашей задачи?

Готовясь к обучению модели, важно помнить: 80% успеха — это грамотный датасет, причём не только по составу данных, но и по их комбинации и оформлению, подходящий под задачу. Гонка за модными тенденциями или применение готовых шаблонов тут вряд ли помогут.

В следующих постах разберу:

  • Можно ли полностью нагенерировать диалоговые датасеты синтетически - умными моделями типа О3 без проверки человеком.

  • Остальные 20% успеха в обучении модели;) Это будет не совсем про ML.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Я Павел Денисенко, отвечаю за развитие дата-платформы в X5 Tech!

Редко публикую тут посты (никогда), но сейчас не могу не поделиться новость о том, что наша команда CDO X5 Tech впервые участвует в Data Fest — главном событии года для сообщества Open Data Science! 

В один из дней, 1 июня, мы принимаем фестиваль у нас в гостях, и это событие нельзя пропустить!

Наша программа будет насыщенной и интересной. Мы будем рады поделиться опытом X5 Tech с сообществом дата-экспертов. Наши эксперты поделятся докладами на самые актуальные темы в области инженерии данных и искусственного интеллекта. С участием признанных экспертов индустрии Data и ML в Retail мы поговорим о том, как данные меняют сферу ритейла и не только ее. 

Но это еще не всё! В нейтральных секциях мы также поговорим о таких темах, как Advanced LLM и ML in Music. Узнаем, как большие языковые модели находят применение в разных сферах и что происходит на стыке машинного обучения и творчества.

🌟 И, конечно, не обойдется без неформальной части: холиварные зоны для тех, кто точно знает, как правильно, и вечеринка после официальной части для самых стойких.

📍 Где и когда? 1 июня, Москва, Loft Hall. 

Data Fest 2025 — must visit для всех, кто интересуется работой с данными и хочет лучше понимать, как информационные технологии меняют бизнес и помогают в работе. Мест немного, так что успевайте зарегистрироваться по ссылке!

Не упустите шанс стать частью этого восхитительного события! Ждем вас!

Ссылка для регистрации

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Управляемые сервисы на базе YTsaurus и Apache Spark, новые возможности DataLens и Yandex Cloud AI Studio — о чём говорили на Data&ML2Business

Собрали самые интересные анонсы с Data&ML2Business, ежегодной конференции Yandex Cloud о практическом применении технологий. Вот что прозвучало на главном докладе 28 мая.

Трек Data

Ранний доступ к Yandex Managed Service for YTsaurus. Платформа Яндекса для хранения и обработки больших данных YTsaurus уже два года в опенсорсе, а с этого дня доступ к ней открывается ещё в двух форматах: в облаке и в инфраструктуре заказчика (on‑premise).

Создать базовый кластер YTsaurus теперь можно в привычной консоли
Создать базовый кластер YTsaurus теперь можно в привычной консоли

Для тестирования работы в этих форматах необходимо подать заявку.

Доступ к сервису Yandex Managed Service for Spark. Новый управляемый сервис на базе опенсорс-решения поможет с загрузкой и обработкой данных, а также задачами машинного обучения в облаке. Протестировать его в режиме Preview можно здесь.

Кроме этого, в публичный доступ вышел сервис управления распределённым аналитическим массивно‑параллельным движком обработки больших данных Trino в облачной инфраструктуре.

Обновления Yandex DataLens. Что появилось в сервисе BI‑аналитики:

  • DataLens Gallery — публичная витрина готовых примеров дашбордов. Теперь любой пользователь может открыть галерею, выбрать нужную отрасль или предметную область и изучить готовые дашборды и модели данных, а также стать автором галереи. При согласии автора дашборд из галереи можно развернуть у себя в качестве примера или стартового дашборда.

  • DataLens Editor — редактор для кастомизации графиков и таблиц с помощью JavaScript. Пользователи смогут создавать продвинутые визуализации и удобно интегрировать данные из нескольких источников (включая внешние API).

  • Собственная программа сертификации Yandex DataLens Certified Analyst. С её помощью специалисты могут официально подтвердить свои навыки работы с DataLens. На экзамене проверяются знания и навыки работы с чартами и датасетами, вычисляемыми полями и параметрами, внешними источниками данных, построения дашбордов и выдачи доступов.

Также на конференции рассказали про OLAP-движок для YDB. Теперь СУБД подходит для самых высоконагруженных сценариев. В последней версии YDB появился неточный векторный поиск, позволяющий использовать YDB для специализированных задач, связанных с ИИ.

Трек ML

Обновления RAG‑пайплайна в AI Assistant API. Доступный на платформе Yandex Cloud AI Studio инструмент для создания умных ассистентов дополнился новым графическим UI — теперь создать виртуального помощника можно не только через API или SDK. Возможности поиска данных по базам знаний также расширились: доступны поддержка новых типов данных (таблицы и pdf‑файлы), дообучение эмбедингов, обогащение чанков метаданными, получение метаданных ответа, а также использование дообученной модели. Также на платформе появился рефразер — отдельная модель, которая может перефразировать запросы пользователя.

Доступ к Yandex Cloud AI Studio on‑premise. AI‑платформа Yandex Cloud внесена в реестр отечественного ПО, что позволяет интегрировать решения как в облаке, так и в своей инфраструктуре.

Эксперты обсудили и уже состоявшиеся запуски: 

  • Инструменты работы с OpenAI Compatible API в облаке. API для языковых моделей в Yandex Cloud AI Studio совместим с OpenAI API. Благодаря этому модели YandexGPT проще интегрировать с популярными решениями для работы с ML, например, AutoGPT или LangChain. В совместимом с OpenAI API поддерживаются Function Calling, работа с эмбеддингами и Structured Output.

  • Смысловые теги Yandex SpeechSense — инструмент умного тегирования и поиска для анализа диалогов в колл‑центрах, доступный отдельно по клиенту и оператору.

  • Доступ к VLM и LLM в режиме Batch Processing и co‑pilot сервис для операторов Yandex Neurosupport — о которых мы рассказывали на Хабре.

На конференции более 20 спикеров представили 15 докладов по направлениям Data и ML. Подключайтесь к трансляции на странице мероприятия или смотрите в записи, чтобы познакомиться с опытом внедрения технологий.

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Заработать 150 000 рублей, просто порекомендовав хорошего специалиста?

Ozon Tech ищет опытных экспертов уровня senior+ в Data Science и готов заплатить 150 000 рублей за наводку.

Как это работает?

1. Вы рекомендуете знакомого (если сами не работаете в Ozon).

2. Его берут на работу, и он успешно проходит испытательный срок.

3. Вы получаете бонус — 150 тысяч рублей.

Важно, чтобы кандидат тоже не работал в Ozon и не проходил интервью как минимум последние 3 месяца. 
Количество рекомендаций не ограничено — чем больше хороших специалистов вы знаете, тем больше можно заработать. Только нельзя рекомендовать самого себя (но можно попросить друга вас порекомендовать 😏).

🔗 Подробнее о вакансиях и условиях.

А если хотите откликнуться на вакансии без участия в реферальной программе, заходите на наш карьерный портал:

Теги:
Всего голосов 3: ↑2 и ↓1+1
Комментарии2

Хранилище для данных или катастрофа на миллион строк? Видео-гайд по оптимизации запросов в Greenplum

Немного про нашу data-реальность в Сравни: мы используем Greenplum как аналитическую платформу для обработки терабайтов данных — пользовательских, продуктовых и маркетинговых. Это не просто хранилище, но один из основополагающих инструментов для команды DWH и аналитиков. 

О применении Greenplum на практике наш дата-инженер Владимир Шустиков выпустил трилогию обучающих видео. С их помощью можно ознакомиться с азами самой БД и узнать, как дата-инженеры Сравни переписывают запросы для более высокой эффективности.

Если интересуетесь в целом Greenplum и вопросом оптимизации запросов в частности — вот все три выпуска гайда!

1. Greenplum. Что такое и как работает?

Видео о сути и архитектуре GP, основных понятиях и возможностях (реплицирование сегментов, дистрибуция, партицирование, индексы, загрузка и выгрузка данных, оптимизация запросов).

2. Простая оптимизация запросов в GreenPlum (+ кейсы)

Автор отвечает на вопрос, как именно стоит оптимизировать запросы в GP и на что обращать внимание.

3. Кейс оптимизации запроса в GreenPlum 

Автор разбирает реальный кейс из практики Сравни, в котором применяются подходы и техники из видео №2.

Предыдущий видео-цикл Владимира, о самых распространенных вопросах на собеседованиях по SQL (с ответами!), доступен в этом посте.

Также ранее мы провели курс лекций в Бауманке: рассказали о техниках оптимизации аналитических SQL-запросов. Видео — здесь.

ТГ-канал инженерного сообщества Sravni Tech

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

AI-агенты в облаке: как они работают, зачем нужны — и как создать собственного

📅 13 мая | 18:00 (МСК) | Онлайн

На встрече поговорим о том, как устроены современные AI-агенты на базе LLM, какие архитектуры и инфраструктуры используются для их работы, и продемонстрируем создание агента в режиме live coding.

👨‍💻 Спикер — Михаил Дремин
Технический лидер Data Science-направления в Clоud.ru

🔍 В программе:
— Основы LLM-агентов и взаимодействие с внешним миром через инструменты (tools)
— Архитектурные подходы: Prompt chaining, ReAct, Evaluator-optimizer, ambient agents и другие
— Реальные кейсы использования
— Практическая часть: разработка собственного агента на Python (с использованием LangChain) и развертывание в облаке

💼 А также: представители компании расскажут о стажировке для студентов и молодых специалистов: какие направления доступны, как попасть в команду.

📌 Участие бесплатное

📎 Регистрация: https://mnlp.cc/mini?domain=digitalmipt&id=7

Теги:
Рейтинг0
Комментарии0
Бесплатный курс по ML
Бесплатный курс по ML

Мы подготовили мини-курс «Введение в машинное обучение»

За 5-7 часов погружения вы узнаете, что такое ML и как он трансформирует целые индустрии. Курс реализован в формате Телеграм-бота, что позволяет учиться в любое время.

Что вас ждет:
— Узнаете, что такое ML и как он меняет отрасли.
— Поймете, какие задачи решает машинное обучение.
— Рассмотрите ключевые алгоритмы и подходы, используемые на практике.
— Ознакомитесь с этапами подготовки данных — основой любой ML-модели.
— Пройдете тесты для закрепления полученных знаний.

Мини-курс станет вашей отправной точкой для начала изучения машинного обучения.

Получите моментальный доступ к курсу: https://mnlp.cc/mini?domain=digitalmipt&id=2&utm_source=habr

Теги:
Всего голосов 1: ↑1 и ↓0+2
Комментарии0

Ближайшие события

Приглашаем освоить одну из самых востребованных IT-специальностей!
Приглашаем освоить одну из самых востребованных IT-специальностей!

🎓Подача документов для поступления в магистратуру открыта!

Сегодня, 10 апреля, открылся прием документов на магистерскую программу «Науки о данных» в МФТИ.

📌 Если вы уже прошли консультацию с нашим менеджером приемной комиссии — самое время сделать следующий шаг.

Подавайте документы через официальный сайт приемной комиссии МФТИ . Вход в личный кабинет для подачи — в правом верхнем углу: «Заполнить анкету».

Время проверки документов — до 3 дней.

📌 Еще не получали консультации? Тогда оставьте заявку на странице программы — и в течение дня с вами свяжется специалист, чтобы помочь с подачей документов

Теги:
Рейтинг0
Комментарии0
Пройдите квиз и узнайте, какое направление Data Science выбрать
Пройдите квиз и узнайте, какое направление Data Science выбрать

🎓 Пройдите квиз и узнайте, какое направление Data Science вам подходит.

В онлайн-магистратуре «Науки о данных» доступны три профильных направления.
Чтобы выбрать подходящий трек, пройдите мини-квиз — он учитывает ваши интересы и бэкграунд.

🔹 ML Engineer
Создает и внедряет модели для обработки данных, изображений, видео и текстов — от прогнозирования оттока до диагностики по снимкам и разработки чат-ботов поддержки клиентов.

🔹 Data Analyst
Проектирует модели для анализа данных: сбор, очистка, визуализация, интерпретация данных. Например, создает дашборд для анализа продаж.

🔹 Data Engineer
Строит инфраструктуру для работы с большими данными: создает каналы и пайплайны для сбора, обработки и хранения данных.

💡 Профильные треки — это возможность получить дополнительные навыки и углубиться в одну из ключевых сфер работы с данными.

👉 Пройти кви: https://t.me/mipt_ds_spec_bot

Теги:
Рейтинг0
Комментарии0

Дайджест открытых мероприятий на май:

1️⃣ AI-агенты в облаке
🗓 13 мая, 18:00 по Мск, онлайн
Узнаем, как строятся AI-агенты, какие инфраструктуры стоят за их работой и какие возможности открывает стажировка в Cloud.ru.
🔗 Регистрация

2️⃣Вебинар от Московского инновационного кластера: «Защита и регистрация интеллектуальной собственности в России»
🗓 14 мая, 12:00 по Мск, онлайн
Практические советы о том, как защитить свои разработки и оформить права на них.
🔗 Регистрация

3️⃣MTS Startup Hub: как найти и реализовать идею для технологического проекта
🗓15 мая, 19:00 по Мск, онлайн
Как придумать идею для стартапа, пройти путь предпринимателя и найти ресурсы на развитие.
🔗 Регистрация

4️⃣ Т-Банк: образовательный кредит — как получить высшее образование с господдержкой
🗓 20 мая, 19:00 по Мск, онлайн
Разберем условия образовательного кредита, преимущества, оформление и действия в случае отказа.
🔗 Регистрация

5️⃣MTS Startup Hub: анализ единорогов как топливо для развития стартапов
🗓 22 мая, 19:00 по Мск, онлайн
Как изучение успешных стартапов помогает понять рынок, находить инновации и строить перспективные бизнес-модели.
🔗 Регистрация

6️⃣ Карьерный буст: как ускорить профессиональный рост
🗓 29 мая, 19:00 по Мск, онлайн
Поговорим о карьерных стратегиях, востребованных навыках и росте в новых реалиях.
🔗 Регистрация

7️⃣MTS Startup Hub: создание прототипов и MVP
🗓 29 мая, 19:00 по Мск, онлайн
Как быстро и эффективно протестировать идеи на практике.
🔗 Регистрация

8️⃣Экскурсия в Сбер
🗓 30 мая, 16:30 по Мск, онлайн
Смотрим, как работает один из самых технологичных банков страны изнутри.
🔗 Регистрация

Участие во всех мероприятиях - бесплатное. Регистрируйтесь по ссылкам выше, а также:

➡️ Скачайте брошюру о магистратуре «Науки о данных»
➡️ Проходите курс «Введение в машинное обучение»
➡️ Получите доступ к записи Дня открытых дверей онлайн-магистратуры «Науки о данных»

И успейте подать документы в магистратуру в мае, чтобы получить специальные бонусы. Выберите магистратуру и оставьте заявку по ссылке.

Теги:
Рейтинг0
Комментарии0

Начинаем вебинар по повышению производительности инфраструктуры

Привет, Хабр! В 12:00 по МСК проведем вебинар, где разберем, как эффективно использовать GPU в облаке для ML-проектов. Продакт-менеджер облачной платформы Selectel Антон Баранов расскажет, как оптимизировать производительность инфраструктуры и сократить расходы без потери качества. Присоединяйтесь!

Смотреть трансляцию:

на YouTube

в VK

Программа вебинара

  • Шесть способов сократить расходы на IT-инфраструктуру с GPU

  • Подбираем GPU под конкретную задачу. Разбор кейсов клиентов

  • Облако с GPU: обзор возможностей облачной платформы и доступных GPU-карт

  • Как выбрать подходящие карты в облаке и в MKS

  • Сокращаем сетевые задержки с помощью локальных SSD NVMe-дисков в облаке с GPU

  • Ответы на ваши вопросы

Кому будет полезно 

  • Техлидам и менеджерам ML-проектов: как выбрать оптимальную инфраструктуру.

  • Data-инженерам, MLOps-инженерам, DevOps-инженерам

  • Всем, кто работает с облачными ресурсами и хочет повысить ROI проектов.

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии0

Хабр, привет!

Завтра, 22 апреля, в 09:00 мск стартует ArenaDAY 2025 — крупнейшая конференция по управлению данными и аналитике. Мы понимаем, что в будний день не у всех получится включить видеотрансляцию, поэтому запускаем текстовую онлайн-трансляцию.

Вас ждёт:

  • Шесть тематических секций: «Бизнес-кейсы», «Продукты», «Гибридное хранилище», «Будущее», Data Governance и Investor Day; отдельная демозона с живыми показами решений и экосистемы Arenadata.

  • Кейсы от ВТБ, «Газпромнефти», МКБ, «Росатома», «Северстали», «МегаФона» и других лидеров.

  • Интерактивы и розыгрыши.

Сохраните этот пост в закладки — ровно в 09:00 здесь появится ссылка на текстовую трансляцию ArenaDAY. До встречи в онлайне!

 Ссылка на трансляцию: https://habr.com/ru/companies/arenadata/articles/902964/

Теги:
Рейтинг0
Комментарии0

Личный опыт использования Ubuntu как основной рабочей системы

В последнее время много постов про Linux в контексте использования в качестве рабочей системы, и так получилось, что мне не удалось установить Windows на свой рабочий компьютер, и я вспомнил про Ubuntu, на которой работал лет 15 назад.

Я Data Engineer, работаю удаленно, и у меня очень мало свободного времени, поэтому решаю задачи путем наименьшего сопротивления. То есть, если что-то не работает быстро, сразу перехожу на костыли или игнорирую по возможности.

Итак, Ubuntu 24.04.2 LTS установилась без вопросов на отдельный SSD. После установки я начал смотреть, какой софт для работы есть, а для какого софта нужен будет Wine или виртуальная машина с Windows. С удивлением обнаружил, что такого очень мало.

Железо и периферия работает исправно, включая Bluetooth-наушники с микрофоном.

Программы которые я использую:

  • Outlook Electron Client

  • Microsoft Teams (тоже Electron на базе Chromium)

  • Dbeaver + Azure Data Studio - для работы с базами данных

  • Postman + Bruno - всё что связанно с тестированием API

  • Libre Office - работает сносно

  • VS Code

  • Основной браузер Opera

  • Допольнительные браузеры (Firefox, Vivaldi, Brave, Chromium)

  • 1Password - хранилище паролей (рабочее)

  • Shutter для снимков экрана. Задача стояла в том, чтобы можно было сделать снимок области экрана и что-то нарисовать поверх, не включая отдельный редактор изображений.

  • Slack

  • Zoom

  • AnyDesk

  • draw.io для диаграм - работает плохо, но работает

  • battle.net который работает через Lutris, нормально запускает игры.

То что работает в виртульной машине на Windows

  • разные VPN - Forti/Checkpoint/Global Protect - даже если есть клиент под линукс, у клиентов в политиках безопасности стоит только подключения с Windows

  • Visual Studio + SQL Management Studio - в некоторых проектах используем SSAS (SQL Server Analysis Services) - под линукс не нашел как работать с ним

Не решенные проблемы

  • Переключение языков по Alt + Shift вызывает меню апликаций, закрываеться ещё одним нажатием на Alt.

  • Text Editor при перетаскивании с экрана на экран «плющит», буквально, потом через какое-то время отпускает

  • Иногда отваливаеться второй жесткий диск, лечиться перемонтированием

В общем я доволен, работает стабильно и шустро.

Конфигурация компьютера:

HP Z640 Workstation

  • Процессор - Intel® Xeon® E5-1630 v4 × 8

  • Память - 128 Gb

  • Графическая карта - NVIDIA GeForce GTX 760

  • Диски - система стоит на Samsung SSD 490 GB, дополнительный диск TOSHIBA 3 TB HDD

  • 3 экрана - 32" (FHD) + 27" (FHD) + 22" (2K)

  • tp-link AX3000 - WiFi + Bluetooth

  • Мышь - Logitech Lift Vertical Ergonomic

  • Клавиатура - Das Keyboard 3 Professional

  • Камера

  • Наушники с микрофоном - Logi Zone Vibe 100

Теги:
Всего голосов 5: ↑5 и ↓0+6
Комментарии5

Приключение Запроса в Царстве Данных: Как CATALIST Провёл SELECT через Опасности Оптимизации

Привет, друзья! С тех пор, как в моей жизни появился маленький человечек, я погрузился в мир сказок — читаю их каждый вечер. И вот подумал: а что, если оживить сухие технические термины через волшебные метафоры? Так родилась «Приключение SELECT в Царстве Данных» — история о том, как запрос проходит путь от строки кода до результата, встречая на пути оптимизаторов, шардинг-великанов и магию Catalyst’а.

О чём эта сказка?

  • Как CATALIST (наш рыцарь-оптимизатор) сражается с неэффективными планами.

  • Почему Shuffle — это бурная река, которую нельзя пересечь вброд.

  • Зачем Skew-великана нужно посыпать «солью».

Это не просто фантазия — под метафорами спрятаны реальные процессы Spark: парсинг, predicate pushdown, broadcast join и борьба с skew-данными.

1. Врата Валидации: "Ты ли ты?"
Запрос select id, name, s.salary from users u inner join salaries s where u.part_date = '2025-01-01' робко постучался в высокие врата Царства Данных. Стражник CATALIST в доспехах из кода Scala встретил его:
"Покажи свои намерения! Где твои таблицы? Совпадают ли имена колонок?"

SELECT дрожа протянул:
"Я ищу id, name из users и salary из salaries... И только за 2025-01-01!"

CATALIST раскрыл древний свиток Catalog:
— «users и salaries есть в хранилище. Но part_date… А, это партиция! Проходи, но держись пути — дальше Лес Логических Преобразований

Стражник толкнул тяжёлые врата, и запрос шагнул в густой лес, где деревья-операции сплетались в непролазные дебри.

2. Лес Логических Преобразований: "Сруби лишнее!"

Ветви операций JOIN и Filter обвивали тропу. CATALIST вынул топор Predicate Pushdown:
— «Фильтр по дате должен быть ближе к users! Зачем ждать JOIN?»

Удар! Дерево плана рухнуло, открыв путь:

TEXTJOIN  
  → Scan users (part_date = '2025-01-01')  // Фильтр переместился сюда!  
  → Scan salaries  

— «Теперь к Реке Shuffle! Но берегись — она бурная!»

Они вышли к бурлящей реке, где волны данных сталкивались в хаосе.

3. Река Shuffle: "Выбери правильный мост!"

— «Как перейти? — испугался SELECT. — Здесь же все утонем!»

CATALIST достал карту Статистики:
— «users после фильтра — 10 тыс. строк, salaries — миллион. Мост BroadcastJoin выдержит!»

Магический мост вспыхнул, соединив берега. Данные salaries превратились в светящиеся шары и разлетелись к исполнителям.

— «Вперёд, к Горам Физического Плана! Там рождается настоящая сила!»

За холмом возвышались остроконечные пики, где гномы-компиляторы ковали байт-код.

4. Горы Физического Плана: "Куй быстрее, куй умнее!"

В пещере Tungsten гномы кричали:
— «Никаких Java-объектов! Только примитивы!»

CATALIST бросил им логический план:
— «Превратите это в код! Да будет векторизация!»

Молоты застучали:

JAVAif (row.getDate(3) == 2025-01-01) {  // Фильтр по part_date  
  emit(row.getInt(0), row.getString(1));  // id и name  
}  

— «Теперь — в Долину Исполнения, где задачи становятся результатом!»

Они спустились в зелёную долину, где партиции данных складывались в аккуратные стопки.

5. Долина Исполнения: "Собери пазл!"

Исполнители в синих мантиях хватали партиции и кричали:
— «Task 1 готов! Task 2 завершён!»

Но вдруг из-за скалы выполз Skew-великан с мешком, где 90% данных висело на одном плече:
— «Не пройдёте! Разорву ваши партиции!»

CATALIST рассыпал волшебную Соль:
— «Пусть каждый ключ обретет случайный суффикс!»

Великан взревел и рассыпался на сотни мелких духов. Shuffle-река успокоилась.

6. Финал: "Свет знаний"

На краю долины ждал ResultTask с золотым свитком:
— «Данные собраны! Вот твой результат: /data/output/part-0000.snappy.parquet».

CATALIST кивнул:
— «Запомни: без Catalog — ты слеп, без оптимизаций — медлен, а без борьбы с skew — обречён!»

Мораль:
Даже самый простой запрос — это путешествие через:

  1. Валидацию (что ты есть?),

  2. Логические преобразования (как сократить путь?),

  3. Физический план (как сделать быстро?),

  4. Исполнение (как не утонуть в данных?).

🔗 Каждый этап связан: нельзя прыгнуть в реку Shuffle, не построив мост из физического Join, и не победить Skew-великана

Теги:
Всего голосов 1: ↑0 и ↓1-1
Комментарии0