Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

oneastok

17 часов назад4.1K

Блог компании SelectelСистемное администрирование*Программирование*Регулярные выражения*Data Engineering*

Хотите стать мастером регулярных выражений?

Тогда новый бесплатный курс — для вас!

Кто-то боится регулярных выражений, а потому избегает их. Кто-то пользуется этим инструментом и решает с его помощью сложные задачи. Мы подумали, что хорошо бы собрать полезные статьи по этой теме в одном месте и помочь читателям избавиться от «регекспофобии». Ну или, наоборот, усугубить ее — тут уж как получится.

В курсе разберем не только базовый синтаксис, но и осветим темы посложнее. Посмотрим даже, как можно комментировать регулярки в движках, которые не поддерживают такую функциональность. Уделим особое внимание работе с кириллицей. Все разбираем на примерах.

После изучения материалов вы сможете:

моментально извлекать данные из гигабайтов текста;
валидировать формы любой сложности;
правильно обрабатывать тексты на русском (никаких сломанных \b);
решать сложные задачи с помощью lookarounds и именованных групп;
повысить свой уровень в работе со скриптами и редакторами.

Все материалы бесплатные. Не требуется даже регистрация.

Начать обучение в Академии Selectel →

yooteam

30 июн в 18:576.8K

Блог компании ЮMoneyBig Data*Машинное обучение*Data Engineering*

Чем занимается команда Data Science в финтехе

Рассказывает Слава, инженер машинного обучения в ЮMoney.

У нас в компании много данных, которые можно обрабатывать, чтобы улучшать пользовательский опыт. Например, данные пользовательских обращений ЮKassa из разных каналов: чатов с техподдержкой, почты, звонков в колл-центр.

Мы передаём тексты из обращений модели, которую обучили относить их к определённому классу (подключение СБП, вопросы по возвратам, платёжным методам и т. д.). Постоянно появляются новые темы, поэтому приходится регулярно дополнительно обучать модель. Разбив все поступающие обращения по группам, можно оценить их количество и построить дашборд.

Если по одной теме у нас пять тысяч обращений, по второй — десять тысяч, а по третьей — всего два, значит, нам нужно уделить особое внимание первым двум.

В классификаторе пользовательских обращений мы используем языковые модели типа BERT. Также развиваем использование больших языковых моделей (LLM). У них много знаний «из коробки», они не требуют дообучения и могут применяться для разных задач. Есть и недостатки (требовательность к вычислительным ресурсам или галлюцинации), но LLM способны выполнять задачи намного быстрее, чем человек.

Ещё одно интересное направление Data Science, которое мы тестируем, — распознавание изображений и классификация по категориям. Сейчас мы решаем эту задачу с помощью модели clip, но планируем проверить эффективность работы visual LLM, например Qwen-VL. Этот вид моделей анализирует изображение и даёт текстовое описание, которое можно использовать в продуктах, например при проверке сайтов, которые подключаются к ЮKassa.

Также LLM хорошо выполняет задачи написания саммари — например, по итогам проведённой встречи. Предварительно отдельная модель (у нас это Whisper) переводит аудио в текст, что сильно ускоряет работу коллег.

***

Делитесь в комментариях, есть ли команда Data Science в вашей компании и какие задачи она решает. 🙌 А также следите за нашими новыми материалами о том, как технологии меняют финтех изнутри. Впереди ещё много интересного!

sobolevn

16 июн в 14:267.6K

Веб-разработка*Python*Rust*Data Engineering*

Быстрая замена mypy на Rust'е: pyrefly

Еще одно видео про еще один новый тайпчекер для питона на расте! Много их нынче стало.

В видео:

Обсуждаем первую версию: pyre-check, обсудили taint analysis
Сравниваем pyrefly с ty и mypy
Смотрим на внутреннее устройство
Применяем на реальном проекте

Ключевые ссылки из выпуска:

Доклад о pyrefly на PyCon: https://youtu.be/ZTSZ1OCUaeQ?si=s_DPOOzsdeTk5Uqo
pyrefly vs ty: https://blog.edward-li.com/tech/comparing-pyrefly-vs-ty (сильно советую!)

Вывод: пока очень сырой, много багов, но быстрый. Ключевой вывод: отлично, что есть конкуренция.

denzceo

8 июн в 11:185.8K

Data Mining*Agile*Data Engineering*

Здесь кто-нибудь есть?

Давненько не было постов! Теперь посты будут выходить намного чаще, поэтому ждите интересный контент! Сегодня хочу с Вами поделиться своими наблюдениями по самым распространенным страхам при входе или же в начале карьеры в IT, а также конечно же расскажу, как с ними бороться!

Поехали!

Большие деньги - большая ответственность, я еще немного поучусь и можно ходить на собеседования

Самое частое заблуждение и страх - это то, что я не до конца изучил материал и мне рано идти на собеседования. IT действительно кажется сложной сферой, особенно на старте. Куча непонятных терминов, новые технологии, быстрая смена трендов. Главное — не пытаться сразу охватить всё. Дроби путь на маленькие шаги: сначала разберись в основах, потом усложняй задачи.

Признайте, что никто не знает всего, даже сеньоры постоянно гуглят и учатся. Учись радоваться прогрессу, пусть даже небольшому — это отличный способ победить страх перед сложностью. Я часто на работе вижу людей, которые знают намного меньше меня, но при этом зарабатывают больше денег. Думаете, что они думают про это?

Убейте в себе внутреннего "отличника", который хочет всё идеально знать. Начните действовать как можно раньше, ведь главный наш ресурс - это время. Если не начнете ходить по собеседованиям сейчас, то потом может стать поздно!

Я слишком стар/молод/у меня нет профильного образования

Это миф. В IT реально можно войти в любом возрасте и с любым бэкграундом. Большинство компаний смотрит на твои навыки и то, как ты решаешь задачи, а не на диплом. Например у меня еще ни разу не спрашивали про мой диплом и про моё образование, но при этом огромное кол-во людей верит в то, что реально нужен крутой бэкграунд, а не опыт. Важно показывать интерес к профессии, прокачивать навык прохождения собеседований, учиться продавать себя на рынке труда и тогда у Вас всё получится! Как говорил Олег Тинькофф: "Продай свои мозги дорого". Это очень хорошо описывает в целом текущее состояние рынка.

Я буду выглядеть глупо среди опытных коллег Это нормально — не знать и ошибаться, особенно в начале. Важно не бояться задавать вопросы. В IT очень развита культура поддержки: тебе скорее помогут, чем осудят. Воспринимай каждую ошибку как точку роста, а не как провал. Ведь наш опыт - это сумма всех наших ошибок. Думаете, что какой-то сеньор никогда не допускал ошибок?

Я не найду работу без опыта От каждого второго человека слышу это. Мол я не могу найти работу без опыта, всё дело в опыте! А потом я открываю его резюме и вижу, что там полная каша и оказывается, что дело не в опыте, а в резюме или же в чём-то другом. Не бойтесь искать любую возможность попробовать реальные проекты. На старте важно показывать свою мотивацию и учиться командной работе. Не стесняйся писать в компании напрямую, предлагать свою помощь за отзыв или за опыт — так много кто стартует.

Теперь дам общие советы, которые подойдут под любой Ваш страх. Но помните, что я Вам даю всего лишь отмычки, а Вы их уже сами подбираете под Ваши "проблемные" двери:

Разделяй путь на маленькие задачи и радуйся каждому шагу.
Найди ментора, чтобы не оставаться один на один с вопросами.
Веди дневник успехов — записывай даже маленькие победы.
Не сравнивай свой путь с другими, особенно в соцсетях — у каждого свой старт и темп.
Признай: страх — это нормально. Его испытывали все, кто сегодня работает в IT.

Понравился пост? Тогда переходите ко мне в телеграмм канал, там находится много полезного материала, для входа в IT!

-2

JuliaEfimka

5 июн в 16:498.9K

Data Mining*Data Engineering*

В начале был датасет, и был он в уме дата-инженера, и имя ему было Хаос...

В мире машинного обучения термин «датасет» звучит примерно из каждого утюга, и даже если ваша сфера не ML, вы наверняка догадываетесь: это какой-то набор данных. Вот только какой именно — сильно зависит от задачи. Порой один датасет похож на другой примерно как кактус на ёлку: что-то зелёное и колется.

Часто в начале данных нет вовсе, и их приходится создавать вручную, искать в открытых источниках или генерировать синтетически, а иногда комбинировать подходы. Упорядочить хаос — задача не из лёгких, особенно если вы создаёте кастомный датасет под конкретную модель.

От чего зависит структура датасета? Если коротко: буквально от всего.

Поставленная задача, тип данных, структура, формат аннотаций, объём, качество, наличие разметчиков или доступа к "умным" моделям и даже количество «мусора» — всё это влияет на итоговую структуру. Например, даже для такой относительно несложной задачи, как обучение чатбота для покупок товаров, мы иногда работаем с:

Парами «вопрос–ответ». Такой вариант был хорош на раннем этапе разработки.
Триплетами (вопрос + хороший и плохой ответ, чтобы модель точно знала, что НЕ нужно отвечать) - такой формат хорошо заходит reasoning-моделям, когда мы ожидаем от модели более сложного поведения и умения задать вопрос, быстро "отсекающий" нерелевантный товар или неважные признаки.

Пользователь: хочу морковь

Ответ A: вам мытую или обычную?
Ответ B: скока вешать в граммах?

Предпочтение: ответ A

Примеры разных типов датасетов

📸 Computer Vision

Датасеты для задач компьютерного зрения. Картинки котиков, людей и машин (ImageNet) и (MS COCO). Учим ИИ отличать милую чихуахуа от маффина. Например, ImageNet содержит более 14 млн размеченных фотографий, а MS COCO — изображения с детальными аннотациями сцен.

🎵 Музыка и рекомендательные системы

Million Song Dataset — метаданные и фичи 1 млн треков.

Новый релиз от Яндекса — YAMBDA на Hugging Face, анонсирован в посте на Хабре. Это 500 млн взаимодействий с музыкальным контентом, включая признаки и флаги «рекомендовано/нет».

Чем он интересен:

Использует эмбеддинги вместо аудио
Подходит для обучения RecSys моделей в «индустриальных» условиях
Поддерживает архитектуры с input context (история прослушиваний)

🩺 Медицина

MIMIC-CXR — крупный публичный датасет рентгеновских снимков грудной клетки с диагнозами и метками. Один из главных бенчмарков в медицинском CV.

Проблемы: сложная лексика, разнообразие патологий, неполные аннотации. Такие датасеты часто требуют пост-обработки, аннотации врачами и серьёзного контроля качества.

📊 Табличные данные для задач логистической регрессии

UCI Adult — классика для бинарной классификации (доход >50K или нет). Здесь встречаются числовые и категориальные признаки. Часто используется для обучения простых моделей и feature engineering.

Именно такие данные лежат в основе скоринговых систем банков. Да-да, когда вы подаёте заявку на ипотеку, зачастую не человек, а модель принимает первичное решение на основе ваших параметров. ИИ тихо решает судьбу вашего жилья и кошелька.

🤖 Робототехника и сенсоры

KITTI Dataset — реальная дорожная обстановка с камеры, лидара и GPS. Используется в задачах:

Детекции объектов
3D реконструкции
SLAM и навигации

Датасеты для роботов — одни из самых тяжёлых по объёму, синхронизации и сложности синтеза сигналов.

По мере развития технологий модели обретают мультивозможности, и датасеты тоже усложняются…А как же понять, какой датасет подойдёт именно для вашей задачи?

Готовясь к обучению модели, важно помнить: 80% успеха — это грамотный датасет, причём не только по составу данных, но и по их комбинации и оформлению, подходящий под задачу. Гонка за модными тенденциями или применение готовых шаблонов тут вряд ли помогут.

В следующих постах разберу:

Можно ли полностью нагенерировать диалоговые датасеты синтетически - умными моделями типа О3 без проверки человеком.
Остальные 20% успеха в обучении модели;) Это будет не совсем про ML.

kolxo3nick

29 мая в 16:296.4K

Блог компании X5 TechBig Data*Машинное обучение*КонференцииData Engineering*

Я Павел Денисенко, отвечаю за развитие дата-платформы в X5 Tech!

Редко публикую тут посты (никогда), но сейчас не могу не поделиться новость о том, что наша команда CDO X5 Tech впервые участвует в Data Fest — главном событии года для сообщества Open Data Science!

В один из дней, 1 июня, мы принимаем фестиваль у нас в гостях, и это событие нельзя пропустить!

Наша программа будет насыщенной и интересной. Мы будем рады поделиться опытом X5 Tech с сообществом дата-экспертов. Наши эксперты поделятся докладами на самые актуальные темы в области инженерии данных и искусственного интеллекта. С участием признанных экспертов индустрии Data и ML в Retail мы поговорим о том, как данные меняют сферу ритейла и не только ее.

Но это еще не всё! В нейтральных секциях мы также поговорим о таких темах, как Advanced LLM и ML in Music. Узнаем, как большие языковые модели находят применение в разных сферах и что происходит на стыке машинного обучения и творчества.

🌟 И, конечно, не обойдется без неформальной части: холиварные зоны для тех, кто точно знает, как правильно, и вечеринка после официальной части для самых стойких.

📍 Где и когда? 1 июня, Москва, Loft Hall.

Data Fest 2025 — must visit для всех, кто интересуется работой с данными и хочет лучше понимать, как информационные технологии меняют бизнес и помогают в работе. Мест немного, так что успевайте зарегистрироваться по ссылке!

Не упустите шанс стать частью этого восхитительного события! Ждем вас!

Ссылка для регистрации

SomeEditor

28 мая в 12:014.5K

Блог компании Yandex Cloud & Yandex InfrastructureBig Data*Машинное обучение*Искусственный интеллектData Engineering*

Управляемые сервисы на базе YTsaurus и Apache Spark, новые возможности DataLens и Yandex Cloud AI Studio — о чём говорили на Data&ML2Business

Собрали самые интересные анонсы с Data&ML2Business, ежегодной конференции Yandex Cloud о практическом применении технологий. Вот что прозвучало на главном докладе 28 мая.

Трек Data

Ранний доступ к Yandex Managed Service for YTsaurus. Платформа Яндекса для хранения и обработки больших данных YTsaurus уже два года в опенсорсе, а с этого дня доступ к ней открывается ещё в двух форматах: в облаке и в инфраструктуре заказчика (on‑premise).

Создать базовый кластер YTsaurus теперь можно в привычной консоли

Для тестирования работы в этих форматах необходимо подать заявку.

Доступ к сервису Yandex Managed Service for Spark. Новый управляемый сервис на базе опенсорс-решения поможет с загрузкой и обработкой данных, а также задачами машинного обучения в облаке. Протестировать его в режиме Preview можно здесь.

Кроме этого, в публичный доступ вышел сервис управления распределённым аналитическим массивно‑параллельным движком обработки больших данных Trino в облачной инфраструктуре.

Обновления Yandex DataLens. Что появилось в сервисе BI‑аналитики:

DataLens Gallery — публичная витрина готовых примеров дашбордов. Теперь любой пользователь может открыть галерею, выбрать нужную отрасль или предметную область и изучить готовые дашборды и модели данных, а также стать автором галереи. При согласии автора дашборд из галереи можно развернуть у себя в качестве примера или стартового дашборда.
DataLens Editor — редактор для кастомизации графиков и таблиц с помощью JavaScript. Пользователи смогут создавать продвинутые визуализации и удобно интегрировать данные из нескольких источников (включая внешние API).
Собственная программа сертификации Yandex DataLens Certified Analyst. С её помощью специалисты могут официально подтвердить свои навыки работы с DataLens. На экзамене проверяются знания и навыки работы с чартами и датасетами, вычисляемыми полями и параметрами, внешними источниками данных, построения дашбордов и выдачи доступов.

Также на конференции рассказали про OLAP-движок для YDB. Теперь СУБД подходит для самых высоконагруженных сценариев. В последней версии YDB появился неточный векторный поиск, позволяющий использовать YDB для специализированных задач, связанных с ИИ.

Трек ML

Обновления RAG‑пайплайна в AI Assistant API. Доступный на платформе Yandex Cloud AI Studio инструмент для создания умных ассистентов дополнился новым графическим UI — теперь создать виртуального помощника можно не только через API или SDK. Возможности поиска данных по базам знаний также расширились: доступны поддержка новых типов данных (таблицы и pdf‑файлы), дообучение эмбедингов, обогащение чанков метаданными, получение метаданных ответа, а также использование дообученной модели. Также на платформе появился рефразер — отдельная модель, которая может перефразировать запросы пользователя.

Доступ к Yandex Cloud AI Studio on‑premise. AI‑платформа Yandex Cloud внесена в реестр отечественного ПО, что позволяет интегрировать решения как в облаке, так и в своей инфраструктуре.

Эксперты обсудили и уже состоявшиеся запуски:

Инструменты работы с OpenAI Compatible API в облаке. API для языковых моделей в Yandex Cloud AI Studio совместим с OpenAI API. Благодаря этому модели YandexGPT проще интегрировать с популярными решениями для работы с ML, например, AutoGPT или LangChain. В совместимом с OpenAI API поддерживаются Function Calling, работа с эмбеддингами и Structured Output.
Смысловые теги Yandex SpeechSense — инструмент умного тегирования и поиска для анализа диалогов в колл‑центрах, доступный отдельно по клиенту и оператору.
Доступ к VLM и LLM в режиме Batch Processing и co‑pilot сервис для операторов Yandex Neurosupport — о которых мы рассказывали на Хабре.

На конференции более 20 спикеров представили 15 докладов по направлениям Data и ML. Подключайтесь к трансляции на странице мероприятия или смотрите в записи, чтобы познакомиться с опытом внедрения технологий.

lina_slisarenko

28 мая в 11:524.5K

Блог компании Ozon TechМатематика*Карьера в IT-индустрииData Engineering*

Заработать 150 000 рублей, просто порекомендовав хорошего специалиста?

Ozon Tech ищет опытных экспертов уровня senior+ в Data Science и готов заплатить 150 000 рублей за наводку.

Как это работает?

1. Вы рекомендуете знакомого (если сами не работаете в Ozon).

2. Его берут на работу, и он успешно проходит испытательный срок.

3. Вы получаете бонус — 150 тысяч рублей.

Важно, чтобы кандидат тоже не работал в Ozon и не проходил интервью как минимум последние 3 месяца.
Количество рекомендаций не ограничено — чем больше хороших специалистов вы знаете, тем больше можно заработать. Только нельзя рекомендовать самого себя (но можно попросить друга вас порекомендовать 😏).

🔗 Подробнее о вакансиях и условиях.

А если хотите откликнуться на вакансии без участия в реферальной программе, заходите на наш карьерный портал:

Старший Data Scientist, Рекламный аукцион и управление ставками
Data Scientist, Рекомендации и персонализация
Старший Data Scientist, Факторы ранжирования

Sravni_Tech

21 мая в 13:255.3K

Блог компании СравниХранение данных*Data Engineering*

Хранилище для данных или катастрофа на миллион строк? Видео-гайд по оптимизации запросов в Greenplum

Немного про нашу data-реальность в Сравни: мы используем Greenplum как аналитическую платформу для обработки терабайтов данных — пользовательских, продуктовых и маркетинговых. Это не просто хранилище, но один из основополагающих инструментов для команды DWH и аналитиков.

О применении Greenplum на практике наш дата-инженер Владимир Шустиков выпустил трилогию обучающих видео. С их помощью можно ознакомиться с азами самой БД и узнать, как дата-инженеры Сравни переписывают запросы для более высокой эффективности.

Если интересуетесь в целом Greenplum и вопросом оптимизации запросов в частности — вот все три выпуска гайда!

1. Greenplum. Что такое и как работает?

Видео о сути и архитектуре GP, основных понятиях и возможностях (реплицирование сегментов, дистрибуция, партицирование, индексы, загрузка и выгрузка данных, оптимизация запросов).

2. Простая оптимизация запросов в GreenPlum (+ кейсы)

Автор отвечает на вопрос, как именно стоит оптимизировать запросы в GP и на что обращать внимание.

3. Кейс оптимизации запроса в GreenPlum

Автор разбирает реальный кейс из практики Сравни, в котором применяются подходы и техники из видео №2.

Предыдущий видео-цикл Владимира, о самых распространенных вопросах на собеседованиях по SQL (с ответами!), доступен в этом посте.

Также ранее мы провели курс лекций в Бауманке: рассказали о техниках оптимизации аналитических SQL-запросов. Видео — здесь.

✅ТГ-канал инженерного сообщества Sravni Tech

mipt_digital

10 мая в 12:187.7K

Big Data*Машинное обучение*Data Engineering*

AI-агенты в облаке: как они работают, зачем нужны — и как создать собственного

📅 13 мая | 18:00 (МСК) | Онлайн

На встрече поговорим о том, как устроены современные AI-агенты на базе LLM, какие архитектуры и инфраструктуры используются для их работы, и продемонстрируем создание агента в режиме live coding.

👨‍💻 Спикер — Михаил Дремин
Технический лидер Data Science-направления в Clоud.ru

🔍 В программе:
— Основы LLM-агентов и взаимодействие с внешним миром через инструменты (tools)
— Архитектурные подходы: Prompt chaining, ReAct, Evaluator-optimizer, ambient agents и другие
— Реальные кейсы использования
— Практическая часть: разработка собственного агента на Python (с использованием LangChain) и развертывание в облаке

💼 А также: представители компании расскажут о стажировке для студентов и молодых специалистов: какие направления доступны, как попасть в команду.

📌 Участие бесплатное

📎 Регистрация: https://mnlp.cc/mini?domain=digitalmipt&id=7

mipt_digital

6 мая в 12:287.1K

HabrBig Data*Искусственный интеллектData Engineering*

Мы подготовили мини-курс «Введение в машинное обучение»

За 5-7 часов погружения вы узнаете, что такое ML и как он трансформирует целые индустрии. Курс реализован в формате Телеграм-бота, что позволяет учиться в любое время.

Что вас ждет:
— Узнаете, что такое ML и как он меняет отрасли.
— Поймете, какие задачи решает машинное обучение.
— Рассмотрите ключевые алгоритмы и подходы, используемые на практике.
— Ознакомитесь с этапами подготовки данных — основой любой ML-модели.
— Пройдете тесты для закрепления полученных знаний.

Мини-курс станет вашей отправной точкой для начала изучения машинного обучения.

Получите моментальный доступ к курсу: https://mnlp.cc/mini?domain=digitalmipt&id=2&utm_source=habr

mipt_digital

6 мая в 12:256.4K

Big Data*Искусственный интеллектData Engineering*

Приглашаем освоить одну из самых востребованных IT-специальностей!

🎓Подача документов для поступления в магистратуру открыта!

Сегодня, 10 апреля, открылся прием документов на магистерскую программу «Науки о данных» в МФТИ.

📌 Если вы уже прошли консультацию с нашим менеджером приемной комиссии — самое время сделать следующий шаг.

Подавайте документы через официальный сайт приемной комиссии МФТИ . Вход в личный кабинет для подачи — в правом верхнем углу: «Заполнить анкету».

Время проверки документов — до 3 дней.

📌 Еще не получали консультации? Тогда оставьте заявку на странице программы — и в течение дня с вами свяжется специалист, чтобы помочь с подачей документов

mipt_digital

6 мая в 12:185.7K

Big Data*Машинное обучение*Искусственный интеллектData Engineering*

Пройдите квиз и узнайте, какое направление Data Science выбрать

🎓 Пройдите квиз и узнайте, какое направление Data Science вам подходит.

В онлайн-магистратуре «Науки о данных» доступны три профильных направления.
Чтобы выбрать подходящий трек, пройдите мини-квиз — он учитывает ваши интересы и бэкграунд.

🔹 ML Engineer
Создает и внедряет модели для обработки данных, изображений, видео и текстов — от прогнозирования оттока до диагностики по снимкам и разработки чат-ботов поддержки клиентов.

🔹 Data Analyst
Проектирует модели для анализа данных: сбор, очистка, визуализация, интерпретация данных. Например, создает дашборд для анализа продаж.

🔹 Data Engineer
Строит инфраструктуру для работы с большими данными: создает каналы и пайплайны для сбора, обработки и хранения данных.

💡 Профильные треки — это возможность получить дополнительные навыки и углубиться в одну из ключевых сфер работы с данными.

👉 Пройти кви: https://t.me/mipt_ds_spec_bot

mipt_digital

6 мая в 12:105.8K

HabrBig Data*DevOps*Искусственный интеллектData Engineering*

Дайджест открытых мероприятий на май:

1️⃣ AI-агенты в облаке
🗓 13 мая, 18:00 по Мск, онлайн
Узнаем, как строятся AI-агенты, какие инфраструктуры стоят за их работой и какие возможности открывает стажировка в Cloud.ru.
🔗 Регистрация

2️⃣Вебинар от Московского инновационного кластера: «Защита и регистрация интеллектуальной собственности в России»
🗓 14 мая, 12:00 по Мск, онлайн
Практические советы о том, как защитить свои разработки и оформить права на них.
🔗 Регистрация

3️⃣MTS Startup Hub: как найти и реализовать идею для технологического проекта
🗓15 мая, 19:00 по Мск, онлайн
Как придумать идею для стартапа, пройти путь предпринимателя и найти ресурсы на развитие.
🔗 Регистрация

4️⃣ Т-Банк: образовательный кредит — как получить высшее образование с господдержкой
🗓 20 мая, 19:00 по Мск, онлайн
Разберем условия образовательного кредита, преимущества, оформление и действия в случае отказа.
🔗 Регистрация

5️⃣MTS Startup Hub: анализ единорогов как топливо для развития стартапов
🗓 22 мая, 19:00 по Мск, онлайн
Как изучение успешных стартапов помогает понять рынок, находить инновации и строить перспективные бизнес-модели.
🔗 Регистрация

6️⃣ Карьерный буст: как ускорить профессиональный рост
🗓 29 мая, 19:00 по Мск, онлайн
Поговорим о карьерных стратегиях, востребованных навыках и росте в новых реалиях.
🔗 Регистрация

7️⃣MTS Startup Hub: создание прототипов и MVP
🗓 29 мая, 19:00 по Мск, онлайн
Как быстро и эффективно протестировать идеи на практике.
🔗 Регистрация

8️⃣Экскурсия в Сбер
🗓 30 мая, 16:30 по Мск, онлайн
Смотрим, как работает один из самых технологичных банков страны изнутри.
🔗 Регистрация

Участие во всех мероприятиях - бесплатное. Регистрируйтесь по ссылкам выше, а также:

➡️ Скачайте брошюру о магистратуре «Науки о данных»
➡️ Проходите курс «Введение в машинное обучение»
➡️ Получите доступ к записи Дня открытых дверей онлайн-магистратуры «Науки о данных»

И успейте подать документы в магистратуру в мае, чтобы получить специальные бонусы. Выберите магистратуру и оставьте заявку по ссылке.

techno_mot

23 апр в 08:175.5K

Блог компании SelectelМашинное обучение*КонференцииDevOps*Data Engineering*

Начинаем вебинар по повышению производительности инфраструктуры

Привет, Хабр! В 12:00 по МСК проведем вебинар, где разберем, как эффективно использовать GPU в облаке для ML-проектов. Продакт-менеджер облачной платформы Selectel Антон Баранов расскажет, как оптимизировать производительность инфраструктуры и сократить расходы без потери качества. Присоединяйтесь!

Смотреть трансляцию:

на YouTube

в VK

Программа вебинара

Шесть способов сократить расходы на IT-инфраструктуру с GPU
Подбираем GPU под конкретную задачу. Разбор кейсов клиентов
Облако с GPU: обзор возможностей облачной платформы и доступных GPU-карт
Как выбрать подходящие карты в облаке и в MKS
Сокращаем сетевые задержки с помощью локальных SSD NVMe-дисков в облаке с GPU
Ответы на ваши вопросы

Кому будет полезно

Техлидам и менеджерам ML-проектов: как выбрать оптимальную инфраструктуру.
Data-инженерам, MLOps-инженерам, DevOps-инженерам
Всем, кто работает с облачными ресурсами и хочет повысить ROI проектов.

Arenadata

21 апр в 08:005.5K

Блог компании ArenadataБазы данных*Big Data*КонференцииData Engineering*

Хабр, привет!

Завтра, 22 апреля, в 09:00 мск стартует ArenaDAY 2025 — крупнейшая конференция по управлению данными и аналитике. Мы понимаем, что в будний день не у всех получится включить видеотрансляцию, поэтому запускаем текстовую онлайн-трансляцию.

Вас ждёт:

Шесть тематических секций: «Бизнес-кейсы», «Продукты», «Гибридное хранилище», «Будущее», Data Governance и Investor Day; отдельная демозона с живыми показами решений и экосистемы Arenadata.
Кейсы от ВТБ, «Газпромнефти», МКБ, «Росатома», «Северстали», «МегаФона» и других лидеров.
Интерактивы и розыгрыши.

Сохраните этот пост в закладки — ровно в 09:00 здесь появится ссылка на текстовую трансляцию ArenaDAY. До встречи в онлайне!

Ссылка на трансляцию: https://habr.com/ru/companies/arenadata/articles/902964/

levge

16 апр в 09:255.8K

*nix*Data Engineering*

Личный опыт использования Ubuntu как основной рабочей системы

В последнее время много постов про Linux в контексте использования в качестве рабочей системы, и так получилось, что мне не удалось установить Windows на свой рабочий компьютер, и я вспомнил про Ubuntu, на которой работал лет 15 назад.

Я Data Engineer, работаю удаленно, и у меня очень мало свободного времени, поэтому решаю задачи путем наименьшего сопротивления. То есть, если что-то не работает быстро, сразу перехожу на костыли или игнорирую по возможности.

Итак, Ubuntu 24.04.2 LTS установилась без вопросов на отдельный SSD. После установки я начал смотреть, какой софт для работы есть, а для какого софта нужен будет Wine или виртуальная машина с Windows. С удивлением обнаружил, что такого очень мало.

Железо и периферия работает исправно, включая Bluetooth-наушники с микрофоном.

Программы которые я использую:

Outlook Electron Client
Microsoft Teams (тоже Electron на базе Chromium)
Dbeaver + Azure Data Studio - для работы с базами данных
Postman + Bruno - всё что связанно с тестированием API
Libre Office - работает сносно
VS Code
Основной браузер Opera
Допольнительные браузеры (Firefox, Vivaldi, Brave, Chromium)
1Password - хранилище паролей (рабочее)
Shutter для снимков экрана. Задача стояла в том, чтобы можно было сделать снимок области экрана и что-то нарисовать поверх, не включая отдельный редактор изображений.
Slack
Zoom
AnyDesk
draw.io для диаграм - работает плохо, но работает
battle.net который работает через Lutris, нормально запускает игры.

То что работает в виртульной машине на Windows

разные VPN - Forti/Checkpoint/Global Protect - даже если есть клиент под линукс, у клиентов в политиках безопасности стоит только подключения с Windows
Visual Studio + SQL Management Studio - в некоторых проектах используем SSAS (SQL Server Analysis Services) - под линукс не нашел как работать с ним

Не решенные проблемы

Переключение языков по Alt + Shift вызывает меню апликаций, закрываеться ещё одним нажатием на Alt.
Text Editor при перетаскивании с экрана на экран «плющит», буквально, потом через какое-то время отпускает
Иногда отваливаеться второй жесткий диск, лечиться перемонтированием

В общем я доволен, работает стабильно и шустро.

Конфигурация компьютера:

HP Z640 Workstation

Процессор - Intel® Xeon® E5-1630 v4 × 8
Память - 128 Gb
Графическая карта - NVIDIA GeForce GTX 760
Диски - система стоит на Samsung SSD 490 GB, дополнительный диск TOSHIBA 3 TB HDD
3 экрана - 32" (FHD) + 27" (FHD) + 22" (2K)
tp-link AX3000 - WiFi + Bluetooth
Мышь - Logitech Lift Vertical Ergonomic
Клавиатура - Das Keyboard 3 Professional
Камера
Наушники с микрофоном - Logi Zone Vibe 100

confident_action

15 апр в 05:005.1K

Big Data*Data Engineering*

Приключение Запроса в Царстве Данных: Как CATALIST Провёл SELECT через Опасности Оптимизации

Привет, друзья! С тех пор, как в моей жизни появился маленький человечек, я погрузился в мир сказок — читаю их каждый вечер. И вот подумал: а что, если оживить сухие технические термины через волшебные метафоры? Так родилась «Приключение SELECT в Царстве Данных» — история о том, как запрос проходит путь от строки кода до результата, встречая на пути оптимизаторов, шардинг-великанов и магию Catalyst’а.

О чём эта сказка?

Как CATALIST (наш рыцарь-оптимизатор) сражается с неэффективными планами.
Почему Shuffle — это бурная река, которую нельзя пересечь вброд.
Зачем Skew-великана нужно посыпать «солью».

Это не просто фантазия — под метафорами спрятаны реальные процессы Spark: парсинг, predicate pushdown, broadcast join и борьба с skew-данными.

1. Врата Валидации: "Ты ли ты?"
Запрос select id, name, s.salary from users u inner join salaries s where u.part_date = '2025-01-01' робко постучался в высокие врата Царства Данных. Стражник CATALIST в доспехах из кода Scala встретил его:
— "Покажи свои намерения! Где твои таблицы? Совпадают ли имена колонок?"

SELECT дрожа протянул:
— "Я ищу id, name из users и salary из salaries... И только за 2025-01-01!"

CATALIST раскрыл древний свиток Catalog:
— «users и salaries есть в хранилище. Но part_date… А, это партиция! Проходи, но держись пути — дальше Лес Логических Преобразований!»

Стражник толкнул тяжёлые врата, и запрос шагнул в густой лес, где деревья-операции сплетались в непролазные дебри.

2. Лес Логических Преобразований: "Сруби лишнее!"

Ветви операций JOIN и Filter обвивали тропу. CATALIST вынул топор Predicate Pushdown:
— «Фильтр по дате должен быть ближе к users! Зачем ждать JOIN?»

Удар! Дерево плана рухнуло, открыв путь:

TEXTJOIN  
  → Scan users (part_date = '2025-01-01')  // Фильтр переместился сюда!  
  → Scan salaries

— «Теперь к Реке Shuffle! Но берегись — она бурная!»

Они вышли к бурлящей реке, где волны данных сталкивались в хаосе.

3. Река Shuffle: "Выбери правильный мост!"

— «Как перейти? — испугался SELECT. — Здесь же все утонем!»

CATALIST достал карту Статистики:
— «users после фильтра — 10 тыс. строк, salaries — миллион. Мост BroadcastJoin выдержит!»

Магический мост вспыхнул, соединив берега. Данные salaries превратились в светящиеся шары и разлетелись к исполнителям.

— «Вперёд, к Горам Физического Плана! Там рождается настоящая сила!»

За холмом возвышались остроконечные пики, где гномы-компиляторы ковали байт-код.

4. Горы Физического Плана: "Куй быстрее, куй умнее!"

В пещере Tungsten гномы кричали:
— «Никаких Java-объектов! Только примитивы!»

CATALIST бросил им логический план:
— «Превратите это в код! Да будет векторизация!»

Молоты застучали:

JAVAif (row.getDate(3) == 2025-01-01) {  // Фильтр по part_date  
  emit(row.getInt(0), row.getString(1));  // id и name  
}

— «Теперь — в Долину Исполнения, где задачи становятся результатом!»

Они спустились в зелёную долину, где партиции данных складывались в аккуратные стопки.

5. Долина Исполнения: "Собери пазл!"

Исполнители в синих мантиях хватали партиции и кричали:
— «Task 1 готов! Task 2 завершён!»

Но вдруг из-за скалы выполз Skew-великан с мешком, где 90% данных висело на одном плече:
— «Не пройдёте! Разорву ваши партиции!»

CATALIST рассыпал волшебную Соль:
— «Пусть каждый ключ обретет случайный суффикс!»

Великан взревел и рассыпался на сотни мелких духов. Shuffle-река успокоилась.

6. Финал: "Свет знаний"

На краю долины ждал ResultTask с золотым свитком:
— «Данные собраны! Вот твой результат: /data/output/part-0000.snappy.parquet».

CATALIST кивнул:
— «Запомни: без Catalog — ты слеп, без оптимизаций — медлен, а без борьбы с skew — обречён!»

Мораль:
Даже самый простой запрос — это путешествие через:

Валидацию (что ты есть?),
Логические преобразования (как сократить путь?),
Физический план (как сделать быстро?),
Исполнение (как не утонуть в данных?).

🔗 Каждый этап связан: нельзя прыгнуть в реку Shuffle, не построив мост из физического Join, и не победить Skew-великана

-1

veta_pf

4 апр в 11:575.1K

Блог компании Cloud.ruIT-инфраструктура*Data Mining*Облачные сервисы*Data Engineering*

Продолжаем делиться темами докладов конференции GoCloud 2025 ☁️

В первой части выступления мы напомним, что такое дата-платформа, зачем она нужна и из каких сервисов состоит. А еще расскажем про новые фичи и что у нас в планах.
Ася Грибанова — руководитель направления разработки Evolution Data Platform в Cloud.ru

Во второй части доклада расскажем, что такое BI-система и как она помогает бизнесу в визуализации данных. За несколько простых шагов создадим инстанс Managed BI и покажем, как визуализировать данные, подключать источники и гибко настраивать дашборды. А еще на реальном кейсе разберем, как построить аналитику.
Константин Добратулин — старший python-разработчик BI в Cloud.ru

Трек: Инфраструктура и сервисы — про новые и популярные инструменты платформы Cloud.ru Evolution и то, как они помогают в решении задач.

📅 Когда: 10 апреля в 13:55 мск

👉 Зарегистрироваться

Какие еще темы мы подготовили для вас на GoCloud, смотрите в программе конференции.

Sravni_Tech

26 мар в 12:084.9K

Блог компании СравниIT-компанииData Engineering*

Основы дата-инженерии. Готовим данные для анализа с помощью ETL (видеозапись доклада)

В декабре 2024 наш Lead Analytics Engineer Даниил Джепаров выступил на вебинаре компании Simulative, где рассказал об основах дата-инженерии.

Ключевые вопросы в рамках доклада:

📌Основы ETL (Extract, Transform, Load)
📌Различия между пакетной и потоковой обработкой данных
📌Важность документации в data-проектах
📌Основные метрики качества данных
📌Лучшие практики мониторинга ETL-процессов

Материал будет полезен дата-аналитикам и инженерам уровней junior и middle, желающим научиться строить качественные потоки данных.

Запись доступна здесь:

✅VK
✅YouTube
✅RUTUBE

Смотрите и делитесь ссылкой!

2 3

Data Engineering *

Ближайшие события

Вклад авторов