Обновить
86.49

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга

РосНОУ вошёл в Университетский консорциум исследователей больших данных

Время на прочтение3 мин
Количество просмотров173

30-31 октября в Казани, в IT-парке им. Башира Рамеева, прошёл VII Форум «Открытые данные». Это главное событие года объединяет Минцифры России, Минобрнауки России, вузы и все организации, связанные с IT-сферой.

В рамках этого мероприятия состоялось подписание ряда соглашений вузов, готовящих специалистов для отрасли, с главным организатором – Университетским консорциумом исследователей больших данных.

Читать далее

Новости

10 бесплатных курсов для начинающего аналитика

Время на прочтение5 мин
Количество просмотров3.6K

Каждый день мы что-то считаем и сравниваем: ищем цены выгоднее, выбираем удобный маршрут, думаем, как уложиться в бюджет или быстрее справиться с задачей. Это и есть маленькие аналитические задачи, которые каждый из нас решает на автомате. 

Привычный процесс анализа может стать основой для новой профессии. Чтобы попробовать себя в аналитике, выбирайте бесплатный курс или занятие из нашей подборки.

Читать далее

Oracle 26ai уже в песочнице! Тестируйте новые функции без установки

Время на прочтение1 мин
Количество просмотров1.1K

Мы рады объявить об очередном обновлении на платформе sqlize.online: наш онлайн-песочница теперь полностью поддерживает последнюю версию Oracle Database 26ai!

Читать далее

Вебинар: Расширяем возможности DBT для Greenplum и ClickHouse

Время на прочтение1 мин
Количество просмотров428

Приглашаем на вебинар о доработках DBT для более удобной работы с Greenplum и ClickHouse. На вебинаре поделимся своим опытом, покажем работу open-source адаптера, ответим на вопросы.

Тема вебинара: Расширяем возможности DBT для Greenplum и ClickHouse

Дата: 22 октября 2025

Время: 11 Мск

Регистрация

Повестка:

- Предпосылки создания коннектора к DBT

- Функционал коннектора

- Стратегии загрузки в Greenplum и ClickHouse

- Оркестрация моделей в Airflow

- Демо работы

Что получить запись, зарегистрируйтесь на вебинар.

Узнать больше о вебинаре

Новости из мира ML: очередные крупные сделки и трещины в хайпе GenAI

Время на прочтение1 мин
Количество просмотров615

Рассказываем, что происходило с ML-технологиями в сентябре: кто кого купил, чем занимались крупнейшие игроки и куда все движется.

Читать далее

Приготовили DS-инженерам Weekend Offer

Время на прочтение1 мин
Количество просмотров3K

Привет, Хабр! Мы в AvitoTech готовим Weekend Offer для DS-инженеров. Это такое мероприятие, на котором можно быстро и без изматывающих собеседований устроиться на работу. Все подробности и регистрация — под катом.

Читать далее

10 бесплатных онлайн-курсов и занятий, которые стоит пройти в октябре

Время на прочтение5 мин
Количество просмотров5.6K

Для купальников уже поздно, для пуховиков ещё рано, а для новых знаний — самое время. Собрали подборку бесплатных курсов, которые можно проходить в удобном для себя темпе. Но начать лучше уже сегодня 😉

Читать далее

В PostgreSQL появилась встроенная функция генерации UUIDv7 для первичных ключей

Время на прочтение4 мин
Количество просмотров2.7K

В конце сентября 2025 года вышла СУБД PostgreSQL 18. Она получила долгожданную встроенную функцию uuidv7(). Функция uuidv7() генерирует согласно международному стандарту RFC 9562 идентификаторы типа UUID версии 7 (UUIDv7) с бинарным типом данных uuid, рекомендованные и используемые в качестве первичных ключей. При необходимости таймстемп с часовым поясом может быть извлечен из них с помощью функции uuid_extract_timestamp().

UUIDv7 сочетает в себе глобальную уникальность первичных ключей, пренебрежимо малую вероятность коллизий (недопустимых случайных совпадений) и упорядоченность по моменту времени генерации. При этом не используются централизованная координация вычислений и MAC-адреса. Риск коллизий не выше, чем у прежде самого популярного (случайного) типа UUID версии 4.

Благодаря упорядоченности по моменту времени генерации UUIDv7 обеспечивают гораздо большую производительность и меньшее потребление дискового пространства для индексов по сравнению с UUIDv4. Старшие биты идентификаторов UUIDv7 могут использоваться в качестве ключа секционирования (partition key).

UUIDv7 обеспечивают такую же производительность CRUD-операций БД, как при использовании автоинкремента (типа serial и его современного аналога GENERATED ... AS IDENTITY). Время генерации идентификатора UUIDv7 приблизительно в тысячу раз меньше времени вставки записи, поэтому темп генерации UUIDv7 не влияет на производительность БД.

Использование UUIDv7 позволяет избавиться от фундаментальных недостатков автоинкремента:

Читать далее

Приглашаем на вебинар «Управление данными и построение интеграций с помощью ИИ в одном интерфейсе»

Время на прочтение1 мин
Количество просмотров238

Данные – это ценный актив любой компании. Эффективное использование и своего рода «жонглирование» данными является ключом к достижению прибыльности. Однако головная боль практически каждой компании – это стоимость развития и поддержки многообразия интеграционных взаимодействий между ИТ-системами.

На вебинаре 1 октября в 11:00 эксперты платформы USEBUS AI-Code поделятся опытом настройки интеграций между приложениями, в том числе с помощью ИИ, расскажут, как превратить хаос данных в управляемый актив, а также продемонстрируют возможности платформы USEBUS AI-Code.

О чем поговорим:

Читать далее

Что случилось в мире ML: Gen AI в яме, NVIDIA выкатывает CUDA Toolkit и другие новости

Время на прочтение2 мин
Количество просмотров1K

С ML-технологиями постоянно что-то происходит, но на чтение всех новостей не хватит жизни. Чтобы вы не пропустили ничего важного, мы составили дайджест самых громких обновлений.

Читать далее

Как внедрить ИИ в бизнес: итоги конференции DUC-Medlex

Время на прочтение6 мин
Количество просмотров1K

В эпоху цифровой трансформации искусственный интеллект и data-driven решения становятся ключевыми стратегическими активами компаний по всему миру.

First DUC-Medlex Conference on AI & Data, организованная российской IT-компанией DUC Technologies и Medlex Holding Company из Саудовской Аравии, стала площадкой для обсуждения актуальных вопросов внедрения AI, архитектурных и инфраструктурных решений, а также трансформации информационных систем предприятий.

Читать далее

10 бесплатных онлайн-курсов и занятий, которые стоит пройти в августе

Время на прочтение4 мин
Количество просмотров15K

В мечтах уплывать за синее море или начать действовать? Для тех, кто за второй вариант, собрали бесплатные курсы августа.

Читать далее

Запустил ClickHouse на sqlize.online! Теперь можно практиковаться без установки

Время на прочтение1 мин
Количество просмотров1.7K

Всем привет, ребята!

У нас для вас супер-новости: наконец-то мы добавили в нашу песочницу ClickHouse!

Читать далее

Ближайшие события

Selectel запустил ML Impact — ресурс о том, как использовать ML для бизнеса

Время на прочтение1 мин
Количество просмотров404

Многие проекты, связанные с ML, тормозятся совсем не потому, что технологию сложно внедрить. Часто всему виной становится непонимание между командами: у технических специалистов не получается убедительно донести пользу ML, а у бизнеса — задать правильные вопросы. Чтобы разрешить это непонимание, мы запустили ML Impact.

Все подробности — под катом.

Читать далее

Яндекс Практикум запустил курс «Обработка естественного языка — NLP»

Время на прочтение1 мин
Количество просмотров1K

Обучение длится 2 месяца и подойдёт специалистам по Data Science, разработчикам, DL- и ML-инженерам. 

На курсе будет упор на актуальные задачи: NER, генерацию, машинный перевод, QA‑системы. Вас ждёт пошаговое погружение в передовые LLM и разбор задач с точки зрения production-ready решений. Научитесь оценивать качество моделей (BLEU, chrF, ROUGE, Perplexity), работать с поиском (от Elasticsearch и BM25 до RAG) и адаптировать большие языковые модели под конкретные бизнес‑задачи.

А ещё сделаете 4 проекта, получите на них подробный фидбек от опытных инженеров — и пополните портфолио.

Больше о курсе

Больше, чем Lakehouse. Как мы создали новую платформу данных

Время на прочтение1 мин
Количество просмотров1.3K

Обработка данных — это дорого, сложно и медленно. Данные хранятся в разных системах, пайплайны ломаются, качество страдает, а TCO растёт.

13 августа онлайн расскажем, как с этим справляется новая платформа MWS Data. Это cloud native решение для хранения и обработки данных. В основе — архитектура Lakehouse, но мы не ограничились ею. Мы объединили лучшие практики и добавили инструменты для ETL, Data Governance и BI.

Читать далее

Дайджест мероприятий на июль

Время на прочтение1 мин
Количество просмотров335

❗️На все мероприятия требуется предварительная регистрация.

Как писать мотивационное письмо

🗓 10 июля 🕛 18:00 (Мск)

Вы узнаете, зачем нужно мотивационное письмо при поступлении в вуз, какую роль оно играет и почему процесс его написания полезен студенту больше, чем вузу.

➡️ Зарегистрироваться

День открытых дверей магистратуры «Науки о данных» Центра «Пуск» в МФТИ

🗓 17 июля 🕛 19:00 (Мск)

Вы узнаете о том, как начать карьеру в сфере Data Science, и сможете задать все интересующие вопросы о поступлении.

➡️ Зарегистрироваться

Воркшоп «Постройте первый дашборд — от данных до инсайтов» (Data Analytics)

🗓 22 июля 🕛 18:00 (Мск)

Практический воркшоп по созданию дашборда от обработки данных до получения аналитических инсайтов.

➡️ Зарегистрироваться

Воркшоп по разработке ИИ-бота на RAG

🗓 24 июля 🕛 18:00 (Мск)

Разработка ИИ-ассистента на основе RAG-подхода для навигации по локальной базе знаний.

➡️ Зарегистрироваться

Почему Data Scientist — будущая профессия и как получить диплом онлайн от МФТИ

🗓 29 июля 🕛 18:00 (Мск)

Обсуждение формата онлайн-магистратуры МФТИ, востребованности Data Science и возможностей дистанционного обучения, кейсы студентов, интервью с выпускниками.

➡️ Зарегистрироваться

День открытых дверей магистратуры «Науки о данных» Центра «Пуск» в МФТИ

🗓 31 июля 🕛 19:00 (Мск)

Вы узнаете о том, как начать карьеру в сфере Data Science, и сможете задать все интересующие вопросы о поступлении.

➡️ Зарегистрироваться

📍У некоторых мероприятий дата и время могут быть скорректированы. Мы сообщим заранее, если такое произойдет

Читать далее

Selectel выпустил бесплатный курс по регулярным выражениям

Время на прочтение2 мин
Количество просмотров6K

Знакомо чувство, когда смотрите на регулярное выражение и видите то ли заклинание на эльфийском, то ли шум в матрице? А ведь одна строка кода может либо спасти день, либо добавить еще одну проблему.

Хватит это терпеть! Теперь есть практический курс, который поможет справиться с «регекспофобией». Мы подготовили серию из четырех статей и практических заданий. От самых азов до профессиональных техник. Все упражнения — реальные кейсы с подробными объяснениями.
Читать дальше →

10 бесплатных онлайн-курсов и занятий, которые стоит пройти в июле

Время на прочтение4 мин
Количество просмотров5.5K

Не обязательно нырять в изучение новых навыков с головой. Можно сначала намочить ноги, поплавать у берега, а потом дрейфовать по карьерным волнам в комфортном для себя темпе 🏄🏻‍♂️

Выбрать нужное направление, чтобы углубиться в профессию, помогут бесплатные лекции, мастер-классы и открытые занятия. А если поделиться подборкой с коллегами, можно вместе сделать карьерный заплыв 🌊 Ловите традиционную подборку бесплатных курсов месяца.

Читать далее

Митап MTC Web Services в Москве: инструменты работы с данными

Время на прочтение1 мин
Количество просмотров461

3 июля на митапе мы расскажем, какие технологии помогут бизнесу получать качественные и доступные данные без большого штата дата-инженеров.

Вы узнаете о запуске нового направления — MWS Data. Мы поделимся инструментами для работы с данными, которые успешно используем в МТС. Эти инструменты помогут решать различные бизнес-задачи: от обучения ИИ до аналитики в e-commerce и создания отчётов.

Читать далее
1
23 ...