Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

@PhoenixLi 8 часов назад

От ClickHouse к StarRocks с разделением хранения и вычислений: практический апгрейд архитектуры UBT в Trip

Сложный

8 мин

3.7K

Big Data * Data Engineering * Базы данных * Open source *

Кейс

This is a hands-on case study of migrating Trip’s UBT from ClickHouse to StarRocks with storage–compute separation. By redesigning partitioning, enabling DataCache and MergeCommit, and backfilling history via SparkLoad, we reduced average query latency from 1.4 s to 203 ms, P95 to 800 ms, cut storage from 2.6 PB to 1.2 PB, and decreased node count from 50 to 40. We detail Compaction tuning, partitioned materialized views, and second‑level elastic scaling without data migration, and compare gohangout vs. Flink in reliability and operability. The article targets data engineers and architects running high‑load real‑time OLAP workloads.

Читать далее

0

@PhoenixLi 9 часов назад

StarRocks 4.0: FlatJSON — делаем запросы к JSON столь же эффективными, как к колоночному хранению

Средний

11 мин

4K

Big Data * Data Engineering * Open source * DevOps *

Туториал

Статья объясняет, как StarRocks 4.0 делает запросы к JSON почти столь же быстрыми, как к нативным столбцам. FlatJSON на этапе загрузки «колоннизирует» частые поля и задействует индексы (включая ZoneMap), словарное кодирование и Global Dictionary, а также Late Materialization. В результате логовая, e‑commerce и IoT‑аналитика работает в реальном времени без тяжёлого ETL.

Читать далее

+3

@PhoenixLi 12 часов назад

StarRocks 4.0: Real-Time Intelligence on Lakehouse

Простой

5 мин

3.7K

DevOps * Data Engineering * Open source * Big Data *

Обзор

StarRocks 4.0: Real‑Time Intelligence on Lakehouse. Сквозная оптимизация конвейера в реальном времени, 3–15× ускорение JSON, SQL Plan Manager, Decimal256 и поддержка Apache Iceberg для нативной Lakehouse‑аналитики.

Читать далее

0

@fivelife 15 часов назад

Как я осознал, что не умею кодить

Простой

4 мин

17K

Big Data * Data Engineering * Анализ и проектирование систем * Искусственный интеллектАлгоритмы *

Мнение

Вчера мой скрипт завис. Процессор горел на 100%. Я убил процесс.

Я Senior Developer с 10 годами опыта. Пишу на Python, знаю Java и много модных фреймворков. Но в этот момент я понял: я не умею программировать. Точнее, я умею использовать инструменты. Но я не понимаю природу вычислений.

Эта статья — о том, как одна математическая задача изменила моё понимание разработки.

И почему через пару лет, когда ИИ будет писать весь код за меня, это понимание станет единственным, что меня спасёт.

Возможно, и тебя тоже.

Читать далее

+58

@timofey_melnikov 22 часа назад

Аналитика телеметрии автосимулятора Assetto Corsa

Средний

8 мин

7.9K

C# * HTML * Data Engineering * Data Mining *

Кейс

На SOC Forum у нас стоял гоночный симулятор Assetto Corsa — и мы решили сделать его не просто развлечением, а полноценным источником аналитики.

Мы подключились к Shared Memory игры, собрали данные в реальном времени, построили дашборды и придумали ачивки.

Рассказываю, как устроена телеметрия AC, как собрать её в режиме реального времени и зачем всё это понадобилось.

Читать далее

+2

@linabesson вчера в 13:00

Архитектура дефицита: почему SOMA необходима для AGI

Средний

2 мин

4.8K

Data Engineering *

Обзор

Недавно мои коллеги-разрабы в чате удивились: зачем в архитектуре агента (ENA) нужен слой SOMA, симулирующий соматику и ресурсность? Мол, это рудимент как аппендицит и неэффективно. Агент должен быть в always-on и постоянно на позитиве.

Давайте разберем, зачем.

Читать далее

0

@DiamondJinxx 2 дек в 08:52

От CSV к дашбордам: гибкая отчетность на Postgres, Airflow и Superset

Средний

14 мин

4.4K

Блог компании Группа АстраАнализ и проектирование систем * Data Engineering * Python * Apache *

Кейс

Привет, Хабр! Я Дмитрий Смотров, тружусь бэкендером в Astra Linux в команде продукта ACM — микросервисной системе, разворачиваемой на клиентских мощностях. Мы позволяем удаленно управлять клиентской инфраструктурой. Сначала я разрабатывал функциональность снятия инвентаризации и удаленного выполнения команд установки и удаления ПО, но в один момент моя жизнь резко изменилась. На проекте возникла необходимость в функциональности красивой и настраиваемой отчетности, в чем я увидел возможность проверить себя в новой для себя области. Я вызвался разобраться и помочь продукту стать еще лучше.

Под катом расскажу о том, с какими трудностями столкнулся в процессе, как я их решал и что в итоге получилось. Приятного чтения :-)

Читать далее

+1

@anepochatykh 2 дек в 06:00

Как мы строили хранилище на 70 ПБ данных и не планируем останавливаться

Средний

7 мин

6.2K

Блог компании СберBig Data * Data Engineering *

Кейс

Привет, сегодня я расскажу о том, как наша команда строила платформу обработки и хранения данных для обучения GenAI-моделей в Сбере, и как мы выросли до 70 ПБ сырых данных. Меня зовут Александр, я работаю в Сбере и два года занимался развитием этой платформы.

Читать далее

+10

@kobubu 1 дек в 07:26

Инвест Гусь: телеграм-бот (Open-source) для прогноза стоимости акций и криптовалют

Средний

5 мин

5.8K

Big Data * Python * Data Engineering * Финансы в ITOpen source *

Кейс

Мамкин инвестор знает, что если ежедневно ловить сигналы от мощных трейдеров, то скоро карманы будут набиты звенящей цифровой монетой. Но чтобы стать богаче всякого, в эпоху ИИ нужно нечно большее, чем какой-то сигнал. Нужно чтобы был карманный генератор сигналов по всем возможным активам.

+1

@alyonayurchenko 30 ноя в 12:18

Цифровая тень

7 мин

7.4K

Информационная безопасность * Криптография * Data Engineering * DevOps * Беспроводные технологии *

Recovery Mode

Как защитить свои данные и психику в сети

Отложи на минуту телефон. Взгляни на экран. Там — твои переписки с близкими, банковские уведомления, личные фото, история поисковых запросов. Вся твоя жизнь в цифровом срезе. 30 ноября, в Международный день защиты информации, самое время спросить: а что, если этот срез может увидеть кто-то чужой?

Читать далее

-1

@python_leader 30 ноя в 08:00

Почему Python — не лучший язык для data science. Часть 1 — опыт разработчика и исследователя

Простой

8 мин

14K

Программирование * Python * R * Data Engineering *

Мнение

Перевод

Команда Python for Devs подготовила перевод статьи Клауса Вилке о том, почему Python, несмотря на статус языка №1 в data science, вовсе не идеален для анализа данных. Автор показывает на реальных примерах из лабораторной практики, что многие операции в Python оказываются куда более громоздкими, чем в R, — и это не вина программистов, а архитектурные особенности инструментов.

Читать далее

+5

@andrew_109443 28 ноя в 09:38

Как автоматизировать загрузку данных в DWH и не сойти с ума

Простой

5 мин

7K

Блог компании GRIData Engineering * Хранение данных *

Кейс

Привет! Меня зовут Андрей, я Data Engineer в компании GRI. Мы занимаемся заказной разработкой, и один из наших ключевых клиентов — Sunlight. Я расскажу, как не тратить время на рутину в процессах и автоматизировать всё, что только можно. Это будет особенно актуально тем, кто в компании solo Data Engineer.

Читать далее

+2

@Dalee_group 28 ноя в 08:14

Переход на event-driven интеграции — создаем устойчивую архитектуру с гарантией доставки

Средний

8 мин

5.3K

Data Engineering *

Обзор

Все больше компаний переходят от синхронных интеграций к событийным или гибридным. Причина в том, что бизнесу нужно реагировать быстрее — на заказы, транзакции, действия пользователей.

Привет, я Саид Джабаров, системный аналитик в Далее. Сегодня расскажу и покажу на артефактах, как построить event-driven систему с гарантией доставки и прозрачным мониторингом. Так, чтобы она действительно помогала бизнесу, а не усложняла его.

Читать далее

+1

@PhoenixLi 27 ноя в 10:54

Понимание и практические эксперименты с Tablet в StarRocks

Средний

17 мин

4.5K

Data Engineering * Big Data * Open source *

Туториал

внутренняя структура, репликации и балансировка, бакетизация и партиционирование, восстановление и MVCC, загрузка данных (Stream Load). Разбираем типичные сценарии и даём рекомендации для Data Engineers и DBAs.

Читать далее

0

@alexhu 27 ноя в 05:42

Часть 2. Иван Оселедец с докладом «Успехи и проблемы больших языковых моделей»

Простой

9 мин

4.8K

Data Engineering * Data Mining * Инженерные системы * Искусственный интеллект

Перевод

Первая часть - https://habr.com/ru/articles/970614/

Но это отдельная история. Когда ты пытаешься решить сложную задачу, ты придумываешь, как языковая модель становится из самой цели сделать модель побольше, становится инструментом для создания мультиагентной системы. И на самом деле тут много новых инструментов появляется, как раз связанных с тем, что необходимо действительно писать достаточно сложный код. И в мае этого года вышла статья Alpha Evolve от компании DeepMind, которая показала, что большая языковая модель может на самом деле сама писать код и решать задачи, если ты можешь проверить решение этой задачи.

То есть много задач, ты можешь проверить, что решение правильное, например, решить какое-нибудь уравнение, но найти само решение сложно.

Или, например, ты хочешь построить, даже в самом простейшем случае, написать какой-то промп, который хорошо помогает решить тебе конкретную задачу. Ты можешь, написав этот промп, запустить систему, получить ответ и проверить, получить метрику на бенчмарке, но как написать сам промп, непонятно. И, собственно, вот эти эволюционные алгоритмы – это для очень ленивых людей, таких как я. Ты просто даешь ей постановку задачи, просишь написать решение, она пишет какое-то решение, ты проверяешь это решение и просишь переписать это решение еще раз.

Дальше применяешь достаточно хитрые подходы, связанные с эволюционными алгоритмами, где фактически в качестве оператора мутации выступает большая языковая модель. У нее есть опыт предыдущий, память. в виде программы результатов, есть некоторые инсайты, что она придумала, и ее задача состоит в том, чтобы эти инсайты, соответственно, объединять в новые программы. Собственно, первый автор статьи «Альфа Эволф» Саша Новиков – это мой аспирант, который уехал довольно давно, но тем не менее очень много не менее талантливых людей работают в институте.

Читать далее

0

@alexhu 26 ноя в 16:43

Иван Оселедец с докладом «Успехи и проблемы больших языковых моделей»

Простой

7 мин

6.8K

Data Engineering * Data Mining * Инженерные системы * Искусственный интеллект

Перевод

Я распечатал доклад, стараясь не поломать авторскую речь и мысль. Но всё таки доклад не читался, а произносился по памяти и слайдам, поэтому несколько слов убрал или заменил. Доклад на полчаса, выложу в двух частях.

Представление - Доктор физико-математических наук, профессор РАН, генеральный директор института Айри, декан факультета искусственного интеллекта МГУ Иван Оселедец с докладом «Успехи и проблемы больших языковых моделей».

Дальше говорит Оселедец.

Да, всем доброе утро. На самом деле у меня будет такое, с одной стороны, рассказ действительно об успехах, некоторые анонсы нашего института, и в конце я немножко порассуждаю о проблемах, которых много, и над чем, собственно, мы думаем, над чем работаем, какие были получены в этом году результаты. В целом, на самом деле, институт и наши сотрудники неплохо поработали в этом году. У нас мы считали 93 статьи на конференции, то есть больше, чем все остальные центры которые этим занимаются что приятно, но конечно статьи не является самой целью, у нас довольно много практических историй.

Если переходить к докладу, то недавно вышло интервью Андрея Карпаты. Очень интересный, кто не видел, посмотрите. Полтора часа, и не суммаризация . Много интересных мыслей. Одна из мыслей, за которую я так зацепился, которая была не очень очевидна.

Иногда говорят, что языковые модели просто запоминают. Мы долго-долго объясняли, как работают языковые модели, что есть этап предобучения, мы сгружаем все данные из интернета и обучаем модель. Наконец-то general public, если говорить по-английски, обыватели поняли это, это хорошо. Но, с другой стороны, поняли все равно многие неправильно.

Читать далее

+1

@arniksup 26 ноя в 15:47

DAT: новый способ гибридного поиска в RAG с динамической настройкой альфа-параметра

Средний

15 мин

8.5K

Поисковые технологии * Машинное обучение * Искусственный интеллектData Engineering *

Из песочницы

Перевод

Привет, Хабр! Недавно у меня появилась задача - собрать RAG-систему для интернет-энциклопедии. В поисках решения я вышел на новый подход к гибридному RAG - “DAT: Dynamic Alpha Tuning for Hybrid Retrieval in Retrieval-Augmented Generation” (Динамическая настройка Альфа-параметра для гибридного поиска в RAG).

Поиск по Хабру и Рунету показал, про подход DAT на русском языке еще не рассказывали, поэтому спешу поделиться находкой с вами и обсудить преимущества и недостатки этого метода. Эта статья - упрощённый пересказ научной работы. Материал будет интересен как продвинутым, так и начинающим разработчикам RAG-систем.

Читать далее

+12

@mapchelka 26 ноя в 15:15

Если данные — продукт, то какова цена плохого UX? Предлагаю систему оценок

Средний

6 мин

6.5K

Data Engineering * SQL * Визуализация данных * Хранение данных *

Из песочницы

В работе над продуктом данные — это главный помощник. С их помощью принимают решения на всех этапах — от создания до развития. Вместо того чтобы гадать, как поступит пользователь, смотрят на реальные факты: как люди пользуются продуктом и какие результаты это даёт бизнесу.

А что на счет самих данных, если мы их рассматриваем как продукт? Как будем оценивать их ценность, как будем планировать их развитие?

В статье предлагаю экспериментальный набор UX‑метрик: они помогут увидеть, где ваш продукт реально теряет пользу для пользователя. Методика готова к тестированию — цифр пока нет, но каркас для расчётов уже работает.

К метрикам

0

@PhoenixLi 26 ноя в 09:08

От минут к секундам, от ClickHouse к StarRocks: путь к real‑time в Hello

Средний

12 мин

6.3K

Big Data * Data Engineering * Open source * Java *

Кейс

Recovery Mode

Кейс Hello: миграция 100+ млрд строк с ClickHouse на StarRocks. Как ускорить аналитику в 5 раз, снизить расходы на инфраструктуру на 80% и построить real-time DWH. Разбор архитектуры, самописных инструментов валидации и подводных камней перехода.

Читать далее

+2

@Aimnew 26 ноя в 05:01

Сравниваю Jupyter Notebook, Google Colab, Kaggle и Marimo глазами исследователя и начинающего Data Scientist

Простой

13 мин

7.2K

Data Engineering * IT-инфраструктура * Визуализация данных * Графические оболочки * Интерфейсы *

Обзор

Я пришел в Data Science не сразу. Учился в магистратуре по вечерам, работая в совершенно другой сфере (строительство). Осваивать машинное обучение и анализ данных было интересно, но один из самых неожиданных вопросов, который возник буквально сразу - в какой среде писать код?

На первый взгляд кажется, что Jupyter Notebook, Google Colab, Kaggle и сравнительно новая Marimo - это одно и то же, ноутбук с ячейками и Python (так же поддерживаются другие языки программирования). Но на практике каждая из этих сред подходит для разных задач, где-то удобнее учиться, а где-то работать командой.

Эта статья - результат моего практического сравнения сред, которое я проводил во время обучения и выполнения исследовательских задач, связанных с анализом и подготовкой данных, моделированием и машинным обучением.

Статья будет полезна:

Читать далее

+4

1

2 3 ...