Все потоки

Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

@PhoenixLi 1 час назад

StarRocks 4.0: FlatJSON — делаем запросы к JSON столь же эффективными, как к колоночному хранению

Средний

11 мин

2K

Big Data * Data Engineering * Open source * DevOps *

Туториал

Статья объясняет, как StarRocks 4.0 делает запросы к JSON почти столь же быстрыми, как к нативным столбцам. FlatJSON на этапе загрузки «колоннизирует» частые поля и задействует индексы (включая ZoneMap), словарное кодирование и Global Dictionary, а также Late Materialization. В результате логовая, e‑commerce и IoT‑аналитика работает в реальном времени без тяжёлого ETL.

Читать далее

+1

@answerqu 1 час назад

Трансформеры для персональных рекомендаций на маркетплейсе: от гипотез до A/B-тестирования

Средний

8 мин

1.9K

Блог компании Wildberries & RussBig Data * Машинное обучение * Python *

Кейс

Всем привет! На связи Ваня Ващенко, и я лид по развитию нейросетевых моделей в команде персональных рекомендаций Wildberries. Раньше я развивал B2C-рекомендации и нейросети кредитного скоринга в крупнейшем банке, а теперь вы видите результаты моей работы каждый раз, когда заходите на главную страницу любимого маркетплейса. Сегодняшний рассказ — о том, как мы развиваем WildBERT.

Читать далее

+3

@Luxms 3 часа назад

Больше, чем BI: 23 фичи Luxms BI, которыми мы гордимся. Часть 3: решения для специализированных задач

Средний

8 мин

2.8K

Блог компании Luxms BIВизуализация данных * Анализ и проектирование систем * Big Data * Визуальное программирование *

Обзор

Это третья часть серии «23 фичи Luxms BI, которыми мы гордимся». В первой мы говорили о платформенности и архитектуре, о том, на чем держится система. Во второй – о классическом BI-функционале, который делает систему BI-системой.

А сегодня мы расскажем, что происходит, когда бизнес-задачи перерастают рамки стандартной аналитики. Речь пойдет о функциях, которые превращают Luxms BI из инструмента визуализации в платформу для решения сложных, специализированных задач. Именно эти возможности наши заказчики чаще всего характеризуют фразой «а вот это – действительно больше, чем BI».

Читать далее

+2

@PhoenixLi 4 часа назад

StarRocks 4.0: Real-Time Intelligence on Lakehouse

Простой

5 мин

2.9K

DevOps * Data Engineering * Open source * Big Data *

Обзор

StarRocks 4.0: Real‑Time Intelligence on Lakehouse. Сквозная оптимизация конвейера в реальном времени, 3–15× ускорение JSON, SQL Plan Manager, Decimal256 и поддержка Apache Iceberg для нативной Lakehouse‑аналитики.

Читать далее

0

@fivelife 7 часов назад

Как я осознал, что не умею кодить

Простой

4 мин

9.1K

Big Data * Data Engineering * Анализ и проектирование систем * Искусственный интеллектАлгоритмы *

Мнение

Вчера мой скрипт завис. Процессор горел на 100%. Я убил процесс.

Я Senior Developer с 10 годами опыта. Пишу на Python, знаю Java и много модных фреймворков. Но в этот момент я понял: я не умею программировать. Точнее, я умею использовать инструменты. Но я не понимаю природу вычислений.

Эта статья — о том, как одна математическая задача изменила моё понимание разработки.

И почему через пару лет, когда ИИ будет писать весь код за меня, это понимание станет единственным, что меня спасёт.

Возможно, и тебя тоже.

Читать далее

+32

@rootcode1 21 час назад

Язык и большие данные

Средний

4 мин

5.6K

Из песочницы

Recovery Mode

Язык всегда строился на интуиции носителей, а его изучение зависело от интроспекции лингвистов. Теперь же большие данные абсолютно меняют эту систему.

Читать далее

-2

@akomiagin вчера в 09:32

Глубокое погружение в архитектуру Kafka: от простых сценариев до геокластера

Средний

10 мин

5.9K

Big Data * Высоконагруженные системы * Apache *

Обзор

Привет, Хабр! Меня зовут Андрей Комягин, я CTO компании STM Labs. Мы занимаемся разработкой очень больших распределённых высоконагруженных систем для различных отраслей, включая налоговое администрирование, телеком, track & trace и многие другие.

В своей работе мы широко используем open-source-решения, в том числе Apache Kafka. Этот распределённый программный брокер сейчас применяется практически во всех наших проектах, и сегодня я предлагаю заглянуть внутрь чёрного ящика, чтобы понять, как там всё внутри устроено. В своей работе мы широко используем open-source-решения, в том числе Apache Kafka. Этот распределённый программный брокер сейчас применяется практически во всех наших проектах, и сегодня я предлагаю заглянуть внутрь чёрного ящика, чтобы понять, как там всё внутри устроено.

Этот текст написан на основе моего доклада на конференции SaintHighload++ 2025 в Санкт Петербурге. Так что, если вы были там в качестве слушателя, информация не будет для вас новой. Впрочем, повтор полезного материала никогда не бывает лишним. Поехали!

Читать далее

+4

@antipov_dmitry 2 дек в 12:42

LLM Observability & AI Agent Tracing: большой гайд с обзором подходов и open-source решений

Средний

15 мин

6.1K

Искусственный интеллектМашинное обучение * Big Data * Анализ и проектирование систем *

Обзор

В этой статье я структурировал весь опыт и подходы к тому, как мониторить и трейсить LLM и AI-агентов на их основе. Это очень большая статья, но мне хотелось полностью закрыть всю тему за раз и создать крепкий бейзлайн для погружения в тему observability и трейсинга агентов.

Поговорим про то, почему все LLM-based решения требуют новых подходов, обсудим ключевые проблемы агентов, посмотрим несколько самых популярных решений и обзор всех опенсорсных и зафиналим трендами и направлением, куда все это движется.

Здесь будет про Langfuse, Phoenix, OpenLIT, Langtrace, LangWatch и Lunary. Про оценку (evaluations или evals) здесь не будет, но обязательно скоро будет отдельная статья и про это.

Поехали!

Читать далее

+3

@anepochatykh 2 дек в 06:00

Как мы строили хранилище на 70 ПБ данных и не планируем останавливаться

Средний

7 мин

6.1K

Блог компании СберBig Data * Data Engineering *

Кейс

Привет, сегодня я расскажу о том, как наша команда строила платформу обработки и хранения данных для обучения GenAI-моделей в Сбере, и как мы выросли до 70 ПБ сырых данных. Меня зовут Александр, я работаю в Сбере и два года занимался развитием этой платформы.

Читать далее

+10

@nkt929 1 дек в 13:46

Теневые ИТ в энтерпрайзе: почему они случаются, как с ними бороться и как в дальнейшем их не допускать

9 мин

8.5K

Блог компании РСХБ.Цифра (Россельхозбанк)Информационная безопасность * DevOps * Big Data * Управление разработкой *

Кейс

Привет, Хабр!

Я Никита Дубина, руководитель команды автоматизации Департамента больших данных РСХБ. В этой статье расскажу о том, что такое теневые ИТ, почему они возникают в крупных организациях, особенно в банках, какие риски несут и как при правильном подходе могут стать источником новых идей. Делюсь опытом борьбы с ними.

Читать далее

+19

@kobubu 1 дек в 07:26

Инвест Гусь: телеграм-бот (Open-source) для прогноза стоимости акций и криптовалют

Средний

5 мин

5.8K

Big Data * Python * Data Engineering * Финансы в ITOpen source *

Кейс

Мамкин инвестор знает, что если ежедневно ловить сигналы от мощных трейдеров, то скоро карманы будут набиты звенящей цифровой монетой. Но чтобы стать богаче всякого, в эпоху ИИ нужно нечно большее, чем какой-то сигнал. Нужно чтобы был карманный генератор сигналов по всем возможным активам.

+1

@kitbit 30 ноя в 23:57

Сравнительный анализ 18 LLM моделей: конец монополии?

Простой

11 мин

15K

Python * Математика * Big Data * Машинное обучение *

Обзор

🏆 Open-Source Догнал Топов: Что Произошло в Ноябре 2025?

Конец монополии! Kimi-K2-Thinking (MIT-лицензия) — новый чемпион мысли. Эта open-source модель сравнялась с Claude Sonnet 4, показала 84.5% на GPQA Diamond (научное рассуждение) и 94.5-100% на олимпиадной математике AIME, опередив GPT-4o более чем на 30 процентных пунктов.

Российский GigaChat3-702B взрывает кодинг! Сбер выпустил модель с архитектурой MoE (702B параметров) под MIT-лицензией, которая показала мировой рекорд на бенчмарке HumanEval+ (86.59%), обойдя все закрытые LLM, включая GPT и Claude.

MoE-магия для локального запуска: Qwen3-30B-A3B с архитектурой MoE (3.3B активных параметров) обеспечивает качество 70B+ модели, умещаясь на одной H100 — идеальный компромисс для стартапов и R&D.

Читать далее

+18

@Martianov 28 ноя в 15:10

Qwen3Guard: следующий шаг в модерации и контроле контента

6 мин

7.4K

Блог компании red_mad_robotИскусственный интеллектМашинное обучение * Информационная безопасность * Big Data *

Всем привет! Меня зовут Миша Мартьянов, я инженер по исследованиям и разработке в лаборатории AI R&D в red_mad_robot. В мои задачи входит проверка гипотез и развитие наших продуктов. Однако недостаточно просто улучшать продукты, необходимо также чтобы они работали устойчиво и безопасно.

Ранее я рассказывал разработку идеального контент-фильтра на базе Guardrails. Но время не стоит на месте: появляются новые модели и новые практики их применения. Этому и будет посвящён наш сегодняшний разговор.

Читать далее

+8

@Andre_Savchenko 28 ноя в 13:33

Как мы помирили маркетинг и сэкономили несколько часов в неделю на ведение отчётности в Excel

Простой

4 мин

10K

Big Data * Повышение конверсии * Управление продажами * Визуализация данных * Веб-аналитика *

Кейс

Топ-менеджеры юрфирмы по банкроству физлиц тратили несколько часов в день на подготовку к еженедельной планёрке. Например, руководитель колл-центра делал кучу выгрузок в amoCRM, открывал каждую сделку вручную, копировал и вставлял её в Excel.

На еженедельных планёрках собирались сразу несколько отделов — маркетинг, колл-центр, продажи и отдел качества. Каждый отдел готовил отчёт вручную, опираясь на свои источники данных. В итоге на обсуждении цифры не сходились.

Маркетинг утверждал: «Мы привели лиды, а вы просто не умеете продавать». Продажи отвечали: «Ваши лиды — говно».

В статье я расскажу, как мы помогли топ-менеджерам перестать тратить полноценный рабочий день на ведение отчётности, а собственнику – составить прозрачную картину, кто прав, кто виноват, и что делать, чтобы достичь плановых показателей.

Читать далее

+9

@MnsDev 27 ноя в 11:39

Опросили 100 жертв мошенников. Записали реальные разговоры и методы

Простой

13 мин

25K

Блог компании Femida SearchBig Data * Информационная безопасность * Сетевые технологии * Социальные сети

Мы опросили 100 жертв и изучили методы, на которые они повелись
Нам удалось пообщаться с реальными мошенниками и заглянуть внутрь этих процессов.

Сначала обсудим основные этапы обмана, а потом изучим схемы с реальными диалогами и примерами.

Читать далее

+14

@PhoenixLi 27 ноя в 10:54

Понимание и практические эксперименты с Tablet в StarRocks

Средний

17 мин

4.5K

Data Engineering * Big Data * Open source *

Туториал

внутренняя структура, репликации и балансировка, бакетизация и партиционирование, восстановление и MVCC, загрузка данных (Stream Load). Разбираем типичные сценарии и даём рекомендации для Data Engineers и DBAs.

Читать далее

0

@kitarasov 27 ноя в 10:46

6 лайфхаков при внедрении СУБД: учимся на чужих граблях

Средний

6 мин

5.6K

Блог компании К2ТехБазы данных * Big Data * Хранение данных *

Кейс

Привет, Хабр! Меня зовут Кирилл Тарасов, я — инженер данных в K2Tех. Наша команда Big Data & Bi работает с 2006 года, мы активно занимаемся Greenplum, Arenadata Hadoop/Streaming и внедряем собственные наработки, такие как ELT Framework. Также с 2012 года мы создаём аналитические системы и хранилища данных, и за это время моя команда столкнулась с самыми разными ситуациями, которые вызывали различные проблемы для реальной продуктивной эксплуатации СУБД. Некоторые из них были связаны с настройками баз данных, другие — с компонентами защиты, а третьи были настолько необычными, что их причиной оказалось исключительно странное и редкое поведение бизнес-логики, с которым разработчики хранилищ данных почти не сталкиваются. В этой статье вы найдете шесть кейсов, которые могут встретиться на любом проекте. Они помогут избежать попадания «ложки дегтя» в ваше хранилище.

Читать далее

+2

@AIgent_Smith 26 ноя в 09:17

Датасет VK-LSVD помогает тестировать алгоритмы рекомендаций: сейчас на его базе проходит VK RecSys Challenge

Средний

7 мин

6.2K

Блог компании VKМашинное обучение * Работа с видео * Big Data * Алгоритмы *

Обзор

Сейчас в открытом доступе мало крупных датасетов сервисов коротких видео, но это уникальный формат для рекомендательных алгоритмов. В отличие от музыки или длинных видео они не могут потребляться в фоновом режиме, а каждый показанный ролик получает от пользователя реакцию. Даже если он не оставит лайк, досмотр видео до конца или пропуск уже считаются обратной связью. Именно поэтому мы выложили в открытый доступ датасет VK-LSVD. С его помощью инженеры и ученые смогут развивать и совершенствовать рекомендательные алгоритмы.

Как работать с VK-LSVD

+24

@PhoenixLi 26 ноя в 09:08

От минут к секундам, от ClickHouse к StarRocks: путь к real‑time в Hello

Средний

12 мин

6.3K

Big Data * Data Engineering * Open source * Java *

Кейс

Recovery Mode

Кейс Hello: миграция 100+ млрд строк с ClickHouse на StarRocks. Как ускорить аналитику в 5 раз, снизить расходы на инфраструктуру на 80% и построить real-time DWH. Разбор архитектуры, самописных инструментов валидации и подводных камней перехода.

Читать далее

+2

25 ноя в 12:28

Властелин алгоритмов: сезон «ИИ в разработке» на Хабре

3 мин

11K

Блог компании ХабрBig Data * Машинное обучение * Искусственный интеллект

Сезон ИИ в разработке

Он пришёл на пятый день с востока! Сезон «ИИ в разработке» на Хабре.

Искусственный интеллект становится соисполнителем в современной разработке, он берет на себя анализ кода, стратегическое планирование и другие задачи. И в этом сезоне мы предлагаем вам поделиться историями о том, как искусственный интеллект помогает решать реальные задачи, разгружать рутину и ускорять процессы в работе и жизни.

Под катом — условия, призы и детали участия.

Читать далее

+22

1

2 3 ...