Big Data *

Большие данные и всё о них

104,6

Рейтинг

СтатьиПостыНовостиАвторыКомпании

YoloGuy вчера в 06:32

Рейтинг маркетплейсов по качеству поиска. Июль 2026

5 мин

5.2K

Big Data * Открытые данные * Разработка под e-commerce * Управление e-commerce * Аналитика мобильных приложений *

Аналитика

Все мы хоть раз искали что-то на маркетплейсах. И получали в выдаче совсем не то, что искали. YoloPrice разметил миллионы позиций поисковой выдач e-com площадок и посчитал, какая часть выдачи действительно отвечает на запрос пользователя. Отсюда родился рейтинг площадок по точности поисковой выдачи. Спойлер: у самых больших игроков мимо летит больше половины, а неожиданный лидер — вообще не маркетплейс. Полный рейтинг и методология — в статье.

gurov_v 14 июл в 08:07

Как решаются оптимизационные задачи в масштабе. Декомпозиция и инженерия

Средний

12 мин

7.3K

Блог компании Magnit TechМашинное обучение * Big Data * Хранение данных * Базы данных *

Кейс

Всем привет. Меня зовут Василий Гуров, я занимаюсь задачами оптимизации в ML Research Lab MAGNIT TECH. В этом материале разберу два промышленных кейса из крупного ритейла – планирование смен сотрудников магазинов и сглаживание нагрузки на распределительные центры.

На поверхности это разные задачи. В первой нужно построить график работы сотрудников по ролям и временным интервалам. Во втором кейсе стоит задача перераспределения логистических потоков так, чтобы снизить пики нагрузки на распределительные центры (РЦ). Но инженерная проблема у них оказалась общей. Прямая time-indexed постановка быстро раздувала модель до сотен тысяч и миллионов бинарных переменных, давала нестабильные рекомендации и плохо укладывалась в SLA.

В этой статье я покажу, как мы решали эту проблему на практике с помощью простого приёма, который должен одним из первых рассматриваться при решении таких объёмных задач. Ключевым оказалось не выбрать самый мощный солвер или алгоритм, а взглянуть на задачу с другой стороны – изменить саму единицу решения. Вместо выбора на уровне слотов, мы стали заранее генерировать валидные кандидаты смен и дальше решали задачу выбора из этих кандидатов. В планировании графиков сотрудников таким кандидатом стала допустимая смена, в сглаживании нагрузки на РЦ – допустимый перенос потока.

rokerius 13 июл в 15:42

Качество образования в бакалавриате Центрального университета

Простой

8 мин

11K

Big Data *

Мнение

Recovery Mode

Отзыв на качество образования в Центральном Университете от лица студента первого набора бакалавриата, переходящего на 3 курс. Есть как приятное, так и не очень, считаю поступающим и интересующимся будет полезно)

boris_p 10 июл в 13:02

Ускоряем федеративные запросы в StarRocks

Средний

13 мин

9.7K

Блог компании Data SapienceБазы данных * Высоконагруженные системы * Data Engineering * Big Data *

Обзор

Когда речь заходит про Lakehouse и федеративный доступ, многие вспоминают про Trino и… часто на этом все. Но федеративные запросы поддерживаются в том или ином виде довольно большим количеством СУБД, SQL-движков и систем для виртуализации данных.

В этой статье постараемся немного расширить кругозор читателей, которым интересна данная тема: рассмотрим федеративные запросы на примере набирающего популярность и активно развивающегося StarRocks. Из статьи вы узнаете: что такое федеративные запросы, как обстоят дела с реализацией гетерогенного федеративного доступа в этой СУБД и какие изменения команда решения Data Ocean Nova реализовала для оптимизации в StarRocks и Impala с целью улучшения функционала доступа к внешним данным.

+13

SnezhSh 10 июл в 12:09

«Мы начали принимать стратегические решения на основе данных»: интервью c АО «Полиэкс» и GlowByte о внедрении PIX BI

Простой

5 мин

8.7K

Блог компании GlowByteВизуализация данных * IT-компанииBig Data * Анализ и проектирование систем *

Интервью

Недавно мы выкатили новость (кейс) о совместном проекте с компаниями «Полиэкс» и PIX BI о построении аналитической платформы (почитать можно тут). Все чинно-благородно (новостной язык суров): сроки, интеграции, архитектура. Но у нас с коллегами родилась идея – сделать перевод с делового языка на человеческий. И мы записали интервью с участниками проекта. Команда PIX BI задавала вопросы, а GlowByte и «Полиэкс» говорили как есть: от GlowByte – руководитель проектов Роман Прохоров, со стороны АО «Полиэкс» – ведущий аналитик службы стратегического развития Арина Бортникова.

AIgent_Smith 10 июл в 10:56

Как мы ускорили разметку видеопоиска в десятки раз и не потеряли качество: опыт внедрения VLM-асессора

Средний

8 мин

10K

Блог компании VKМашинное обучение * Поисковые технологии * Высоконагруженные системы * Big Data *

Кейс

Современный поиск по видеоконтенту — это высоконагруженная система, требующая молниеносной реакции и безупречной релевантности. Сервис VK Видео оперирует колоссальной базой в 500 миллионов видеороликов и ежедневно обрабатывает около 10 миллионов запросов пользователей. При времени ответа в 0,5 секунды и нагрузке в 1800 RPS алгоритмам необходимо моментально находить именно тот контент, который ожидает увидеть зритель. Однако развитие алгоритмов ранжирования невозможно без качественных данных, на которых они обучаются.

Традиционный подход с использованием ручной разметки асессорами долгое время оставался индустриальным стандартом, но на масштабах сотен тысяч видео он неизбежно становится бутылочным горлышком продуктовой разработки.

Меня зовут Владислав Чернышев, я руководитель группы качества поиска по видео в AI VK. В этой статье подробно расскажу про путь перехода от классической ручной разметки к гибридной VLM-системе, разберу ошибки и инфраструктурные барьеры, которые пришлось преодолеть для кратного ускорения процессов подготовки обучающих датасетов и офлайн-оценки качества поиска.

Переходим к VLM-системе

+28

Imil_Valiullin 9 июл в 12:51

От legacy до промышленной платформы: инженерная эволюция OSA в «Магнит»

Средний

15 мин

8.6K

Блог компании Magnit TechBig Data * Data Engineering * Машинное обучение * Хранение данных *

Ретроспектива

Как мы провели проект через четыре «эпохи» — от ручных запусков на Windows‑планировщике до Spark + k8s на масштабе сети

Привет, Хабр! Меня зовут Имиль Валиуллин, я тимлид команды разработки платформы OSA. В предыдущих статьях цикла On Shelf Availability (OSA) уже разбирали с разных сторон: что такое OSA как продукт, как устроен алгоритм детекции аномалий и весь конвейер генерации сигналов — эвристики, ML‑модели, фильтры, обратная связь, A/B и оценка эффекта (ссылки на предыдущие статьи: 1, 2, 3). В этой статье мы раскрываем следующий слой — инженерный. Потому что всё перечисленное было бы невозможно без большой работы под капотом: данных, транспорта, оркестрации, SLA, мониторинга, качества данных, обратной связи, API и доставки сигналов в торговые точки. Многие забывают, что даже самая крутая ML‑модель — это только верхушка айсберга. Результат появляется только тогда, когда под ней есть надёжный фундамент: чистые данные, стабильный транспорт и бесперебойная доставка. Как говорится, garbage in — garbage out, и наоборот: качественный фундамент позволяет получить качественный результат.

Главная мысль, которую мы хотим донести: алгоритмы сами по себе не создают эффект. Эффект появляется только тогда, когда вокруг них построена инженерная система, которая каждый день стабильно считает, доставляет, проверяет и масштабирует результат.

Показать это мы хотим через эволюцию продукта — от legacy и ручных запусков до промышленной платформы, работающей на масштабе сети. С точки зрения пользователя это всё тот же продукт — сигналы на торговых точках (ТТ), помощь сотрудникам магазина, рост доступности товара. Но под капотом OSA прошёл несколько серьёзных инженерных перерождений, которые мы для удобства назвали «эпохами»: каменный век, бронзовый, железный и индустриальная эпоха.

CloudX_Pugachev 9 июл в 10:14

Как выбрать стратегию работы с большими данными: от хранилища к управляемой архитектуре

Средний

6 мин

6.5K

Блог компании Cloud XBig Data * Облачные сервисы * Облачные вычисления * Хранение данных *

Мнение

В любой современной организации данные давно стали частью операционных, технологических и управленческих процессов. Разница лишь в масштабе и сложности: одним компаниям достаточно нескольких относительно компактных баз, другим приходится работать с десятками систем, которые внедрялись в разное время, под разные задачи и в составе разных решений.

Проблема начинается, когда данных становится так много, что прежняя архитектура перестает выдерживать изменения: появляются новые источники, ускоряются бизнес-процессы, растет стоимость хранения и обработки, а каждое изменение в модели данных требует пересмотра уже принятых решений. Как быть, когда архитектурные подходы организации данных, такие как DWH, Data Fabric, Data Lake, Снежинка, Data Vault, Anchor Modeling и другие, перестают отвечать требованиям и почему под давлением динамично меняющихся обстоятельств стройные концепции постоянно нарушаются?

Сегодня мы разберем, почему выбор стратегии работы с большими данными стал архитектурной задачей, как менялись подходы к построению платформ данных, что такое гравитация данных и какие требования стоит предъявлять к современным решениям.

RSHB_tsyfra 8 июл в 12:09

AI-дайджест #2

3 мин

8.2K

Блог компании РСХБ.Цифра (Россельхозбанк)Искусственный интеллектBig Data *

Привет, Хабр! Я, Ольга Попова, ИИ-Евангелист Лаборатории искусственного интеллекта Департамента больших данных Россельхозбанка, подготовила дайджест новостей про ИИ. Поехали!

Больше новостей про ИИ

+12

Maxpiter 7 июл в 09:05

Пока все хоронили пайплайны, ClickHouse достраивал слои

Простой

7 мин

6.6K

Big Data * Базы данных * Open source * Искусственный интеллектPostgreSQL *

Аналитика

«Отдельные базы больше не нужны», «конец пайплайнов» - каждую неделю кто-то крупный со сцены хоронит то, что ты вчера поставил в прод. ClickHouse поступил ровно наоборот, и поэтому его анонсы стоит прочитать внимательно. Что реально показали на Open House 2026 и что из этого доедет до прода - разбор практика без вендорского глянца.

protmaks 5 июл в 18:27

Databricks Data and AI Summit 2026. Моя первая поездка в США

Простой

4 мин

13K

Data Engineering * Big Data * КонференцииDeveloper Relations * Облачные сервисы *

Репортаж

Недавно мне удалось посетить Data + AI Summit в Сан-Франциско в качестве Databricks MVP. Крупнейшую конференцию Databricks, посвященную данным, искусственному интеллекту. На мероприятии собралось более 30 000 участников из более чем 160 стран.

Я много слышал и читал об этом саммите, но никогда не мог представить, что попаду на его.

Все началось с того, что всем Databricks MVP предоставил бесплатный билет на мероприятие (стоимость билета без скидок около 1000$). Звучит конечно, здорово, но чтобы попасть нужна еще виза, билеты на самолёт и проживание в гостиннице. Хорошо хоть питание было организовано на самом мероприятии.

На удивление записаться на визу в Кракове и получить её оказалось довольно просто, запись за неделю и через 2 дня уведомление, что виза одобрена, круто!

Далее покупка билетов на самолёт примерно 1000$ в одну сторону и проживание в гостиннице около 150$ в сутки. К счатью моя компания приняла решние частично компенсировать расходы. Большое ей спасибо, возможно на тот момент я бы не решился поехать и выложить несколько тысяч долларов за мероприятие.

Mastersland 5 июл в 12:55

Как я написал сервис для анализа конкурсных списков вузов и моделирования зачисления по приоритетам

Простой

5 мин

9.6K

C# * .NET * Flutter * Анализ и проектирование систем * Big Data *

Обзор

Каждое лето сотни тысяч абитуриентов пытаются понять одну простую вещь:

Поступлю я или нет?

Казалось бы, все данные открыты. Вузы публикуют конкурсные списки, количество мест известно, правила приёма описаны на сайтах.

Но на практике ответить на этот вопрос гораздо сложнее, чем кажется.

Именно из этой проблемы вырос проект AbitList.

Сайт: https://abitlist.ru

-4

varvaratikh 4 июл в 17:36

GitHub стал однообразнее после появления ChatGPT?

Средний

11 мин

12K

Open source * GitHub * Искусственный интеллектBig Data *

Аналитика

После появления ChatGPT и массового распространения GitHub Copilot, Cursor, Claude Code, Windsurf и других AI-инструментов разработка стала заметно быстрее. Код, тесты, README, комментарии и небольшие utility-функции теперь можно получить за секунды.

Но вместе с этим появился менее очевидный вопрос: если миллионы разработчиков используют похожие модели и похожие промпты, не становится ли открытый код более однообразным?

В этой статье я проверяю эту гипотезу на данных GitHub за 2019-2025 годы: через GH Archive, BigQuery, commit messages, README, имена функций и собственный GitHub Uniformity Index.

К исследованию

achekalin 4 июл в 10:31

Palantir и голые токены: как продать «суверенный ИИ» людям, которые не любят терять контроль

10 мин

9.4K

Системное администрирование * Серверное администрирование * Искусственный интеллектУправление продажами * Big Data *

Palantir выложил в X пост, который журналисты быстро стали называть «манифестом». Формально это «The Technological Republic, in brief» — промо-выжимка из книги Алекса Карпа и Николаса Замиски The Technological Republic. Если перевести с языка подрядчика для армии, разведки и крупного бизнеса на обычный русский: не отдавайте свои данные поставщикам больших языковых моделей, не считайте внедрение ИИ по расходу токенов, держите у себя модели, следы работы системы и результаты дообучения.

Но важно, кто именно это говорит. Palantir вырос не из кружка любителей открытого ПО - компания продаёт софт для соединения данных, прав доступа, предметных моделей и действий оператора; сама она описывает свой рынок как решения «from the factory floors to the front lines». По годовому отчёту за 2025 год, 54% выручки Palantir пришло от государственных заказчиков, 46% — от коммерческих. Это не декоративный раздел "прочие красивые кейсы", а почти половина бизнеса.

Поэтому, когда такая компания заводит речь про «экономию на токенах», речь не о бережливости. Речь о новом слое контроля: где живут данные, кто управляет моделью, кто видит запросы, кто получает следы работы системы и кто потом становится обязательной частью всей этой конструкции.

Игра по-крупному

BHV_publishing 3 июл в 15:00

Новинка: «Инженерия данных. Паттерны проектирования»

3 мин

14K

Блог компании Издательство БХВПрограммирование * Big Data * Python * Профессиональная литература *

Приветствуем, Хабр.

Мы стараемся лицензировать в издательстве «O’Reilly» и переводить для вас фундаментальные книги, в том числе, по формирующимся парадигмам и подходам к разработке. Одним из наиболее успешных базовых изданий такого рода была книга «Основы инженерии данных» Джо Риса и Мэта Хоусли, вышедшая в середине 2024 года (допечатка – январь 2026). Желая развить эту тему, мы издали и вторую, возможно, не менее фундаментальную книгу «Data Engineering Design Patterns», которую написал для издательства «O’Reilly» Бартош Конечны. Русское издание вышло в конце июня и называется «Инженерия данных. Паттерны проектирования». Автор считает, что в дисциплине инженерии данных можно выделить такие же многоразовые и универсальные шаблоны проектирования типичных решений, как и в традиционном программировании. То есть, он берётся повторить в этой области фундаментальный труд «Банды четырёх», который в середине 1990-х привёл к появлению всем известной книги «Design Patterns». Ранее мы размещали статью с примерами вычленения паттернов проектирования в области инженерии данных — это был перевод, а оригинал статьи написал сам Бартош Конечны, собираясь обосновать готовящуюся книгу и очертить её тематическое поле. Под катом рассмотрим, какие именно темы вошли в новую книгу.

+24

ideavi 3 июл в 14:24

Сопоставление каталогов продукции: автоматический массовый подбор с использованием токенизации

Простой

7 мин

Поисковые технологии * Базы данных * Регулярные выражения * Big Data * Алгоритмы *

Кейс

Из песочницы

Задача широко знакома в узких кругах: наш каталог товаров встречается с каталогом контрагента — по сути одни и те же позиции, но названы по-разному. Надо найти совпадения и предоставить коллегам список подходящих наших артикулов для каждой их позиции.

В разобранном ниже случае это картриджи: 22 тысячи записей у контрагента против сотен тысяч наших номенклатур. Для такой задачи матерый программист берёт Elasticsearch, алгоритмы нечёткого поиска и тратит много времени, иногда в меру матерясь. Здесь подбор ведется с помощью токенизации, запросами в стиле no-code и без ИИ.

Токенизируем и сопоставляем

PhystechGenesis 2 июл в 13:49

Шаг вперёд на долгом пути: завершили этап «Сканирование» конкурса «Экспедиция. Data Science»

7 мин

9.2K

Big Data * Data Engineering * Базы данных * Геоинформационные сервисы * Программирование *

Обзор

Recovery Mode

Фонд Национальной технологической инициативы реализует проект технологических конкурсов Up Great — открытых соревнований для инженерных команд. Здесь преодолевают технологические барьеры России и мира, чтобы решать задачи, с которыми ещё никто не справлялся.

Один из текущих конкурсов — «Экспедиция. Data Science» с технологическим партнёром Phystech.Genesis, который предоставляет платформу и маркетинг события. В конкурсе участники работают над системами ИИ по распознаванию археологических объектов на поверхности земли и глубине до 5 метров. Пока такую работу археологи делают вручную, что требует много времени и специалистов. Конкурс призван ускорить процесс и исключить человеческие ошибки, чтобы дать исторической науке новые возможности, а учёным — время на экспедиции и раскопки.

В рамках «Экспедиция. Data Science» — 3 конкурса отдельных заданий (КОЗ), а также финальный конкурс. С каждым следующим этапом команды берутся за более сложные задачи и пробуют новые подходы. Недавно организаторы объявили победителей второго из них — «Сканирование». На этом этапе команды создавали нейросети, чтобы искать археологические объекты в рельефе и под поверхностью земли.

В этой статье мы собрали заключения технических экспертов, комментарии профессионального археолога, а также поговорили с тройкой лидеров и одним из ведущих российских учёных по Data Science. Мы хотим рассказать вам, как технология и наука вместе развивают знание людей о мире в нашей стране.

Oleg_Nikishenkov 2 июл в 11:31

Достижима ли неинвазивная гармония человека и машины

Средний

19 мин

10K

Блог компании Leader-IDBig Data * БиотехнологииМедгаджетыМашинное обучение *

Интервью

Когда речь заходит о том, чтобы человек управлял своей бионической конечностью-протезом с помощью мозга, перед инженерами, врачами и пациентами встает сложный выбор. Имплантировать чип, получающий сигналы от мозга, непосредственно в голову пациента или наладить управление конечностью неинвазивно? В каждом из этих способов есть свои плюсы и минусы. При вживлении электродов в зону коры головного мозга, отвечающую за моторику, получается более мощный сигнал. Запись разрядов нейронов происходит напрямую, сигнал четкий, многоканальный. Он встречает меньше помех в виде костных тканей, мимики лица.

А при неинвазивном управлении уходят риски кровотечений, инфекций и отторжения. Устройство можно надеть и снять за минуту. Оно отлично подходит для реабилитации или когда операция противопоказана. Но при таком методе главным критерием становится четкость восприятия бионическим протезом сигнала от мозга. Все дело в шуме. Сигнал проходит через кости черепа и кожу, теряя силу. Датчики улавливают многочисленные помехи (моргание, напряжение мышц шеи). Есть потеря в скорости и точности: протез работает с небольшой задержкой, поэтому трудно выполнить задачу со сложной моторикой, например завязать шнурки.

Но есть хорошие новости для сторонников щадящего метода. Разберемся в них на примере одного из проектов, который усиливает сигнал с помощью интеграции в управляющую систему модуля компьютерного зрения, а также технологии дополненной реальности (AR).

+24

Sergey_petrich 2 июл в 08:36

Каталог данных: что нужно знать, прежде чем начинать внедрение

7 мин

8.2K

Блог компании VK TechБлог компании VKОблачные вычисления * Хранение данных * Big Data *

Объем данных в компаниях постоянно растет, и это вынуждает бизнес и ИТ-специалистов перестраивать ИТ-ландшафт, чтобы упростить поиск, понимание и использование информации. В качестве одного из компонентов подобных модернизированных реализаций нередко рассматривают дата-каталог, который помогает навести порядок в метаданных и сделать данные более доступными.

Вместе с тем хоть такой подход и имеет право на жизнь, но практика показывает, что наибольший потенциал каталоги данных раскрывают, когда их внедрению предшествует выстраивание базовых процессов управления: ответственности за данные, контроля качества и управления изменениями.

Меня зовут Сергей Петриченко. Я продуктовый менеджер VK Data Platform. В этой статье разберем, почему каталог — это не первый шаг к порядку, а скорее мультипликатор уже существующей зрелости и что необходимо сделать, чтобы его внедрение принесло реальную пользу.

+28

ak19 1 июл в 21:29

Где искать обучающие материалы по FineBI: разбираем источники

Простой

4 мин

11K

Блог компании GlowByteBig Data * Визуализация данных *

Обзор

Меня зовут Александр Ларин, я руковожу центром обучения и технической поддержки в GlowByte. Мы постоянно внедряем FineBI у клиентов и регулярно слышим один и тот же вопрос: «а где почитать или посмотреть, чтобы разобраться самому?» Решил собрать ответ в одном месте.

+12

2 3 ...

221 222