Обновить
213.48

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Как не тратить время на провальные A/B-тесты: офлайн-оценка рекомендаций в Звуке

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели4.5K

Идея офлайн-оценки в общем-то не нова, и довольно логична — хочется еще до запуска A/B тестов хотя бы примерно прикинуть, получилось ли у нас улучшить модель рекомендации, или лучше оставить все как есть. Такой подход здорово экономит нервы и ресурсы: повышает шансы на «зеленый» свет в тестах, отсекает заведомо провальные идеи и не заставляет ML-инженеров зря тратить время на решение ненужных инфраструктурных задач.

Меня зовут Рустам Муртазин, я senior аналитик в отделе ML-аналитики (про отдел в целом и наши задачи можно почитать в этой статье) и в этой статье я расскажу про особенности офлайн оценки моделей рекомендаций в музыкальном сервисе Звук.

Читать далее

Новости

BIM Data Service: как мы превращаем BIM-модель в единый источник данных

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели5.7K

Привет, Хабр!

Меня зовут Альбина Алдабергенова, я – руководитель продукта BIM Data Service в ПИК.

Продолжаем серию статей об экосистеме ПИК. В предыдущих материалах мы уже рассказали историю ее формирования и разобрали несколько инструментов: Family Manager, PikTools и BIM Inspector.

Сегодня расскажу о продукте BIM Data Service, который превращает «цифровой двойник» здания в единый источник общих данных. А также о том, как мы автоматизировали один из самых непростых процессов в строительстве — расчёт сметы.

Читать далее

Как менялся сон моих детей: анализ 5 лет данных о сне

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели11K

Как менялся сон моих детей: анализ 5 лет накопленных данных

За 5 лет жена скрупулезно записывала сон наших дочерей. Я взял эти данные и проанализировал: как меняется сон с возрастом, сколько спят дети на самом деле, и правда ли нормы ВОЗ работают.

Оказалось, что наши дети спят по-разному, но оба — в пределах нормы. И даже в одинаковом возрасте их паттерны сна удивительно похожи!

В статье: 📈 графики, 📊 статистика и главный вывод для родителей.

#анализданных #родительство #детскийсон #python #датасаенс

Читать далее

Архитектура будущего: как должны эволюционировать наземные комплексы обработки данных дистанционного зондирования Земли

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели7.7K

Аналитический обзор ключевых архитектурных проблем и перспективных подходов к построению систем обработки спутниковых данных на фоне взрывного роста группировок космических аппаратов и требований потребителей.

Читать далее

Создание системы по управлению цифровыми активами для базы данных PostGIS. Часть 1. Работа с геометрией объектов

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели5.7K

Здравствуйте, уважаемые читателя Хабра!

В серии статей хочу рассказать о создании основного функционала MVP (Minimum Value Product) системы по управлению цифровыми активами для базы данных PostGIS. В этой публикации рассмотрим как быстро находить одинаковые и похожие по геометрии объекты среди тысячи таблиц и 300 млн записей.

Интересно? Читать!

«Найден. Жив»: как передовые технологии помогают находить пропавших людей

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели5.5K

Эту историю неизбежно приходится начинать с тревожной статистики. В России ежегодно теряются сотни тысяч человек. Согласно данным МВД, в стране каждый год регистрируют до 180 тысяч заявлений о пропаже людей. Только за первую неделю нового года в добровольческий поисково-спасательный отряд «ЛизаАлерт» поступило больше 300 заявок от родственников и друзей исчезнувших людей. За сухими цифрами — человеческие судьбы, тревожные дни и ночи и всегда надежда на короткую, но предельно емкую фразу, которая для поисковиков и близких пропавших имеет самое важное значение: «Найден. Жив».

Читать далее

Кейс команды СберЗдоровья: реализация собственной платформы для Data Vault с использованием dbt-core

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели4.8K

Data Vault — одна из самых популярных и устоявшихся методологий моделирования архитектуры данных. Но в ситуации, когда на входе несколько десятков внутренних и внешних источников, а сверху прежней «снежинки» построены уже сотни бизнес-витрин, переход на Data Vault «на ходу» может оказаться затруднительным и ресурсозатратным. Поэтому мы в СберЗдоровье пошли другим путём.

Читать далее

Книга: «Архитектуры данных: современные решения для любых задач»

Время на прочтение2 мин
Охват и читатели9.8K

Привет, Хаброжители!

Ткань данных, озеро данных и сетка данных появились относительно недавно и стали рассматриваться как конкурентные альтернативы современному хранилищу данных. У новых архитектур действительно есть весомые преимущества, но, помимо этого, они окружены ореолом предубеждений и мифов. Книга содержит практический обзор архитектур данных, который поможет специалистам в области обработки данных понять преимущества и недостатки каждой из них.

Джеймс Серра, архитектор решений Big Data и хранилищ данных, работающий в Microsoft, рассматривает общие концепции архитектур данных, в том числе то, как хранилищам данных пришлось эволюционировать, чтобы работать с функциями озер данных. Вы узнаете, чем хороши озера — хранилища данных, а также как отличить раздуваемый вокруг сеток данных ажиотаж от их реальных возможностей. А самое главное, вы научитесь определять наиболее подходящую архитектуру данных для своих нужд.

Читать далее

Кто такой CDTO и зачем он нужен бизнесу

Уровень сложностиСредний
Время на прочтение99 мин
Охват и читатели6.6K

ВВЕДЕНИЕ

В статье разбирается, почему роль CDTO (Chief Digital Transformation Officer, директор по цифровой трансформации) перестала быть модным западным термином и стала практическим ответом на российские реалии — импортозамещение, рост сложности IT‑ландшафта, усиление регуляторных требований и ускорение конкуренции. Автор показывает типичную картину в компаниях от 300 до 5000 сотрудников: есть множество внедрённых систем (1С, Битрикс24, облака Яндекса и VK, ClickHouse, HR‑ и аналитические решения), но нет единой стратегии, приоритизации и человека, который связывает интересы CEO, CIO, CTO, CFO и бизнеса.

Через конкретные примеры и цифры описывается цена хаотичной цифровизации: проваленные сроки проектов, технический долг, сопротивление сотрудников, неэффективные траты 15–30% IT‑бюджета и потеря доли рынка из‑за медленной трансформации. CDTO в этой логике выступает не «ещё одним айтишником», а владельцем стратегии трансформации, архитектуры, данных, процессов, команды и ROI инвестиций.

Статья даёт структурированный «путеводитель» для собственников и CEO: объясняет, чем CDTO отличается от CIO и CTO, какие функции он берёт на себя ежедневно, какой профиль кандидата искать и по каким критериям его оценивать. Отдельные разделы посвящены первым 100 дням CDTO, пошаговому roadmap трансформации на 36 месяцев, реальным кейсам российских компаний, метрикам и KPI, а также критическим ошибкам, которые чаще всего убивают трансформацию. Завершает материал практический чек‑лист: нужен ли CDTO именно вашей компании, какие есть альтернативы и в каких ситуациях промедление с назначением CDTO превращается в стратегический риск.

Читать далее

Визуализация данных в Python с помощью библиотеки Plotly: база для новичков

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели9.8K

Plotly — библиотека для интерактивной визуализации данных в Python. Она подходит для задач, где статичного графика недостаточно и важно исследовать данные прямо в процессе анализа.

В статье разбираем базовые возможности Plotly и основные типы графиков.

Читать далее

Уровень ИТ зрелости

Уровень сложностиСредний
Время на прочтение47 мин
Охват и читатели9.2K

Привет, Хабр! Сегодня начинаем долгий и подробный разбор уровней зрелости IT-организации. Это не просто теория — это практический гайд для CTO, IT-директоров и руководителей, которые хотят понять, где сейчас находится их компания и как двигаться вперёд.

Начнём с Level 0 — состояния полного хаоса. Если вы узнаёте свою компанию в этом описании, не паникуйте. Level 0 — это не конец света, это просто стартовая точка, и есть чёткий путь отсюда.

Читать далее

Lakehouse vs Data Warehouse в 2026: что выбирать DE-команде

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели6.5K

Привет, Хабр! Выбор между lakehouse и классическим хранилищем остается проблемой не первый год, но к 2026-му накопилось достаточно опыта, чтобы говорить предметно. Разберём, как эти архитектуры устроены под капотом, где каждая реально сильна и почему универсального ответа до сих пор нет.

Сравнить подходы

5 способов соврать с помощью графика: как нас обманывают цифры

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели12K

Говорят, что цифры не лгут, но графики — совсем другое дело. Мы привыкли доверять красивым дашбордам, но наш мозг считывает картинку быстрее, чем успевает включиться логика. Этим охотно пользуются маркетологи, политики и стартаперы. В этой статье разберем 5 классических приемов визуального обмана: от «откушенных» осей до коварных 3D-пирогов, которые превращают стагнацию в триумф прямо у вас на глазах.

Читать далее

Ближайшие события

Гибридный поиск с QWEN3-Max и RoSBARTa или RAG на графах

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели7.1K

Начало всех начальных начал 

Добрый день, уважаемые хабропоселенцы ;)) Сегодня мы будем говорить, снова о хакатонах и разработке RAG-моделей, вернее моделей с RAG-подходами и наших попытках выйти за рамки простого векторного поиска. Не так давно мы участвовали на всероссийском хакатоне “Альфа-Будущее”, организованным Альфа-Банком и посвящённому настройке RAG для вопросно-ответных систем. 

Нам необходимо было создать интеллектуальный pipeline RAG-системы, которая по пользовательскому запросу находит релевантные фрагменты в корпусе данных. Вообще, было на выбор две задачи, вторая звучала как “Разработка copilot приложения для клиентов микробизнеса”, но нам ближе оказалась вторая задача. И, конечно же, мы “запилили” своё “модное” решение, о котором вам спешим рассказать в этой статье. Мы проиллюстрируем, как выстраивали архитектуру, какие модели тестировали, на чём остановились и почему, именно такой подход оказался для нас наиболее удачным. Покажем, как работает весь пайплайн — от чанкования документов до гибридного поиска и поделимся результатами бенчмарков и планами развития системы в дальнейшем. Всех заинтересованных лиц приглашаю по традиции под кат ;))

Читать далее

Три кита масштабируемого IT-продукта: закон больших чисел, теория вероятностей и статистика

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели8.9K

Привет Хабр! В каждой компании есть люди, которые не пишут код каждый день, но почти каждый день принимают решения, от которых этот код либо спокойно живёт под нагрузкой, либо превращается в источник инцидентов и срочных созвонов. Думаю они согласятся, что масштабируемые IT-продукты строятся не только на технологиях, а ещё и на умении мыслить вероятностно.

Когда в команде спорят о фичах, производительности или надёжности, я редко слышу принципиально разные аргументы. Чаще это разные формы одного и того же:

Мне кажется, пользователям понравится.
Я уверен, что система выдержит.
Ну сейчас же всё работает.

Проблема в том, что «кажется» и «уверен» плохо масштабируются. А числа — масштабируются отлично.

Читать далее

QAD от NVIDIA: разбираюсь, почему 4-битная квантизация перестала всё ломать

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели15K

NVIDIA выпустила отчет о методе QAD, который позволяет квантовать LLM в 4 бита без потери качества на сложных задачах (математика, код). Разбираем, почему привычный QAT «ломает» модели после RLHF, как дистилляция через KL-дивергенцию решает эту проблему и почему метод работает даже на рандомных данных. Личный опыт попыток уместить 49B модель в железо и анализ нового подхода.

Читать далее

Как устроена архитектура факторов ранжирования в runtime поиска Ozon

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели8.2K

Привет, Хабр! Меня зовут Лев. Я работаю в поиске Ozon. Сегодня я буду рассказывать про одну из составляющих поиска, а именно про ранжирование.

В этой статье расскажу:
- Что такое ранжирование и факторы ранжирования.
- Как работает поисковое ранжирование в Ozon.
- Как мы работаем с факторами ранжирования.

Я буду переходить от простых примеров к сложным — от орехов и белок к товарам и сервисам.

Читать далее

Query Prediction, или как мы отказались от ANN и полюбили обратный индекс

Уровень сложностиСредний
Время на прочтение21 мин
Охват и читатели8.9K

Всем привет! Меня зовут Антон Пилькевич, я более четырёх лет занимаюсь ранжированием и текстовой релевантностью в поиске Ozon. И вот настал момент, когда у меня появилось время поделиться своими мыслями. В этой статье вас ждёт увлекательное путешествие в ML-мир текстового поиска Ozon, а также знакомство с флорой и фауной существующих решений в этой области! 

Читать далее

Валидация «каузальных» моделей

Время на прочтение10 мин
Охват и читатели5.9K

Привет! Меня зовут Паша, я маркетинговый аналитик в Купере. В этой статье речь пойдет о проверке качества «каузальных» моделей. На примере такой модели, как Double Machine Learning разберемся, откуда вообще берутся «каузальные» предсказания, как понять, что им можно доверять, и что делать с фундаментальной проблемой «скрытых конфаундеров».

Читать далее

С чего начинаются дашборды: путь от данных к инсайтам

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели6.5K

Мы часто воспринимаем дашборды как красивые визуализации – набор графиков, цифр и диаграмм. Но за этой «картинкой» скрывается огромный объём работы: настройка сбора данных, очистка, согласование метрик, построение архитектуры хранения и только затем — визуальная подача. Аналитик AkademiaDev Сергей Тищенко подробно объясняет, из чего на самом деле состоит путь от сырых данных до управленческих инсайтов.

Читать далее
1
23 ...