Обновить
256K+

Big Data *

Большие данные и всё о них

183,03
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Data Mesh: что это и почему концепция не подходит большинству компаний в России

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели3.8K

Как устроен Data Mesh, какие требования подход предъявляет к бизнесу и почему большинству российских компаний сегодня зачастую важнее построить зрелое DWH, чем пытаться перейти к распределенной архитектуре данных

Читать далее

Новости

Как в 1915 году взялись собирать базу данных на всю страну без единого компьютера

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели9.9K

В 1915 году Владимир Иванович Вернадский запустил проект, который сегодня назвали бы национальной базой данных ресурсов. Без компьютеров и цифровых технологий комиссия КЕПС собрала сведения о недрах, лесах, водах и энергии страны, заложив основы подхода «сначала данные, потом решения».

Читать далее

Что делать, когда твои системы становятся legacy

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели8.3K

Всем привет. На связи Дмитрий Немчин из Т-Банка. Снова буду говорить про Greenplum, но в необычном контексте.

С 2015 года занимаюсь Greenplum: развитием, эксплуатацией, автоматизацией и всем, что обычно появляется вокруг большой аналитической платформы. Когда я пришел, у нас было два production-кластера Greenplum и десятки терабайтов данных. Сейчас production-кластеров около 20 и объемы данных измеряются петабайтами. За это время Greenplum прошел путь от небольшого DWH до центра крупной Дата Платформы. И сейчас это система, которая все еще держит большую часть нагрузки, но постепенно перестает быть точкой будущих инвестиций. 

Переход к такому состоянию системы часто воспринимается болезненно. Особенно если технология долго была центральной для команды и бизнеса. Но сам факт перехода в legacy не означает, что система была плохой или что работа команды обесценилась. Чаще наоборот: legacy становятся решения, которые долго работали, выдержали рост и успели стать частью критичной инфраструктуры. 

В статье хочу разобрать переход на примере Greenplum: что я называю legacy, почему технология начала ограничивать следующий этап роста, какие варианты были у команды и что происходит с людьми, когда привычная система постепенно уходит из фокуса развития. 

Читать далее

Как я собрал эталонный Data Engineering проект: ClickHouse, Kafka, Spark, dbt, Airflow и Superset за одну команду

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели12K

Меня зовут Андрей, я работаю с данными. И так получается, что на реальных проектах у меня никогда не было возможности собрать идеальный, на мой взгляд стек. Поэтому я собрал его в идеальном пет проекте.

Стать инженером данных

Интероперабельность медданных: почему один биомаркер — это не один код

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели8.1K

В каждой лаборатории один и тот же биомаркер называют по-своему, и кажется логичным «схлопнуть все синонимы в один код». Но это работает ровно наполовину: LOINC-код — это не название анализа, а шесть осей (что, чем, где, как измерили), и рядом нужен UCUM для единиц.

Почему «синонимы → код» — ловушка, зачем нужны и LOINC, и UCUM, как это ложится в OMOP для RWE и почему финальный код нельзя доверить языковой модели. Референсная архитектура на бумаге — и честно про путь.

Читать далее

«Кланы» Кремниевой долины. Кто решает, какой стартап получит миллионы — рынок или нетворк?

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели6.3K

Привет! Меня зовут Саша Журавлев. Я основатель и управляющий партнер фонда Mento VC. Мы инвестируем в технологические компании на стадиях Seed / Series A в США, Великобритании и Израиле, а в своем телеграм-канале рассказываю, как вижу рынок и принимаю инвестиционные решения.

Одна из вещей, которую я заметил за много лет в венчуре – решения крупных фондов могут быть не так независимы, как принято считать. Мы со-инвестируем с top-tier фондами и пристально за ними наблюдаем. И со временем начали замечать паттерны: одни и те же фонды снова и снова вместе оказываются в одних и тех же сделках. Потому что у них похожий фокус, или есть еще какая-то связь?

Мы с командой Mento VC решили проверить это на данных. Проанализировали тысячи раундов топ-36 фондов мира – и обнаружили 8 устойчивых кланов Кремниевой долины (вообще-то, 11, но при более пристальной проверке трое как кланы не подтвердились). «Кланами» мы считаем группы фондов, которые связаны не только через стартапы, в которые инвестируют, но и рабочими, дружескими и даже семейными связями. Про это не принято говорить вслух, но кто вам еще расскажет если не мы? 🙂

Читайте наше исследование ниже, а если вам интересны регулярные заметки и инсайты о венчуре, разбор наших сделок и новости рынка - добро пожаловать в мой телеграм-канал.

Читать далее

Невозможно быть вне политики с Airflow Cluster Policies

Уровень сложностиСредний
Время на прочтение19 мин
Охват и читатели7.5K

Привет, Хабр! Я Миша Онянов, Python-разработчик и платформенный инженер в крупнейшем проекте MAGNIT TECH – F&R. Из статьи вы узнаете, как с помощью механизма Cluster Policies в Apache Airflow вынести требования к DAG’ам в исполняемый код:

- Поговорим о том, когда и зачем нужен отдельный слой Policies.

- Посмотрим на примеры требований в больших data-инженерных проектах и способ их реализации с помощью политик.

- Покажу нашу архитектуру, примеры кода и способы внедрения.

- Сделаем выводы из моих ошибок, допущенных при разработке и внедрении.

- В конце посмотрим, в каких ещё системах используется аналогичный механизм.

Материал будет полезен всем, кто собирается внедрять или уже работает с Apache Airflow ✌️🥸

Читать далее

Почему A/B-тест не подходит для оценки ранжирования и что с этим делать

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели9.5K

Всем привет! Меня зовут Вардан Манучарян, я аналитик в команде Монетизации Авито, и мы отвечаем за механику алгоритмов продвижения, то есть управляем порядком, в котором пользователи видят объявления. Для этого нам нужно отслеживать, как изменения в ранжировании влияют на бизнес и покупателей. В этой статье расскажу про интерливинг, — метод, который помогает корректно проводить A/B-тесты с изменением ранжирования. Статья будет интересна аналитикам, которые проводят много A/B-тестов.

Читать далее

Разрыв в ИИ-компетенциях растёт. Что с этим делать компании?

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели6K

28 мая мы провели в Альпине закрытую мастер-встречу про то, как растить ИИ-компетенции в команде без миллионных бюджетов. На встречу подключились более 150 специалистов из фармы, ритейла, IT, логистики и банков. Я рассказывал про наш путь в AlpinaGPT, коллеги показывали свои кейсы в маркетинге, продажах и разработке, в зале задавали вопросы CTO и L&D-директора крупных российских компаний. После трёх часов разговоров у меня осталось одно главное наблюдение — то, ради чего я и пишу эту статью.

Меня зовут Жемал Хамидун, я CPO AlpinaGPT, Head of AI Alpina Digital и автор тг-канала «Готовим ИИшницу». Главное наблюдение простое: разрыв в ИИ-компетенциях растёт. Одни сотрудники работают с моделями ежедневно, у них уже свой стек, свои шаблоны, своя память между сессиями и встроенные в рабочий процесс агенты. Другие открыли ChatGPT один раз, написали что-то вроде «составь мне отчёт», получили шаблонный текст без контекста, решили, что инструмент бесполезный, и закрыли вкладку. Между этими двумя сотрудниками разрыв растёт каждый месяц быстрее, чем компании успевают его закрывать обучением. 

Разрыв в компетенциях растёт быстрее, чем обучение его закрывает

Главная цифра, которую я показывал на мастер-встрече, — из свежего отчёта DataCamp и YouGov State of Data & AI Literacy 2026 (опрос 517 enterprise-руководителей в США и Великобритании, декабрь 2025 — февраль 2026). 82% компаний уже предоставляют ИИ-обучение для сотрудников, и при этом 59% этих же компаний сообщают, что разрыв в ИИ-компетенциях у них всё равно сохраняется. 23% опрошенных заявили, что программы обучения не адаптированы к конкретным должностным обязанностям, 21% опрошенных говорят, что сотрудникам сложно понять, с чего начать. То есть деньги в обучение пошли, программы запустили, лицензии раздали — а сотрудники в массе своей по-прежнему не владеют ИИ на нужном уровне.  

Читать далее

Как Anthropic меняет подходы к разработке в софтверных компаниях

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели8.1K

На заметку всем, кто интересуется, как меняется современная разработка ПО.

Недавно Anthropic выпустил отличную статью о том, как меняется современная разработка ПО на примере трансформации подходов внутри собственной компании.

Читать далее

Линейная регрессия на стероидах: Double Machine Learning для устранения смещений в данных

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели10K

Любой аналитик знает, что самым надёжным способом проверки гипотез являются рандомизированные контролируемые эксперименты (RCT), или, как их называют в народе — A/B-тесты. На практике часто возникают ситуации, когда провести A/B-тест невозможно — в основном это происходит по этическим или техническим причинам. Однако бывают кейсы, когда рандомизация невозможна потому, что treatment-ом является определённое действие пользователя. Например, treatment-ом может быть оформление платной подписки или отмена бронирования на сервисе. Давайте назовём такой вид воздействия добровольным.

В русскоязычном пространстве, и в частности на Хабре, достаточно много статей, посвящённых таким методам Causal Inference, как DiD, PSM и Causal Impact. Тем не менее, к моему удивлению, практически нет статей, посвящённых методам на основе ортогонализации и regression adjustment, хотя, на мой взгляд, именно эти методы являются самыми удобными для оценки эффекта от добровольного treatment-а. Пришло время исправить это недоразумение и разобрать метод Double/Debiased Machine Learning (DML) и Partial Linear Regression для задач Causal Inference!

Читать далее

AI-дайджест #1

Время на прочтение4 мин
Охват и читатели10K

Привет, Хабр! Я Ольга Попова, ИИ-Евангелист Лаборатории искусственного интеллекта Департамента больших данных Россельхозбанка. Подготовила дайджест новостей про ИИ. Пишите, что вас больше всего зацепило.

Больше новостей про ИИ

Маленькая выборка, большая дисперсия: как мы собирали A/B-группы генетическим алгоритмом

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели9.5K

Привет, Хабр! На связи Анастасия Шулакова и Георгий Геймбух, аналитики поддержки Авито. Мы помогаем командам развивать внутренние инструменты для специалистов так, чтобы пользователи получали ответы быстрее, а поддержка оставалась управляемой по качеству и стоимости.

Недавно мы переработали один из самых нагруженных блоков админки — страницы пользователя и объявления, с которыми ежедневно работают поддержка, модерация и другие линии. Это был не косметический редизайн, а замена ключевого операционного контура. И главный вопрос, на который нужно было ответить перед решением о масштабировании: не ухудшает ли новый интерфейс AHT (среднее время обработки обращения)  — нашу ключевую метрику эффективности?

По задумке это выглядит как классическая задача для A/B-теста. Но в реальности дизайн сложнее: единица воздействия здесь — специалист, а не обращение, выборка маленькая, дисперсия большая, и обычный рандомный сплит даёт слишком высокий MDE.
В этой статье расскажем, как мы собирали группы генетическим алгоритмом, балансировали ковариаты, проверяли баланс после старта и считали итоговый эффект через CUPED — этот метод доступен из коробки в нашей внутренней A/B-платформе Trisigma, поэтому нам не пришлось писать расчёт с нуля, и мы сосредоточились на дизайне теста и выборе ковариат.

Читать далее

Ближайшие события

Elasticsearch без мастеров или как оживить труп

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели6.7K

Всем привет, меня зовут Илья и я хочу вам рассказать как я после небольшой правки в тераформ я потерял все мастера в кластере Elasticsearch. ЧатГПТ и гугл уже принесли мне лопату чтобы похоронить эти сервера, но начальство сказало: "Может что нибудь придумаешь?". В итоге 6 часов работ и кластер снова живой и зеленый. Хотите знать больше?

Хочу знать больше!

Контракты данных между командами: гайд по data contracts в дата‑пайплайнах

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели11K

Когда пайплайн отработал без ошибок, тесты зелёные, а в дашборде внезапно нули, проблема может быть не в инфраструктуре, а в отсутствии договорённостей между командами.

В статье разбираем, как data contracts помогают фиксировать структуру, правила и ответственность за данные — и почему это спасает витрины, отчёты и нервы дата-инженеров.

Читать далее

Искусственный интеллект без магии: Гигачат, нейросети, профессии и риск «дешёвого апокалипсиса» — интервью с Сергеем

Уровень сложностиСредний
Время на прочтение24 мин
Охват и читатели9K

Искусственный интеллект давно перестал быть темой только для исследовательских лабораторий. Он уже пишет код, редактирует изображения, помогает бизнесу, спорит с нами в чатах и постепенно превращается в новый слой интерфейса между человеком и цифровым миром. Но за громкими словами «нейросеть», «сильный ИИ» и «агент» часто теряется главное: что именно мы автоматизируем, где заканчивается маркетинг и почему искусственный интеллект может оказаться не угрозой, а способом не погибнуть от собственных технологий.

Я, Александр, автор телеграм-канала «Shulepov Code», поговорил с Сергеем Марковым — директором по развитию технологий искусственного интеллекта Сбера, автором сайта «markoff.science»  — о том, как устроена профессия ИИ-разработчика: от первых шахматных программ до мультимодальных моделей, почему за генеративными нейросетями будущее и как не потерять человеческое лицо в гонке алгоритмов.  

Читать далее

Функции управления цифровыми активами автомобильных дорог. Часть 2 – маппинг

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели8.3K

Здравствуйте, уважаемые читатели Хабра!

В первой части мы рассказали, как решили задачу сегментации полигона дороги в PostGIS. А теперь рассмотрим сопоставление сегментов двух разных версий дороги для сохранения учёта историчности привязанных к ним событий.

Интересно? Читать!

Fine Day Online 2026: пять докладов про то, почему BI не работает и что с этим делать

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели8.6K

Привет, Хабр! Пишет команда Business Intelligence GlowByte. Каждый год мы проводим Fine Day Online – конференцию про бизнес-аналитику, где практики из разных компаний делятся честным опытом. 22 апреля собрались спикеры из сети “Галамарт”, банков Уралсиб и ОТП, а также FanRuan, и все пять докладов оказались про одно и то же: данные есть, деньги в инструменты вложены, а бизнес по-прежнему принимает решения на ощущениях.

В этом материале хотим поделиться: что обсуждали спикеры, какие цифры называли, что пошло не так и чем закончилось.

Читать далее

Идентификация анонимного веб-трафика и 152-ФЗ: где проходит граница легальности и как устроена техническая механика

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели7.7K

Год назад я начал заниматься задачей, которая в маркетинговой индустрии формулируется так: «у вас на сайт пришло 1000 человек, заявку оставили 30 — что делать с оставшимися 970?». Чисто маркетинговый ответ — улучшать сайт, прогревать ремаркетингом, гнать в подписку. Технически — есть другой класс решений: идентифицировать часть тех 970 анонимов и инициировать контакт по телефону.

В рунете эта область с 2022–2023 годов разрослась до десятков сервисов с разной степенью легальности и разной технической архитектурой. Я работаю с одним из них (платформа INTER), но цель этой статьи — не реклама, а разбор того, как такие системы вообще устроены, где они законны, а где нет, и какие технические компромиссы за этим стоят.

Статья рассчитана на инженеров, продакт-менеджеров, юристов в IT и всех, кому интересно, как технически работает рынок «возврата ушедшего трафика».

Часть 1. Откуда берётся «соответствие»

Базовая задача: пользователь зашёл на сайт example.ru, посмотрел страницу, ушёл. С точки зрения сайта он анонимен — у него есть IP, User-Agent, набор куки, fingerprint браузера, возможно, идентификаторы рекламных систем (Яндекс Crypta, Google Click ID и так далее).

Чтобы сопоставить этот набор сигналов с телефонным номером, нужна где-то стоящая база, в которой такое соответствие уже есть. Источники этих баз — главный вопрос всей индустрии, и от ответа на него зависит легальность сервиса.

Условно источники делятся на три категории:

1. Согласие первой стороны (легально). Пользователь однажды оставил телефон на каком-то сайте-партнёре, при этом согласившись с обработкой ПД и передачей данных третьим лицам — это написано в политике обработки. Сайт-партнёр или DMP-агрегатор, с которым у партнёра есть договор, складывает: «вот fingerprint браузера X — вот телефон Y». Когда тот же fingerprint X появляется на сайте example.ru, происходит matching. Это самый чистый путь с точки зрения 152-ФЗ — пользователь сам дал согласие на обработку и передачу.

Читать далее

Почему сотрудники бросают ИИ после первой попытки — и как это исправить

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели6.7K

Компании массово покупают AI-инструменты, но сотрудники часто бросают их после первой же неудачной попытки. Разбираем, почему большинство AI-пилотов не доходят до реального эффекта, как появляется shadow AI и что на самом деле влияет на внедрение ИИ в корпоративной среде — от AI-грамотности и процессов до поддержки команды и рабочих сценариев использования.

Читать далее
1
23 ...