Обновить
256K+

Big Data *

Большие данные и всё о них

112,14
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Как Anthropic меняет подходы к разработке в софтверных компаниях

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели6.8K

На заметку всем, кто интересуется, как меняется современная разработка ПО.

Недавно Anthropic выпустил отличную статью о том, как меняется современная разработка ПО на примере трансформации подходов внутри собственной компании.

Читать далее

Новости

Линейная регрессия на стероидах: Double Machine Learning для устранения смещений в данных

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели9.3K

Любой аналитик знает, что самым надёжным способом проверки гипотез являются рандомизированные контролируемые эксперименты (RCT), или, как их называют в народе — A/B-тесты. На практике часто возникают ситуации, когда провести A/B-тест невозможно — в основном это происходит по этическим или техническим причинам. Однако бывают кейсы, когда рандомизация невозможна потому, что treatment-ом является определённое действие пользователя. Например, treatment-ом может быть оформление платной подписки или отмена бронирования на сервисе. Давайте назовём такой вид воздействия добровольным.

В русскоязычном пространстве, и в частности на Хабре, достаточно много статей, посвящённых таким методам Causal Inference, как DiD, PSM и Causal Impact. Тем не менее, к моему удивлению, практически нет статей, посвящённых методам на основе ортогонализации и regression adjustment, хотя, на мой взгляд, именно эти методы являются самыми удобными для оценки эффекта от добровольного treatment-а. Пришло время исправить это недоразумение и разобрать метод Double/Debiased Machine Learning (DML) и Partial Linear Regression для задач Causal Inference!

Читать далее

AI-дайджест #1

Время на прочтение4 мин
Охват и читатели9.7K

Привет, Хабр! Я Ольга Попова, ИИ-Евангелист Лаборатории искусственного интеллекта Департамента больших данных Россельхозбанка. Подготовила дайджест новостей про ИИ. Пишите, что вас больше всего зацепило.

Больше новостей про ИИ

Маленькая выборка, большая дисперсия: как мы собирали A/B-группы генетическим алгоритмом

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели8.5K

Привет, Хабр! На связи Анастасия Шулакова и Георгий Геймбух, аналитики поддержки Авито. Мы помогаем командам развивать внутренние инструменты для специалистов так, чтобы пользователи получали ответы быстрее, а поддержка оставалась управляемой по качеству и стоимости.

Недавно мы переработали один из самых нагруженных блоков админки — страницы пользователя и объявления, с которыми ежедневно работают поддержка, модерация и другие линии. Это был не косметический редизайн, а замена ключевого операционного контура. И главный вопрос, на который нужно было ответить перед решением о масштабировании: не ухудшает ли новый интерфейс AHT (среднее время обработки обращения)  — нашу ключевую метрику эффективности?

По задумке это выглядит как классическая задача для A/B-теста. Но в реальности дизайн сложнее: единица воздействия здесь — специалист, а не обращение, выборка маленькая, дисперсия большая, и обычный рандомный сплит даёт слишком высокий MDE.
В этой статье расскажем, как мы собирали группы генетическим алгоритмом, балансировали ковариаты, проверяли баланс после старта и считали итоговый эффект через CUPED — этот метод доступен из коробки в нашей внутренней A/B-платформе Trisigma, поэтому нам не пришлось писать расчёт с нуля, и мы сосредоточились на дизайне теста и выборе ковариат.

Читать далее

Elasticsearch без мастеров или как оживить труп

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели6.4K

Всем привет, меня зовут Илья и я хочу вам рассказать как я после небольшой правки в тераформ я потерял все мастера в кластере Elasticsearch. ЧатГПТ и гугл уже принесли мне лопату чтобы похоронить эти сервера, но начальство сказало: "Может что нибудь придумаешь?". В итоге 6 часов работ и кластер снова живой и зеленый. Хотите знать больше?

Хочу знать больше!

Контракты данных между командами: гайд по data contracts в дата‑пайплайнах

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели10K

Когда пайплайн отработал без ошибок, тесты зелёные, а в дашборде внезапно нули, проблема может быть не в инфраструктуре, а в отсутствии договорённостей между командами.

В статье разбираем, как data contracts помогают фиксировать структуру, правила и ответственность за данные — и почему это спасает витрины, отчёты и нервы дата-инженеров.

Читать далее

Искусственный интеллект без магии: Гигачат, нейросети, профессии и риск «дешёвого апокалипсиса» — интервью с Сергеем

Уровень сложностиСредний
Время на прочтение24 мин
Охват и читатели8.6K

Искусственный интеллект давно перестал быть темой только для исследовательских лабораторий. Он уже пишет код, редактирует изображения, помогает бизнесу, спорит с нами в чатах и постепенно превращается в новый слой интерфейса между человеком и цифровым миром. Но за громкими словами «нейросеть», «сильный ИИ» и «агент» часто теряется главное: что именно мы автоматизируем, где заканчивается маркетинг и почему искусственный интеллект может оказаться не угрозой, а способом не погибнуть от собственных технологий.

Я, Александр, автор телеграм-канала «Shulepov Code», поговорил с Сергеем Марковым — директором по развитию технологий искусственного интеллекта Сбера, автором сайта «markoff.science»  — о том, как устроена профессия ИИ-разработчика: от первых шахматных программ до мультимодальных моделей, почему за генеративными нейросетями будущее и как не потерять человеческое лицо в гонке алгоритмов.  

Читать далее

Функции управления цифровыми активами автомобильных дорог. Часть 2 – маппинг

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели8K

Здравствуйте, уважаемые читатели Хабра!

В первой части мы рассказали, как решили задачу сегментации полигона дороги в PostGIS. А теперь рассмотрим сопоставление сегментов двух разных версий дороги для сохранения учёта историчности привязанных к ним событий.

Интересно? Читать!

Fine Day Online 2026: пять докладов про то, почему BI не работает и что с этим делать

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели8.3K

Привет, Хабр! Пишет команда Business Intelligence GlowByte. Каждый год мы проводим Fine Day Online – конференцию про бизнес-аналитику, где практики из разных компаний делятся честным опытом. 22 апреля собрались спикеры из сети “Галамарт”, банков Уралсиб и ОТП, а также FanRuan, и все пять докладов оказались про одно и то же: данные есть, деньги в инструменты вложены, а бизнес по-прежнему принимает решения на ощущениях.

В этом материале хотим поделиться: что обсуждали спикеры, какие цифры называли, что пошло не так и чем закончилось.

Читать далее

Идентификация анонимного веб-трафика и 152-ФЗ: где проходит граница легальности и как устроена техническая механика

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели7.6K

Год назад я начал заниматься задачей, которая в маркетинговой индустрии формулируется так: «у вас на сайт пришло 1000 человек, заявку оставили 30 — что делать с оставшимися 970?». Чисто маркетинговый ответ — улучшать сайт, прогревать ремаркетингом, гнать в подписку. Технически — есть другой класс решений: идентифицировать часть тех 970 анонимов и инициировать контакт по телефону.

В рунете эта область с 2022–2023 годов разрослась до десятков сервисов с разной степенью легальности и разной технической архитектурой. Я работаю с одним из них (платформа INTER), но цель этой статьи — не реклама, а разбор того, как такие системы вообще устроены, где они законны, а где нет, и какие технические компромиссы за этим стоят.

Статья рассчитана на инженеров, продакт-менеджеров, юристов в IT и всех, кому интересно, как технически работает рынок «возврата ушедшего трафика».

Часть 1. Откуда берётся «соответствие»

Базовая задача: пользователь зашёл на сайт example.ru, посмотрел страницу, ушёл. С точки зрения сайта он анонимен — у него есть IP, User-Agent, набор куки, fingerprint браузера, возможно, идентификаторы рекламных систем (Яндекс Crypta, Google Click ID и так далее).

Чтобы сопоставить этот набор сигналов с телефонным номером, нужна где-то стоящая база, в которой такое соответствие уже есть. Источники этих баз — главный вопрос всей индустрии, и от ответа на него зависит легальность сервиса.

Условно источники делятся на три категории:

1. Согласие первой стороны (легально). Пользователь однажды оставил телефон на каком-то сайте-партнёре, при этом согласившись с обработкой ПД и передачей данных третьим лицам — это написано в политике обработки. Сайт-партнёр или DMP-агрегатор, с которым у партнёра есть договор, складывает: «вот fingerprint браузера X — вот телефон Y». Когда тот же fingerprint X появляется на сайте example.ru, происходит matching. Это самый чистый путь с точки зрения 152-ФЗ — пользователь сам дал согласие на обработку и передачу.

Читать далее

Почему сотрудники бросают ИИ после первой попытки — и как это исправить

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели6.6K

Компании массово покупают AI-инструменты, но сотрудники часто бросают их после первой же неудачной попытки. Разбираем, почему большинство AI-пилотов не доходят до реального эффекта, как появляется shadow AI и что на самом деле влияет на внедрение ИИ в корпоративной среде — от AI-грамотности и процессов до поддержки команды и рабочих сценариев использования.

Читать далее

Единая база данных гостей для ресторанной сети: интеграция Telegram, Remarked, IIKO, RocketData и платёжных систем

Время на прочтение7 мин
Охват и читатели5.9K

В ресторанных сетях данные о гостях часто распределены между несколькими системами. Бронирования хранятся в одном сервисе, чеки — в ресторанной учётной системе, переписки — в мессенджерах, отзывы — в агрегаторах, данные приложения — в отдельной базе, платежи — у эквайринга.

Такая архитектура усложняет работу с клиентским профилем. У бизнеса нет единой истории взаимодействия с гостем, менеджеры работают с фрагментами данных, а сервис, маркетинг и аналитика опираются на неполную картину. Для ресторанной сети это напрямую влияет на персонализацию, качество обслуживания, LTV и повторные визиты.

В проекте для сети из 10 ресторанов была реализована единая база данных гостей. Задача системы — собрать в одном профиле все взаимодействия клиента с бизнесом: от первого контакта и переписки до бронирований, чеков, отзывов, оплат, технических инцидентов и повторных визитов.

Читать далее

Data-функция не работает вместо вас

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели8K

-Gartner прогнозирует, что 80% инициатив в управлении данными провалятся к 2027г.

-MIT подводит статистику - 95% AI-проектов не срабатывают и основная причина - незрелость компаний в работе с данными.

-Chief Data Officer, высший руководитель функции управления данными, живёт в компании в среднем 30 мес.(2.5 года) Логично, что руководитель функции, инициативы которой проваливаются достаточно быстро выгорает.

Поговорим о причинах.

Думаю, причина этой статистики одна - заблуждение в сути работы с данными и AI.

Соблазнительно считать, что данные будут работать вместо вас, AI агент заменит сотрудников. Но они работают только вместе с вами.

Читать далее

Ближайшие события

Динамические квоты и лимиты: как не завалить очередь в highload

Уровень сложностиСложный
Время на прочтение10 мин
Охват и читатели11K

Представьте: ваш сервис Y генерирует 10 000 событий в секунду, а сервис X может проглотить только 500. И при этом нельзя потерять ни одного события, а порядок обработки обязан быть строгим. Очередь? Конечно. Но какую? И что делать, когда она переполнится?

В статье — разбираем реальную архитектурную задачу с разбором типовых ошибок, двух подходов к порядку (strict FIFO и per‑key ordering), нюансами DLQ, backpressure, идемпотентностью и скрытыми проблемами типа head‑of‑line blocking.

Разобрать задачу

Медленные запросы в Impala: как анализировать profile и не выносить SQL наружу

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели4.7K

Когда Impala-запрос начинает выполняться заметно дольше обычного, первое место, куда обычно идут смотреть - query profile, то есть профиль запроса. Там есть план выполнения, счетчики, оценки кардинальности, память, scan-часть, exchange, admission, хвосты по backend-ам и другая полезная информация.

Проблема в том, что текстовый profile не слишком удобный для анализа. Он большой, в нем много повторяющихся секций, часть сигналов видна только в связке с другими счетчиками. При этом почти всегда внутри есть чувствительная информация: SQL-текст, имена таблиц и колонок, пользователи, resource pools, хосты, фрагменты топологии выполнения.

Поэтому на практике появляются два привычных варианта:

Разбирать profile руками.

Скопировать SQL и profile в LLM и попросить объяснить, что не так.

Первый вариант надежнее, но требует времени и опыта. Второй удобнее, но плохо контролирует границу: какие данные ушли наружу, какие факты модель взяла за основу и где заканчивается диагностика, а где начинается галлюцинация догадка.

Читать далее

Функции управления цифровыми активами автомобильных дорог. Часть 1 – сегментация

Уровень сложностиСредний
Время на прочтение30 мин
Охват и читатели5.4K

Здравствуйте, уважаемые читатели Хабра!

В данной статье расскажем, как мы смогли автоматизировать процесс разбиения дорог в PostGIS, тем самым снизив нагрузку на специалистов и в разы увеличив скорость обработки полигонов.

Интересно? Читать!

HR-бот на базе RAG: архитектура корпоративной базы знаний для ресторанного холдинга

Время на прочтение5 мин
Охват и читатели6.5K

В ресторанном холдинге была внедрена система HR-бота на базе ИИ, которая работает поверх корпоративной базы знаний, учитывает роль сотрудника и предоставляет ответы со ссылками на актуальные документы.

Основная задача проекта — заменить разрозненные FAQ, Wiki, документы и чаты единым интерфейсом доступа к корпоративным знаниям. Сотрудник может задать вопрос в свободной форме и получить ответ с учётом своей должности, прав доступа и актуальной версии документа.

Читать далее

Почему RAG — фундамент любой AI-трансформации

Время на прочтение5 мин
Охват и читатели8.5K

За последние годы большинство AI-проектов в компаниях стартуют одинаково: сначала делают чат-бота, затем добавляют агентов, автоматизируют отдельные процессы и ожидают роста эффективности.

На практике такие проекты часто не дают устойчивого результата. Модель может корректно генерировать текст, демонстрации выглядят убедительно, но в реальной работе ответы оказываются нестабильными, противоречивыми и не связанными с внутренними стандартами компании.

Основная причина — отсутствие единого слоя знаний.

В проекте для ресторанной группы с 10+ заведениями и историей более 15 лет мы сознательно начали не с агентов и не с интерфейсов, а с построения корпоративной RAG-инфраструктуры. Этот слой стал основой всей последующей AI-архитектуры.

Читать далее

Как определить LLM под капотом чат-бота: учебный эксперимент по black-box fingerprinting

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели7.3K

Когда мы тестируем LLM‑приложение в режиме black box, мы видим только интерфейс: отправили сообщение — получили ответ. При этом модель под капотом может быть любой: DeepSeek, Qwen, GLM, Mistral, Llama, Claude, GPT, Gemini или локальная fine‑tuned модель. Для обычного пользователя это часто неважно. Для security‑тестирования — важно.

В AI cybersecurity это часть reconnaissance: перед тем как оценивать устойчивость приложения к prompt injection, jailbreak‑попыткам, утечкам системного промпта или ошибкам в RAG‑слое, полезно понимать, какая модельная семья работает внутри. Разные модели по‑разному отвечают на странные Unicode‑строки, mixed‑language запросы, вопросы о собственной идентичности, спорные утверждения и безопасные отказы.

Я попробовал воспроизвести идею статьи LLMmap: Fingerprinting For Large Language Models в упрощённом виде: собрать одинаковые probe‑промпты с нескольких моделей OpenRouter и проверить, можно ли отличать модели по совокупности ответов.

Читать далее

Как и зачем мы писали семантический слой для ИИ аналитики – SLayer

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели6.7K

Казалось бы, что может быть проще: даёшь LLM доступ к БД и просишь написать тебе нужный SQL! Но на практике и ИИ, и человек быстро сталкиваются с одинаковыми проблемами – взрывом кардинальности при JOIN’ах, ошибками в гранулярности, сложными подзапросами и отсутствием понятного бизнес-контекста.

Рассказываем, зачем и как мы проектировали семантический слой для детерминированной аналитики и адекватной работы ИИ-агентов с данными.

Давайте разбираться!
1
23 ...