Обновить
145.67

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Как OpenAI похоронила традиционный BI — и что пришло ему на смену

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели9.2K

Зачем OpenAI купила базу данных Rockset за $117M и тут же убила её для всех клиентов.
Как устроена архитектура «пять слоёв контекста».
Почему принцип «meaning lives in code» меняет подход к документированию данных.
И что из этого может взять обычная компания уже сейчас без GPT-5 и без $117M.

Читать далее

Новости

Онлайн-оценка рекомендательных систем: метрики, которые говорят сейчас

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели4.8K

Всем привет! Меня зовут Василий Калинин, я senior-аналитик в отделе ML-аналитики музыкального сервиса Звук. Про то, чем занимается наша команда, мы уже писали ранее (можно почитать в этой статье). 

Мой сегодняшний рассказ будет посвящен метрикам онлайн-оценки рекомендательных систем, использующихся в нашей компании.

Читать далее

Визуализация данных на географических картах

Время на прочтение3 мин
Охват и читатели5.5K

Делюсь своим опытом и показываю как лучше всего визуализировать данные на картах. Рассказываю про логику цвета и особенности датавиза на нестандартных картах, на примере карты РФ и данным по объявлениям Авито.

Читать далее

9 подходов, как сделать свой RAG с блекджеком и…

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели6.6K

Если мы говорим про AI, говорим и про галлюцинации. Эти два понятия, к сожалению, стали неразрывны. И главная задача в 2026 не просто внедрить AI, чтобы потом всем рассказывать о своих успехах и как затраты сократились на 900%. Главная задача – сделать так, чтобы AI не врал. А врать он любит. Он буквально патологический врун! Но его можно понять, ведь наш друг боится показаться несведущим. И если он чего-то не знает о чем его спрашивают, он с высокой долей вероятности начинает привирать.

Давайте разберемся, как сделать так, чтобы AI не врал. И кратко рассмотрим аж 9 способов, а точнее 9 видов архитектур RAG.

Стартуем

Как я перестал писать код для микроконтроллеров вручную и подружил ESP32C6 с AI (Опыт создания платформы)

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели15K

Привет, Хабр! Меня зовут Александр Воробьев. За моими плечами разработка более 100 электронных устройств, пуско-наладка АСУ ТП и множество проектов, где нужно было "прикрутить" датчик к микроконтроллеру, написать веб-интерфейс и заставить это всё работать вместе. Каждый раз — это горы кода, даташитов и времени. В какой-то момент я задался вопросом: а можно ли автоматизировать этот процесс? Чтобы инженер думал над архитектурой, а не над синтаксисом? В этом посте я поделюсь своим путем создания инструмента, который позволяет собирать сложные IoT-системы за минуты с помощью AI-агента, и покажу это на реальных кейсах.

Читать далее

AI и Data engineering: Что реально происходит с профессией?

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели7.9K

Сразу успокоим читателя: AI не вытеснил data-инженера из рабочего процесса. Наоборот, он сделал эту роль еще более значимой. И в этой статье объясняется, что именно это означает для вас и вашей профессии. Не с точки зрения технологий и инструментов, а с точки зрения изменения зоны ответственности.

AI, как и везде, конечно классно справляется с некоторыми задачами, но всю ответственность по-прежнему несет человек. Весь контекст не передашь через промпт, и AI не делает компромиссных решений. Большинство систем не выходят из строя, потому что было сложно написать код. Выходят потому что решения по разработке были приняты поспешно, и без четкого понимания, кто и как этими системами будет пользоваться. И AI еще быстрее за нас принимает решения, но все те же риски «непонимания контекста» остаются.

Читать далее

План аварийного восстановления (Disaster Recovery Plan, DRP) DWH — зачем он нужен и как работает

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели4.8K

В статье рассказываем, зачем при сбоях в DWH нужен полноценный план аварийного восстановления, чем он отличается от резервного копирования данных и как выглядит на практике - на примере проекта для крупного ритейлера.

Читать далее

Почему HTTP-загрузка в Apache Doris такая быстрая: разбор Stream Load по исходникам

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели4.3K

Загружал пару лет переписки из Telegram в Apache Doris на ноутбуке. Первый запуск 2 часа. После оптимизации 206 400 сообщений за 5 секунд.

Полез в исходники разобраться, почему Stream Load (HTTP-загрузка данных) в Doris работает так быстро. В статье разбор C++ кода: от HTTP PUT до Segment-файла на диске.

Что внутри:
— 14 шагов одного HTTP-запроса (с диаграммой и кодом)
— StreamLoadPipe: буфер 4 MB с backpressure
— Иерархия записи: LoadChannel → DeltaWriter → MemTable → async flush
— 6 практических выводов: что крутить, что мерить, где смотреть compaction score

Читать далее

Дрейф данных в машинном обучении

Время на прочтение7 мин
Охват и читатели8.8K

Дрейф данных (Drift Data) — это ситуация, когда статистические свойства входных данных для модели машинного обучения изменяются со временем. При дрейфе данных взаимосвязи между признаками и самой целевой переменной перестают быть действительными. Это может привести к низкой производительности модели, неточным прогнозам и даже к сбоям.

Читать далее

Лес под прицелом нейросетей: сравниваем модели для выявления рубок со спутника

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели5.5K

Ханты-Мансийский автономный округ (ХМАО) – это не только 50% российской нефти, но и 530 тыс. кв. км лесов. Развитие инфраструктуры месторождений и интенсивные заготовки требуют жесткого контроля вырубок. С 2014 года здесь ведут мониторинг по снимкам со спутников, собрав базу из 15000 записей, включающих информацию о выявленных лесных рубках, но есть проблема: ручное дешифрирование происходит слишком долго и дорого.

Читать далее

Тренды аналитики в 2026 году: как меняется роль аналитика в мире неопределенности и AI

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели6.7K

К 2026 году AI перестал быть будущим, экономическая турбулентность стала фоном, а запросы бизнеса к аналитике заметно выросли. От специалистов всё реже ждут просто цифры или аккуратные дашборды, всё чаще — понимания, интерпретации и решений.

Я выделил восемь трендов, характерных для этого года, — давайте обсуждать каждый!

Читать далее

Искусственный интеллект в инвестициях: между хайпом и реальной пользой

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели4.7K

Интеграция алгоритмов искусственного интеллекта в процессы принятия инвестиционных решений стала одной из самых обсуждаемых тем в финансовой и крипто индустриях. Торговые системы на базе машинного обучения (ML) и большие языковые модели (LLM) потенциально могут обрабатывать огромные объёмы разнообразных данных в реальном времени, что обещает качественный скачок в точности прогнозирования рынков и эффективности управления капиталом. Другое дело — насколько эти ожидания оправданы. В этом обзоре я систематизирую информацию о текущем состоянии ИИ-технологий в инвестициях, их функциональных и реальных преимуществах, а также выявленных ограничениях и доступных инструментах. 

Что на самом деле означает «ИИ-инвестирование»

ИИ-инвестирование — это методология управления инвестиционными портфелями и совершения торговых операций, основанная на применении алгоритмов машинного обучения, нейросетевых архитектур и систем обработки естественного языка. В отличие от классических методов технического и фундаментального анализа, где трейдер оперирует фиксированным набором индикаторов и субъективной оценкой, ИИ-системы способны масштабировать аналитику на массивы данных неограниченного объёма.

Ключевое функциональное отличие заключается в способности к автоматическому расширению пространства признаков и адаптации моделей к нестационарным рыночным условиям без явного перепрограммирования. На практике эти технологии применяются для высокочастотного алгоритмического трейдинга, прогнозирования волатильности, скоринга кредитных рисков и анализа тональности новостного фона. Звучит впечатляюще, но дьявол, как всегда, кроется в деталях.

Читать далее

Наглая ложь и статистика: 5 способов обмануть вас без фотошопа

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели5.5K

Цифры обладают опасной аурой объективности. «Цифры не врут», — говорит нам внутренний голос. «Против математики не попрешь», — вторит ему здравый смысл. Но правда в том, что статистика — это не просто математика, это искусство интерпретации. И в умелых руках аналитика или маркетолога одни и те же сырые данные могут рассказать две совершенно разные истории.

Читать далее

Ближайшие события

Увольняем джуниора: автоматизируем анализ данных c Claude Code, Codex, Cursor, OpenCode

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели20K

Вспомните, как вы онбордили аналитика: показывали данные, примеры рабочих SQL, неочевидные легаси и костыли — и через какое-то время он начинал перформить самостоятельно.

Чтобы научить AI-агента — нужно пройти ровно те же шаги, только вместо недель, на обучения потратятся часы, а в результате большая часть рутины аналитика будет автоматизирована.

В этой статье я расскажу, как я автоматизировал свой анализ данных, и дам пошаговую инструкцию, которую вы с легкостью сможете повторить это у себя в проекте.

Статья будет полезна как предпринимателям, которые хотят оптимизировать процессы, так и аналитикам, которые хотят прокачать себя. Погнали!

Уволить

AGI: почему его не будет, и какую модель мы можем сделать вместо него?

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели6.5K

AGI это следующий этап развития ИИ. Подобная модель сможет самостоятельно изучать и решать задачи, совершать новые научные открытия, и в принципе это таблетка от всех проблем. По крайней мере, так считают современные техногиганты, в особенности Илон Маск или Сэм Альтман, которые яро пропагандируют идеи AGI и вот-вот обещают выпустить подобную модель. Но, к сожалению или к счастью, это невозможно, и вот почему.

Читать далее

Поиск аномалий: статистика или ML? Выбираем лучшее

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели5.1K

Поиск аномалий под микроскопом: от базовой статистики до робастных моделей с нуля на NumPy В машинном обучении поиск аномалий (Anomaly Detection) часто остается в тени классического обучения с учителем. Однако именно эта «иммунная система» данных спасает миллионы долларов в финтехе, предотвращает катастрофы на производстве и находит критические ошибки в медицинских картах.

В этой статье мы не просто импортируем готовые методы из sklearn. Мы разберем математическую логику трех мощных подходов, напишем их «примитивные» реализации на NumPy/Pandas, чтобы понять механику работы «под капотом», и проверим их в деле на реальном кейсе.

Наш полигон: Credit Card Fraud Detection
Для тестов мы возьмем классический датасет Credit Card Fraud Detection. Это идеальный пример «иголки в стоге сена»: здесь всего 0.17% мошеннических транзакций среди почти 300 тысяч записей. Смогут ли наши рукотворные алгоритмы их найти?

Эволюция методов: от простого к сложному
Мы пройдем путь от элементарной статистики до продвинутого геометрического анализа:

IQR (Interquartile Range): Статистическая классика. Узнаем, как «усы» боксплота помогают находить грубые выбросы.

Isolation Forest: Оригинальный подход, основанный на идее, что аномалию проще всего «изолировать» случайными разрезами пространства.

Elliptic Envelope: Тяжелая артиллерия робастной статистики. Будем строить многомерный эллипс, который игнорирует попытки аномалий исказить его форму.

Читать далее

Перестройка martech: почему маркетинговые технологии остаются центром затрат

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели7.8K

Маркетинговые технологии за последние десять лет прошли путь от «полезного дополнения» до обязательного элемента почти любой зрелой компании. CRM, CDP, маркетинговая автоматизация, BI-системы, инструменты персонализации, платформы для управления рекламой — стек растёт быстрее, чем успевают обновляться оргструктуры. На бумаге всё выглядит впечатляюще: инвестиции в martech увеличиваются, команды становятся data-driven, автоматизация ускоряет процессы.

А потом на совещании звучит простой вопрос: «А где рост?». И становится неловко.

Потому что технологически всё выглядит зрелым, а стратегически — не всегда понятно, что именно изменилось. Martech вроде бы должен усиливать бизнес, но чаще его воспринимают как обязательную статью расходов. Без него нельзя. Но и без него, если честно, бизнес бы не рухнул.

Это ощущение разрыва — не единичный случай. В исследованиях McKinsey о “rewiring martech” описывается похожая проблема: компании активно инвестируют в технологии, но лишь немногие получают системный рост от этих инвестиций. Я использую их данные как ориентир, но ниже — скорее мой взгляд на то, почему это происходит.

Читать далее

Хороший, плохой, злой: База данных, data catalog и AI

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели5.4K

Всех приветствую! Меня зовут Павел, работаю в компании Lasmart. Одно из направлений деятельности всегда было внедрение и развитие DWH. В какой-то момент задумались о том, чтобы оптимизировать прежде всего свою работу в некоторых аспектах. И первым инструментом сделали генерацию бизнес-описания на основе AI. Назвали Datadesc (data + description). Об этом опыте и пойдет речь в этой статье.

Читать далее

Автоматический анализ GPX-треков: от трека до аналитики

Время на прочтение8 мин
Охват и читатели6.8K

Привет, Хабр! Сегодня хочу поделиться интересным проектом, который мы сделали для конкурса. Задача — превратить сырые GPX-треки (треки с GPS-устройств) в структурированные данные с визуализацией, метеорологической и географической аналитикой. Всё это — на Python, с использованием открытых API и библиотек для работы с геоданными.

Читать далее

Культура принятия решений: кейс Sminex на конференции Process Mining

Время на прочтение6 мин
Охват и читатели6.3K

Как культурная среда в компании влияет на принятие решений и зачем девелоперу внедрять процессную аналитику — обсудили на ежегодной открытой конференции Сбера по Process Mining. Николай Бажанов, руководитель отдела бизнес-процессов в Sminex, выступил в качестве спикера и принял участие в панельной дискуссии о новых возможностях, которые даёт ИИ.

Подход Sminex: здравый смысл важнее регламентов

Николай рассказал о культуре Sminex — основе для эффективного использования процессной аналитики. Цель её внедрения — получить объективную картину выполнения процессов в строительстве.

Читать далее
1
23 ...