Обновить
146.33

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Работа с объемными данными в Python для начинающих

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели1.2K

Наверняка каждый, кто начинает погружаться в анализ данных, сталкивался с этой классической проблемой. Вы скачиваете гигантский CSV-файл, по привычке пишете pd.read_csv(), запускаете ячейку и... кулеры начинают выть, система жутко тормозит, а в итоге скрипт падает с ошибкой нехватки памяти.

Первая мысль в такой ситуации — нужен компьютер помощнее или облачный сервер. На самом деле, чтобы переваривать огромные файлы, вовсе не обязательно наращивать оперативку. Проблема кроется в том, что по умолчанию мы пытаемся запихнуть весь объем данных в память целиком.

Существует довольно много простых техник, которые позволяют обойти это ограничение. Ниже мы разберем несколько таких приемов, которые спасают, когда ваши данные переросли возможности вашего железа. Пойдем от самых базовых к чуть более продвинутым.

Читать далее

Новости

Правила DATEADD в DAX

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели3.8K

Привет, Хабр! Важной составной частью Time Intelligence в DAX являются функции работы со временем, в частности, DATEADD, т.к. она является базовой для других (например, SAMEPERIODLASTYEAR является псевдонимом DATEADD('Date'[Date], -1, YEAR)) и возвращает таблицу (в отличие, например, от EDATE , которая возвращает только скаляр), так и использоваться в качестве фильтра в CALCULATE.

Информацию о DATEADD приходится собирать из разных источников. Часть описано в официальной документации DATEADD, что-то есть в DAX Guide, что-то есть в материалах SQL BI, поэтому картина составляется по частям, хотя логика функции неочевидна и велики риски ошибок при использовании DATEADD в случае некорректного её использования.

Интересующимся правилами DATEADD для обеспечения Time Intelligence в DAX — добро пожаловать под кат :)

Читать далее

Как OpenAI похоронила традиционный BI — и что пришло ему на смену

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели11K

Зачем OpenAI купила базу данных Rockset за $117M и тут же убила её для всех клиентов.
Как устроена архитектура «пять слоёв контекста».
Почему принцип «meaning lives in code» меняет подход к документированию данных.
И что из этого может взять обычная компания уже сейчас без GPT-5 и без $117M.

Читать далее

Онлайн-оценка рекомендательных систем: метрики, которые говорят сейчас

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели5.2K

Всем привет! Меня зовут Василий Калинин, я senior-аналитик в отделе ML-аналитики музыкального сервиса Звук. Про то, чем занимается наша команда, мы уже писали ранее (можно почитать в этой статье). 

Мой сегодняшний рассказ будет посвящен метрикам онлайн-оценки рекомендательных систем, использующихся в нашей компании.

Читать далее

Визуализация данных на географических картах

Время на прочтение3 мин
Охват и читатели6.1K

Делюсь своим опытом и показываю как лучше всего визуализировать данные на картах. Рассказываю про логику цвета и особенности датавиза на нестандартных картах, на примере карты РФ и данным по объявлениям Авито.

Читать далее

9 подходов, как сделать свой RAG с блекджеком и…

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели7.3K

Если мы говорим про AI, говорим и про галлюцинации. Эти два понятия, к сожалению, стали неразрывны. И главная задача в 2026 не просто внедрить AI, чтобы потом всем рассказывать о своих успехах и как затраты сократились на 900%. Главная задача – сделать так, чтобы AI не врал. А врать он любит. Он буквально патологический врун! Но его можно понять, ведь наш друг боится показаться несведущим. И если он чего-то не знает о чем его спрашивают, он с высокой долей вероятности начинает привирать.

Давайте разберемся, как сделать так, чтобы AI не врал. И кратко рассмотрим аж 9 способов, а точнее 9 видов архитектур RAG.

Стартуем

Как я перестал писать код для микроконтроллеров вручную и подружил ESP32C6 с AI (Опыт создания платформы)

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели17K

Привет, Хабр! Меня зовут Александр Воробьев. За моими плечами разработка более 100 электронных устройств, пуско-наладка АСУ ТП и множество проектов, где нужно было "прикрутить" датчик к микроконтроллеру, написать веб-интерфейс и заставить это всё работать вместе. Каждый раз — это горы кода, даташитов и времени. В какой-то момент я задался вопросом: а можно ли автоматизировать этот процесс? Чтобы инженер думал над архитектурой, а не над синтаксисом? В этом посте я поделюсь своим путем создания инструмента, который позволяет собирать сложные IoT-системы за минуты с помощью AI-агента, и покажу это на реальных кейсах.

Читать далее

AI и Data engineering: Что реально происходит с профессией?

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели8.7K

Сразу успокоим читателя: AI не вытеснил data-инженера из рабочего процесса. Наоборот, он сделал эту роль еще более значимой. И в этой статье объясняется, что именно это означает для вас и вашей профессии. Не с точки зрения технологий и инструментов, а с точки зрения изменения зоны ответственности.

AI, как и везде, конечно классно справляется с некоторыми задачами, но всю ответственность по-прежнему несет человек. Весь контекст не передашь через промпт, и AI не делает компромиссных решений. Большинство систем не выходят из строя, потому что было сложно написать код. Выходят потому что решения по разработке были приняты поспешно, и без четкого понимания, кто и как этими системами будет пользоваться. И AI еще быстрее за нас принимает решения, но все те же риски «непонимания контекста» остаются.

Читать далее

План аварийного восстановления (Disaster Recovery Plan, DRP) DWH — зачем он нужен и как работает

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели5.1K

В статье рассказываем, зачем при сбоях в DWH нужен полноценный план аварийного восстановления, чем он отличается от резервного копирования данных и как выглядит на практике - на примере проекта для крупного ритейлера.

Читать далее

Почему HTTP-загрузка в Apache Doris такая быстрая: разбор Stream Load по исходникам

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели4.5K

Загружал пару лет переписки из Telegram в Apache Doris на ноутбуке. Первый запуск 2 часа. После оптимизации 206 400 сообщений за 5 секунд.

Полез в исходники разобраться, почему Stream Load (HTTP-загрузка данных) в Doris работает так быстро. В статье разбор C++ кода: от HTTP PUT до Segment-файла на диске.

Что внутри:
— 14 шагов одного HTTP-запроса (с диаграммой и кодом)
— StreamLoadPipe: буфер 4 MB с backpressure
— Иерархия записи: LoadChannel → DeltaWriter → MemTable → async flush
— 6 практических выводов: что крутить, что мерить, где смотреть compaction score

Читать далее

Дрейф данных в машинном обучении

Время на прочтение7 мин
Охват и читатели8.9K

Дрейф данных (Drift Data) — это ситуация, когда статистические свойства входных данных для модели машинного обучения изменяются со временем. При дрейфе данных взаимосвязи между признаками и самой целевой переменной перестают быть действительными. Это может привести к низкой производительности модели, неточным прогнозам и даже к сбоям.

Читать далее

Лес под прицелом нейросетей: сравниваем модели для выявления рубок со спутника

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели5.6K

Ханты-Мансийский автономный округ (ХМАО) – это не только 50% российской нефти, но и 530 тыс. кв. км лесов. Развитие инфраструктуры месторождений и интенсивные заготовки требуют жесткого контроля вырубок. С 2014 года здесь ведут мониторинг по снимкам со спутников, собрав базу из 15000 записей, включающих информацию о выявленных лесных рубках, но есть проблема: ручное дешифрирование происходит слишком долго и дорого.

Читать далее

Тренды аналитики в 2026 году: как меняется роль аналитика в мире неопределенности и AI

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели6.7K

К 2026 году AI перестал быть будущим, экономическая турбулентность стала фоном, а запросы бизнеса к аналитике заметно выросли. От специалистов всё реже ждут просто цифры или аккуратные дашборды, всё чаще — понимания, интерпретации и решений.

Я выделил восемь трендов, характерных для этого года, — давайте обсуждать каждый!

Читать далее

Ближайшие события

Искусственный интеллект в инвестициях: между хайпом и реальной пользой

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели4.8K

Интеграция алгоритмов искусственного интеллекта в процессы принятия инвестиционных решений стала одной из самых обсуждаемых тем в финансовой и крипто индустриях. Торговые системы на базе машинного обучения (ML) и большие языковые модели (LLM) потенциально могут обрабатывать огромные объёмы разнообразных данных в реальном времени, что обещает качественный скачок в точности прогнозирования рынков и эффективности управления капиталом. Другое дело — насколько эти ожидания оправданы. В этом обзоре я систематизирую информацию о текущем состоянии ИИ-технологий в инвестициях, их функциональных и реальных преимуществах, а также выявленных ограничениях и доступных инструментах. 

Что на самом деле означает «ИИ-инвестирование»

ИИ-инвестирование — это методология управления инвестиционными портфелями и совершения торговых операций, основанная на применении алгоритмов машинного обучения, нейросетевых архитектур и систем обработки естественного языка. В отличие от классических методов технического и фундаментального анализа, где трейдер оперирует фиксированным набором индикаторов и субъективной оценкой, ИИ-системы способны масштабировать аналитику на массивы данных неограниченного объёма.

Ключевое функциональное отличие заключается в способности к автоматическому расширению пространства признаков и адаптации моделей к нестационарным рыночным условиям без явного перепрограммирования. На практике эти технологии применяются для высокочастотного алгоритмического трейдинга, прогнозирования волатильности, скоринга кредитных рисков и анализа тональности новостного фона. Звучит впечатляюще, но дьявол, как всегда, кроется в деталях.

Читать далее

Наглая ложь и статистика: 5 способов обмануть вас без фотошопа

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели5.6K

Цифры обладают опасной аурой объективности. «Цифры не врут», — говорит нам внутренний голос. «Против математики не попрешь», — вторит ему здравый смысл. Но правда в том, что статистика — это не просто математика, это искусство интерпретации. И в умелых руках аналитика или маркетолога одни и те же сырые данные могут рассказать две совершенно разные истории.

Читать далее

Увольняем джуниора: автоматизируем анализ данных c Claude Code, Codex, Cursor, OpenCode

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели21K

Вспомните, как вы онбордили аналитика: показывали данные, примеры рабочих SQL, неочевидные легаси и костыли — и через какое-то время он начинал перформить самостоятельно.

Чтобы научить AI-агента — нужно пройти ровно те же шаги, только вместо недель, на обучения потратятся часы, а в результате большая часть рутины аналитика будет автоматизирована.

В этой статье я расскажу, как я автоматизировал свой анализ данных, и дам пошаговую инструкцию, которую вы с легкостью сможете повторить это у себя в проекте.

Статья будет полезна как предпринимателям, которые хотят оптимизировать процессы, так и аналитикам, которые хотят прокачать себя. Погнали!

Уволить

AGI: почему его не будет, и какую модель мы можем сделать вместо него?

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели6.5K

AGI это следующий этап развития ИИ. Подобная модель сможет самостоятельно изучать и решать задачи, совершать новые научные открытия, и в принципе это таблетка от всех проблем. По крайней мере, так считают современные техногиганты, в особенности Илон Маск или Сэм Альтман, которые яро пропагандируют идеи AGI и вот-вот обещают выпустить подобную модель. Но, к сожалению или к счастью, это невозможно, и вот почему.

Читать далее

Поиск аномалий: статистика или ML? Выбираем лучшее

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели5.2K

Поиск аномалий под микроскопом: от базовой статистики до робастных моделей с нуля на NumPy В машинном обучении поиск аномалий (Anomaly Detection) часто остается в тени классического обучения с учителем. Однако именно эта «иммунная система» данных спасает миллионы долларов в финтехе, предотвращает катастрофы на производстве и находит критические ошибки в медицинских картах.

В этой статье мы не просто импортируем готовые методы из sklearn. Мы разберем математическую логику трех мощных подходов, напишем их «примитивные» реализации на NumPy/Pandas, чтобы понять механику работы «под капотом», и проверим их в деле на реальном кейсе.

Наш полигон: Credit Card Fraud Detection
Для тестов мы возьмем классический датасет Credit Card Fraud Detection. Это идеальный пример «иголки в стоге сена»: здесь всего 0.17% мошеннических транзакций среди почти 300 тысяч записей. Смогут ли наши рукотворные алгоритмы их найти?

Эволюция методов: от простого к сложному
Мы пройдем путь от элементарной статистики до продвинутого геометрического анализа:

IQR (Interquartile Range): Статистическая классика. Узнаем, как «усы» боксплота помогают находить грубые выбросы.

Isolation Forest: Оригинальный подход, основанный на идее, что аномалию проще всего «изолировать» случайными разрезами пространства.

Elliptic Envelope: Тяжелая артиллерия робастной статистики. Будем строить многомерный эллипс, который игнорирует попытки аномалий исказить его форму.

Читать далее

Перестройка martech: почему маркетинговые технологии остаются центром затрат

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели7.8K

Маркетинговые технологии за последние десять лет прошли путь от «полезного дополнения» до обязательного элемента почти любой зрелой компании. CRM, CDP, маркетинговая автоматизация, BI-системы, инструменты персонализации, платформы для управления рекламой — стек растёт быстрее, чем успевают обновляться оргструктуры. На бумаге всё выглядит впечатляюще: инвестиции в martech увеличиваются, команды становятся data-driven, автоматизация ускоряет процессы.

А потом на совещании звучит простой вопрос: «А где рост?». И становится неловко.

Потому что технологически всё выглядит зрелым, а стратегически — не всегда понятно, что именно изменилось. Martech вроде бы должен усиливать бизнес, но чаще его воспринимают как обязательную статью расходов. Без него нельзя. Но и без него, если честно, бизнес бы не рухнул.

Это ощущение разрыва — не единичный случай. В исследованиях McKinsey о “rewiring martech” описывается похожая проблема: компании активно инвестируют в технологии, но лишь немногие получают системный рост от этих инвестиций. Я использую их данные как ориентир, но ниже — скорее мой взгляд на то, почему это происходит.

Читать далее

Хороший, плохой, злой: База данных, data catalog и AI

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели5.4K

Всех приветствую! Меня зовут Павел, работаю в компании Lasmart. Одно из направлений деятельности всегда было внедрение и развитие DWH. В какой-то момент задумались о том, чтобы оптимизировать прежде всего свою работу в некоторых аспектах. И первым инструментом сделали генерацию бизнес-описания на основе AI. Назвали Datadesc (data + description). Об этом опыте и пойдет речь в этой статье.

Читать далее
1
23 ...