Обновить
147.68

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Ответственность и свобода: как мы ищем баланс в «Лапка в лапку»

Время на прочтение4 мин
Охват и читатели2.4K

Последние годы стали временем ограничений (ещё помните ковид и свои первые ощущения на самоизоляции?). То, что вчера казалось стабильным фундаментом, сегодня может исчезнуть. В таких условиях легко начать воспринимать ограничения как главного врага.

Жан-Поль Сартр писал, что человек «обречён быть свободным» — но эта свобода всегда связана с ответственностью за выбор. В цифровых продуктах мы часто говорим о свободе пользователя, но гораздо реже — о цене этой свободы.

Читать далее

Новости

Data catalog есть, а пользы нет: Частые ошибки внедрения

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели4.1K

Data governance, data mesh, modern data stack, data lineage – столько разных data, столько разных популярных подходов и инструментов. Лидером по популярности (на мой скромный взгляд) среди всех них является data catalog. Многие говорят о нем, многие хотят его, многие уже внедрили. Но внедрить это одно дело, а вот получить от него пользу – дело совсем другое.

Мы сформировали список самых частых проблем, основанные не только на нашем опыте, но и на опыте наших коллег, проанализировав множество статей и материалов на эту тему.

Читать далее

«Я 6 лет в AI, и вот что скажу: грядёт нечто похлеще COVID» — Разбор статьи, встряхнувшей IT-сообщество

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели4.8K

Привет, Хабр! На связи Keisilop. Последние полгода пристально слежу за тем, что происходит в мире ИИ. Для этого завёл ТГ-канал, где отмечаю главные события и тенденции, стараюсь делиться самыми важными инсайтами. Это моя первая статья на Хабре — пересказ и разбор материала, который заставил меня серьёзно задуматься о будущем.

Речь о статье Мэтта Шумера (Matt Shumer) «Something Big Is Happening». Мэтт — не теоретик, а практик: 6 лет он строит AI-стартапы и инвестирует в эту сферу. Он живет в этом мире. И его честное мнение, по его же словам, «звучит так, будто я сошел с ума».

Но именно потому, что оно звучит так пугающе и откровенно, я считаю, что каждый из нас должен это услышать. Мы стоим на пороге перемен, которые могут оказаться куда масштабнее, чем пандемия COVID-19. Помните февраль 2020-го? Большинство из нас отмахивалось от новостей о вирусе. А через три недели мир изменился до неузнаваемости.

Мэтт считает, что сейчас мы находимся в той самой фазе «да это всё преувеличено» по отношению к AI. И я, пожалуй, с ним соглашусь. Давайте разберемся, почему.

Читать далее

Работа с объемными данными в Python для начинающих

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели5K

Наверняка каждый, кто начинает погружаться в анализ данных, сталкивался с этой классической проблемой. Вы скачиваете гигантский CSV-файл, по привычке пишете pd.read_csv(), запускаете ячейку и... кулеры начинают выть, система жутко тормозит, а в итоге скрипт падает с ошибкой нехватки памяти.

Первая мысль в такой ситуации — нужен компьютер помощнее или облачный сервер. На самом деле, чтобы переваривать огромные файлы, вовсе не обязательно наращивать оперативку. Проблема кроется в том, что по умолчанию мы пытаемся запихнуть весь объем данных в память целиком.

Существует довольно много простых техник, которые позволяют обойти это ограничение. Ниже мы разберем несколько таких приемов, которые спасают, когда ваши данные переросли возможности вашего железа. Пойдем от самых базовых к чуть более продвинутым.

Читать далее

Правила DATEADD в DAX

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели5.7K

Привет, Хабр! Важной составной частью Time Intelligence в DAX являются функции работы со временем, в частности, DATEADD, т.к. она является базовой для других (например, SAMEPERIODLASTYEAR является псевдонимом DATEADD('Date'[Date], -1, YEAR)) и возвращает таблицу (в отличие, например, от EDATE , которая возвращает только скаляр), так и использоваться в качестве фильтра в CALCULATE.

Информацию о DATEADD приходится собирать из разных источников. Часть описано в официальной документации DATEADD, что-то есть в DAX Guide, что-то есть в материалах SQL BI, поэтому картина составляется по частям, хотя логика функции неочевидна и велики риски ошибок при использовании DATEADD в случае некорректного её использования.

Интересующимся правилами DATEADD для обеспечения Time Intelligence в DAX — добро пожаловать под кат :-)

Читать далее

Как OpenAI похоронила традиционный BI — и что пришло ему на смену

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели11K

Зачем OpenAI купила базу данных Rockset за $117M и тут же убила её для всех клиентов.
Как устроена архитектура «пять слоёв контекста».
Почему принцип «meaning lives in code» меняет подход к документированию данных.
И что из этого может взять обычная компания уже сейчас без GPT-5 и без $117M.

Читать далее

Онлайн-оценка рекомендательных систем: метрики, которые говорят сейчас

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели5.3K

Всем привет! Меня зовут Василий Калинин, я senior-аналитик в отделе ML-аналитики музыкального сервиса Звук. Про то, чем занимается наша команда, мы уже писали ранее (можно почитать в этой статье). 

Мой сегодняшний рассказ будет посвящен метрикам онлайн-оценки рекомендательных систем, использующихся в нашей компании.

Читать далее

Визуализация данных на географических картах

Время на прочтение3 мин
Охват и читатели6.3K

Делюсь своим опытом и показываю как лучше всего визуализировать данные на картах. Рассказываю про логику цвета и особенности датавиза на нестандартных картах, на примере карты РФ и данным по объявлениям Авито.

Читать далее

9 подходов, как сделать свой RAG с блекджеком и…

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели7.6K

Если мы говорим про AI, говорим и про галлюцинации. Эти два понятия, к сожалению, стали неразрывны. И главная задача в 2026 не просто внедрить AI, чтобы потом всем рассказывать о своих успехах и как затраты сократились на 900%. Главная задача – сделать так, чтобы AI не врал. А врать он любит. Он буквально патологический врун! Но его можно понять, ведь наш друг боится показаться несведущим. И если он чего-то не знает о чем его спрашивают, он с высокой долей вероятности начинает привирать.

Давайте разберемся, как сделать так, чтобы AI не врал. И кратко рассмотрим аж 9 способов, а точнее 9 видов архитектур RAG.

Стартуем

Как я перестал писать код для микроконтроллеров вручную и подружил ESP32C6 с AI (Опыт создания платформы)

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели18K

Привет, Хабр! Меня зовут Александр Воробьев. За моими плечами разработка более 100 электронных устройств, пуско-наладка АСУ ТП и множество проектов, где нужно было "прикрутить" датчик к микроконтроллеру, написать веб-интерфейс и заставить это всё работать вместе. Каждый раз — это горы кода, даташитов и времени. В какой-то момент я задался вопросом: а можно ли автоматизировать этот процесс? Чтобы инженер думал над архитектурой, а не над синтаксисом? В этом посте я поделюсь своим путем создания инструмента, который позволяет собирать сложные IoT-системы за минуты с помощью AI-агента, и покажу это на реальных кейсах.

Читать далее

AI и Data engineering: Что реально происходит с профессией?

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели9.1K

Сразу успокоим читателя: AI не вытеснил data-инженера из рабочего процесса. Наоборот, он сделал эту роль еще более значимой. И в этой статье объясняется, что именно это означает для вас и вашей профессии. Не с точки зрения технологий и инструментов, а с точки зрения изменения зоны ответственности.

AI, как и везде, конечно классно справляется с некоторыми задачами, но всю ответственность по-прежнему несет человек. Весь контекст не передашь через промпт, и AI не делает компромиссных решений. Большинство систем не выходят из строя, потому что было сложно написать код. Выходят потому что решения по разработке были приняты поспешно, и без четкого понимания, кто и как этими системами будет пользоваться. И AI еще быстрее за нас принимает решения, но все те же риски «непонимания контекста» остаются.

Читать далее

План аварийного восстановления (Disaster Recovery Plan, DRP) DWH — зачем он нужен и как работает

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели5.2K

В статье рассказываем, зачем при сбоях в DWH нужен полноценный план аварийного восстановления, чем он отличается от резервного копирования данных и как выглядит на практике - на примере проекта для крупного ритейлера.

Читать далее

Почему HTTP-загрузка в Apache Doris такая быстрая: разбор Stream Load по исходникам

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели4.6K

Загружал пару лет переписки из Telegram в Apache Doris на ноутбуке. Первый запуск 2 часа. После оптимизации 206 400 сообщений за 5 секунд.

Полез в исходники разобраться, почему Stream Load (HTTP-загрузка данных) в Doris работает так быстро. В статье разбор C++ кода: от HTTP PUT до Segment-файла на диске.

Что внутри:
— 14 шагов одного HTTP-запроса (с диаграммой и кодом)
— StreamLoadPipe: буфер 4 MB с backpressure
— Иерархия записи: LoadChannel → DeltaWriter → MemTable → async flush
— 6 практических выводов: что крутить, что мерить, где смотреть compaction score

Читать далее

Ближайшие события

Дрейф данных в машинном обучении

Время на прочтение7 мин
Охват и читатели9K

Дрейф данных (Drift Data) — это ситуация, когда статистические свойства входных данных для модели машинного обучения изменяются со временем. При дрейфе данных взаимосвязи между признаками и самой целевой переменной перестают быть действительными. Это может привести к низкой производительности модели, неточным прогнозам и даже к сбоям.

Читать далее

Лес под прицелом нейросетей: сравниваем модели для выявления рубок со спутника

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели5.6K

Ханты-Мансийский автономный округ (ХМАО) – это не только 50% российской нефти, но и 530 тыс. кв. км лесов. Развитие инфраструктуры месторождений и интенсивные заготовки требуют жесткого контроля вырубок. С 2014 года здесь ведут мониторинг по снимкам со спутников, собрав базу из 15000 записей, включающих информацию о выявленных лесных рубках, но есть проблема: ручное дешифрирование происходит слишком долго и дорого.

Читать далее

Тренды аналитики в 2026 году: как меняется роль аналитика в мире неопределенности и AI

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели6.8K

К 2026 году AI перестал быть будущим, экономическая турбулентность стала фоном, а запросы бизнеса к аналитике заметно выросли. От специалистов всё реже ждут просто цифры или аккуратные дашборды, всё чаще — понимания, интерпретации и решений.

Я выделил восемь трендов, характерных для этого года, — давайте обсуждать каждый!

Читать далее

Искусственный интеллект в инвестициях: между хайпом и реальной пользой

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели4.8K

Интеграция алгоритмов искусственного интеллекта в процессы принятия инвестиционных решений стала одной из самых обсуждаемых тем в финансовой и крипто индустриях. Торговые системы на базе машинного обучения (ML) и большие языковые модели (LLM) потенциально могут обрабатывать огромные объёмы разнообразных данных в реальном времени, что обещает качественный скачок в точности прогнозирования рынков и эффективности управления капиталом. Другое дело — насколько эти ожидания оправданы. В этом обзоре я систематизирую информацию о текущем состоянии ИИ-технологий в инвестициях, их функциональных и реальных преимуществах, а также выявленных ограничениях и доступных инструментах. 

Что на самом деле означает «ИИ-инвестирование»

ИИ-инвестирование — это методология управления инвестиционными портфелями и совершения торговых операций, основанная на применении алгоритмов машинного обучения, нейросетевых архитектур и систем обработки естественного языка. В отличие от классических методов технического и фундаментального анализа, где трейдер оперирует фиксированным набором индикаторов и субъективной оценкой, ИИ-системы способны масштабировать аналитику на массивы данных неограниченного объёма.

Ключевое функциональное отличие заключается в способности к автоматическому расширению пространства признаков и адаптации моделей к нестационарным рыночным условиям без явного перепрограммирования. На практике эти технологии применяются для высокочастотного алгоритмического трейдинга, прогнозирования волатильности, скоринга кредитных рисков и анализа тональности новостного фона. Звучит впечатляюще, но дьявол, как всегда, кроется в деталях.

Читать далее

Наглая ложь и статистика: 5 способов обмануть вас без фотошопа

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели5.6K

Цифры обладают опасной аурой объективности. «Цифры не врут», — говорит нам внутренний голос. «Против математики не попрешь», — вторит ему здравый смысл. Но правда в том, что статистика — это не просто математика, это искусство интерпретации. И в умелых руках аналитика или маркетолога одни и те же сырые данные могут рассказать две совершенно разные истории.

Читать далее

Увольняем джуниора: автоматизируем анализ данных c Claude Code, Codex, Cursor, OpenCode

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели21K

Вспомните, как вы онбордили аналитика: показывали данные, примеры рабочих SQL, неочевидные легаси и костыли — и через какое-то время он начинал перформить самостоятельно.

Чтобы научить AI-агента — нужно пройти ровно те же шаги, только вместо недель, на обучения потратятся часы, а в результате большая часть рутины аналитика будет автоматизирована.

В этой статье я расскажу, как я автоматизировал свой анализ данных, и дам пошаговую инструкцию, которую вы с легкостью сможете повторить это у себя в проекте.

Статья будет полезна как предпринимателям, которые хотят оптимизировать процессы, так и аналитикам, которые хотят прокачать себя. Погнали!

Уволить

AGI: почему его не будет, и какую модель мы можем сделать вместо него?

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели6.6K

AGI это следующий этап развития ИИ. Подобная модель сможет самостоятельно изучать и решать задачи, совершать новые научные открытия, и в принципе это таблетка от всех проблем. По крайней мере, так считают современные техногиганты, в особенности Илон Маск или Сэм Альтман, которые яро пропагандируют идеи AGI и вот-вот обещают выпустить подобную модель. Но, к сожалению или к счастью, это невозможно, и вот почему.

Читать далее
1
23 ...