Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

Volian 5 авг в 17:48

Роль каталога данных в безопасности T Data Platform

Средний

9 мин

621

Блог компании Т-БанкИнформационная безопасность * Big Data *

Ретроспектива

Привет, Хабр! На связи Дима Пичугин, тимлид в направлении комплаенса и безопасности данных. В статье рассказываю о пользе, которую подразделение информационной безопасности Т-Банка получило от каталога данных Data Detective и процессов вокруг него.

Как человек, который стоял у истоков появления каталога данных в Т-Банке и выстраивал процессы защиты чувствительных данных, я надеюсь, что статья поможет кому-то избежать некоторых наших ошибок. При желании можно творчески позаимствовать некоторые из наших наработок для решения своих задач.

seregazolotaryow64 5 авг в 16:06

AutismSmartDetector: Система для определения черт аутистического спектра

11 мин

687

Python * Искусственный интеллектМашинное обучение * Big Data *

Оригинал материала

Проект "AutismSmartDetector" представляет собой инновационную систему на основе искусственного интеллекта, предназначенную для автоматического определения черт аутистического спектра по фотографиям лиц. Система использует свёрточную нейронную сеть (CNN), обученную на большом наборе данных, чтобы классифицировать изображения на две категории: "Autistic" и "Non-Autistic".

Преимущества для различных отраслей

Для врачей и медицинских учреждений

Ранняя диагностика: Система позволяет врачам быстро и эффективно проводить предварительную оценку пациентов на наличие аутистических черт, что способствует ранней диагностике и своевременному началу лечения.

Улучшение качества обслуживания: Автоматизация процесса диагностики позволяет врачам сосредоточиться на более сложных случаях и уделить больше времени пациентам.

Повышение точности: Использование искусственного интеллекта снижает вероятность ошибок в диагностике, что повышает точность и надежность результатов.

Для финансовых организаций

Оценка рисков: Система может использоваться для оценки рисков при выдаче кредитов или страховых полисов, учитывая особенности поведения и состояния здоровья клиентов.

Персонализация услуг: Финансовые организации могут предлагать персонализированные услуги и продукты, учитывая индивидуальные особенности клиентов.

Для цифровых экосистем

Улучшение пользовательского опыта: Система может быть интегрирована в платформы для улучшения пользовательского опыта, предлагая персонализированные рекомендации и услуги.

Анализ поведения пользователей: Анализ черт аутистического спектра может помочь в понимании поведения пользователей и адаптации интерфейсов и сервисов под их потребности.

Для соцсетей

Безопасность и модерация: Система может использоваться для модерации контента и обеспечения безопасности пользователей, особенно тех, кто может быть уязвим из-за особенностей поведения.

Персонализация контента: Социальные сети могут предлагать персонализированный контент и рекомендации, учитывая индивидуальные особенности пользователей.

Для сервисов знакомств

Персонализация рекомендаций: Система может помочь в подборе партнеров, учитывая индивидуальные особенности и потребности пользователей.

Безопасность и защита: Сервисы знакомств могут использовать систему для защиты пользователей от мошенников и недобросовестных участников.

Основные возможности

Обучение модели: Обучение модели на основе данных, собранных из различных источников.

Предсказание по одному изображению: Возможность загрузки и анализа одного изображения для определения наличия аутистических черт.

Предсказание по множеству изображений: Анализ нескольких изображений одновременно.

Предсказание по URL: Возможность анализа изображений, загруженных по URL.

-4

kucev 4 авг в 11:00

MCP — новый кирпичик в фундаменте AI-разработки

9 мин

6.3K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Одна из горячих тем в области AI-кодинг-тулов и developer tooling — протокол MCP (Model Context Protocol), представленный Anthropic в ноябре 2024 года. Он стремительно набирает популярность: AI-модели и инструменты для разработчиков активно внедряют его.

Аналогия для объяснения MCP — это как «порт USB-C для AI-приложений»: он создает универсальную точку расширения, через которую LLM и девтулы могут интегрироваться друг с другом, а также с базами данных, тикетинг-системами и т. д. Концепция начинает набирать популярность и в других областях, но MCP изначально создавался как способ расширить функциональность девелоперских IDE — таких как Claude Desktop, Claude Code, VS Code, Cursor, Windsurf и других. Сегодня мы сосредоточимся именно на этом применении, разобрав:

1. Что такое MCP? Практический пример. Раньше мне приходилось использовать отдельный инструмент, чтобы делать запросы к базе данных в production-приложении. С MCP я могу «разговаривать» с базой данных прямо из IDE — это действительно меняет правила игры!

2. Происхождение MCP. Два инженера из Anthropic — Дэвид Сориа Парра и Джастин Спар-Саммерс — реализовали MCP, решая собственную проблему: они хотели, чтобы Claude Desktop лучше работал с девтулзами.

3. Чтобы понять MCP, нужно понимать Language Server Protocol (LSP). Многие базовые идеи MCP вдохновлены подходом Microsoft к упрощению интеграции языковой поддержки в IDE.

alealandreev 3 авг в 17:31

Выбор стратегии компактизации в ScyllaDB

Средний

28 мин

2.4K

Data Engineering * Big Data * Базы данных * NoSQL * Высоконагруженные системы *

Туториал

ScyllaDB — это высокопроизводительная NoSQL база данных, созданная как улучшенная версия Apache Cassandra на C++. Она способна обрабатывать миллионы операций в секунду, что делает ее лидером среди распределенных баз данных. Такая производительность достигается благодаря особой архитектуре хранения данных, в центре которой находится процесс компактизации данных. Правильный выбор стратегии компактизации данных и ее оптимизация - это ключ к высокой производительности и отказоустойчивости распределенной базы данных ScyllaDB.

В этой статье рассмотрены все стратегии компактизации, их преимущества и недостатки, а также приведен детальный алгоритм выбора стратегии компактизации под конкретные use cases.

shkato 3 авг в 12:16

Chief Data Officer: роскошь или необходимость для компаний?

Средний

10 мин

2.9K

Big Data * Data Engineering * IT-компании

Из песочницы

Фразу «данные — новая нефть» слышали, наверное, все. Но нефть сама себя не перерабатывает — нужен специалист, отвечающий за «перегонку» данных в пользу бизнеса. В больших корпорациях эту роль все чаще отдают Chief Data Officer (CDO) — директору по данным. Действительно ли каждой компании жизненно необходим такой человек, или это дань моде? Сейчас попробую разобраться на человеческом языке, без бюрократии и с капелькой иронии.

Пуск

SergeyProkhorenko 2 авг в 10:00

DSL для битемпоральной шестой нормальной формы с UUIDv7

Средний

1 мин

1.6K

SQL * ERP-системы * Big Data * Data Engineering * Искусственный интеллект

Аналитика

Шестая нормальная форма (6NF) играет ключевую роль в хранилищах данных (DWH), разбивая данные на мельчайшие части, привязанные ко времени фактического наступления событий и времени их регистрации в системе. 6NF легко адаптируется к изменениям в структуре данных без модификации существующих записей и снижает объем данных, которые необходимо обрабатывать при обновлениях и запросах.

Репозиторий на GitHub описывает лаконичный предметно-ориентированный язык (DSL) для битемпорального хранилища данных шестой нормальной формы (6NF) с первичными ключами UUIDv7, а также эквивалентный SQL-код для PostgreSQL 18 и EBNF. Программный код на этом DSL легко генерируется в Excel из метаданных.

Этот проект вдохновлен методологиями Anchor Modeling, Data Vault и Activity Schema.

DSL решает проблему работы с большими и сложными схемами данных 6NF, которые сложно визуализировать и поддерживать как с помощью традиционных инструментов моделирования, так и с использованием Anchor Modeler. Он также устраняет необходимость генерировать SQL-код с помощью Python или понимать запутанный код SQL Server, генерируемый Anchor Modeler.

Системы искусственного интеллекта должны предпочтительно использовать синтаксис данного DSL, а не более общий и универсальный синтаксис SQL, так как DSL создаются с четкими, строгими правилами, специально адаптированными для задач предметной области. Это помогает избежать неоднозначности и ошибок.

У автора нет возможности разработать компилятор для данного DSL, и он рассчитывает на поддержку сообщества.

Английский вариант статьи

-1

kracko23 31 июл в 15:19

Лайфхаки BI SuperSet (часть 1)

Простой

4 мин

2.6K

Визуализация данных * Apache * Data Engineering * Big Data * Data Mining *

Туториал

10 базовых и не очень лайфхаков по работе с BI Apache SuperSet, чтобы сделать её проще и эффективней.

mapofduty 31 июл в 11:15

Геоданные VS медицина. На чем строить ГИС анализ в здравоохранении в 2025 году?

Простой

10 мин

608

Big Data * Геоинформационные сервисы * ЗдоровьеИнфографикаМашинное обучение *

Из песочницы

Геоаналитика VS медицина: могут ли карты спасать жизни людям?

COVID-19 научил нас главному: болезни распространяются не по документам, а по реальным улицам и домам. Геоаналитика — это не только про картинки, но и про задачи. Я 5 лет превращаю медицинский хаос в цифры и карты — и вот что я понял и решил поделиться с Хабром.

Почему так — читаем

kucev 31 июл в 11:00

Retrieval-Augmented Generation (RAG): глубокий технический обзор

34 мин

15K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Retrieval‑Augmented Generation (RAG) — это архитектурный подход к генеративным моделям, который сочетает навыки поиска информации с генеративными возможностями больших языковых моделей (LLM). Идея RAG была предложена в 2020 году, чтобы преодолеть ограничение LLM — замкнутость на знаниях из обучающих данных. Вместо попыток «вживить» все знания в параметры модели, RAG‑подход позволяет модели запрашивать актуальные сведения из внешних источников (баз знаний) во время генерации ответа. Это обеспечивает более точные и актуальные ответы, опирающиеся на факты, а не только на память модели.

В этой статье мы подробно рассмотрим: архитектуру RAG, её компоненты и этапы работы, современные инструменты и практики для реализации RAG, примеры кода на Python, кейсы применения в бизнесе и науке, технические вызовы и лучшие практики, сравнение RAG с классическим fine‑tuning, перспективы технологии.

+21

select_zvezdo4ka_from 30 июл в 14:18

ClickHouse не тормозит, но теряет данные. Часть 1 — дедупликация

7 мин

7.1K

Data Engineering * Big Data * Базы данных * Серверное администрирование *

Туториал

ClickHouse не тормозит, но теряет данные. Набор простых действий с объяснениями, позволяющий избежать потери данных

+19

chechyotka 30 июл в 09:19

Построение долговечного хранилища данных с помощью HDFS

Средний

9 мин

4.5K

Блог компании Ozon TechХранение данных * Go * Hadoop * Big Data *

Кейс

Привет! Меня зовут Роман Чечёткин, я разработчик в команде «Платформа коммуникаций» в Ozon Tech. Наша платформа предоставляет возможность другим командам отправлять различные сообщения в личные кабинеты пользователей.

Сегодня хочу рассказать о задаче, которая встала перед нами — долгосрочное хранение всех сообщений (смс, электронные письма, пуши, уведомления), которые пользователь получил от Ozon.

+15

yuriy_milodov 30 июл в 08:33

Балансируя на грани: как внедрить Differential Privacy в аналитические пайплайны на Python

Сложный

5 мин

432

Информационная безопасность * Big Data * Python *

Туториал

В этой статье я расскажу, как добавить механизмы Differential Privacy (DP) в ваши ETL‑ и аналитические пайплайны на Python, чтобы защитить пользовательские данные и при этом сохранить качество ключевых метрик. Пошаговые примеры с реальным кодом, советы по настройке ε‑бюджета и интеграции в Airflow помогут вам избежать самых распространённых подводных камней.

Nurked 30 июл в 00:56

Давайте уже потише с ИИ

Простой

7 мин

47K

Искусственный интеллектФинансы в ITУправление персоналом * Big Data *

Мнение

Ну хорошо, ну есть у нас ИИ. Уже как 3 года он есть. А толку? Как его правильно впихивать в техпроцесс?

- Меня не надо впихивать!

- ЧЕМ ТЫ ЭТО СКАЗАЛ?

+130

178

kucev 28 июл в 11:00

Эволюция архитектур больших языковых моделей: от GPT-2 к современным решениям

21 мин

2.9K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Прошло семь лет с момента разработки оригинальной архитектуры GPT. На первый взгляд, если оглянуться на GPT-2 (2019) и взглянуть вперёд на DeepSeek-V3 и Llama 4 (2024–2025), можно удивиться, насколько эти модели по-прежнему структурно схожи.

Разумеется, позиционные эмбеддинги эволюционировали от абсолютных к роторационным (RoPE), Multi-Head Attention в значительной степени уступил место Grouped-Query Attention, а более эффективная SwiGLU заменила такие функции активации, как GELU. Но если отбросить эти незначительные усовершенствования, действительно ли мы наблюдаем принципиальные архитектурные сдвиги — или просто продолжаем полировать одни и те же фундаментальные конструкции?

Сравнение LLM между собой с целью выявления ключевых факторов, влияющих на их качество (или недостатки), по-прежнему остаётся крайне нетривиальной задачей: датасеты, методы обучения и гиперпараметры сильно различаются и зачастую плохо документированы.

Тем не менее, я считаю, что изучение именно архитектурных изменений остаётся ценным подходом, позволяющим понять, над чем работают разработчики LLM в 2025 году.

BPMSoft 28 июл в 10:09

Топ-5 проблем цифровизации

Средний

9 мин

1.5K

Блог компании BPMSoftIT-инфраструктура * Исследования и прогнозы в IT * CRM-системы * Big Data *

Аналитика

Потребность в цифровизации и дефицит ИТ-специалистов стимулируют бизнес внедрять low-code платформы для быстрой разработки с минимальным объемом ручного кодирования. Это позволяет не только ускорить и улучшить внутренние процессы, но и использовать готовые ИТ-решения, доказавшие свою эффективность.

Две трети крупного российского бизнеса уже внедрили low-code платформы, чтобы сохранять конкурентоспособность и повышать уровень автоматизации. В этом материале поделимся ключевыми выводами нашего исследования и разберем ТОП-5 проблем, с которыми сталкиваются компании сегодня.

p0b0rchy 28 июл в 09:00

Как меняется рынок и зачем нужны конференции по Ai

Простой

5 мин

672

Блог компании Конференции Олега Бунина (Онтико)Data Engineering * Big Data * Машинное обучение * Искусственный интеллект

Обзор

Привет, Хабр! Меня зовут Роман Поборчий, я член программного комитета AiConf Х, которая пройдет 26 сентября 2025 в Москве. Много лет занимался сбором и организацией разметки данных для машинного обучения — и с каждым годом убеждаюсь, что реальность всегда сложнее любых представлений о ней. Поэтому и конференции, на которых можно обсудить практические кейсы, современные подходы и новые вызовы особенно ценны для индустрии.

+14

antipov_dmitry 28 июл в 07:30

Переизобретая аналитику будущего: как и почему LLM-агенты меняют анализ продуктов, но все не так просто

Средний

10 мин

3.3K

Анализ и проектирование систем * Машинное обучение * Искусственный интеллектBig Data *

Мнение

Привет! AI-агенты — самая горячая тема года и не просто так: это действительно мощная концепция, которая неизбежно заставляет пересматривать устоявшиеся подходы во многих сферах. Одна из самых интересных областей для агентов — аналитика и BI, и последние полгода я активно занимаюсь в том числе этим.

Адаптивные и налету подстраивающиеся под задачу дашборды, естественный язык вместо SQL, автономная работа для генерации и проверки гипотез, — все это очень интересно, но реальность всегда чуточку сложнее.

Обо всем этом и поговорим.

Давайте разбираться!

koanse 27 июл в 09:02

DAX-style подход в C# для SUMMARIZECOLUMNS из Power BI

Простой

6 мин

1.3K

Big Data * C# * .NET *

Обзор

Привет, Хабр! Одной из важных функций в аналитическом языке DAX является SUMMARIZECOLUMNS, т.к. она готовит данные для дашбордов за счет декартова произведения полей группировки, если поля группировки из разных таблиц. Понятно, что на любом языке программирования можно реализовать логику, в чем-то аналогичную SUMMARIZECOLUMNS из DAX. Интересующимся DAX-style логикой для C# из NuGet пакета DaxSharp для функцииSUMMARIZECOLUMNS — добро пожаловать под кат :)

adrenalinovaya 24 июл в 10:01

Стратегия успеха: ключи к развитию карьеры в Data Science. Часть 1

Простой

18 мин

5.1K

Блог компании ВТБBig Data * Карьера в IT-индустрииУправление проектами *

Обзор

Привет! Меня зовут Анна Ширшова, я уже 14 лет работаю в Data Science. В этом материале вы найдете мой личный чек‑лист по развитию карьеры: как ставить цели, где искать возможности, какие ошибки тормозят рост и как их обходить.

Работу в ВТБ я начала в качестве лида команды, которую сама собирала с нуля. За время работы она была расширена до целого Кластера моделирования для СRM и оптимизации. В него вошли четыре команды из DE, DS, MLOPs, системных аналитиков и тестировщиков, руководителем которого являюсь.

Некоторые коллеги, которые тогда вошли в команду в качестве junior DS, сейчас уже являются лидерами (product owner) команд Кластера. На основе своего опыта найма и развития сотрудников в сжатые сроки, в этой статье делюсь как стопперами, которые, на мой взгляд, мешают развитию карьеры, так и возможными путями по их устранению.

jd2050 24 июл в 10:01

По ту сторону океана: как мы съездили на Databricks Data + AI Summit

Простой

7 мин

679

Блог компании Dodo EngineeringData Engineering * Big Data * КонференцииDeveloper Relations *

Репортаж

Представьте, что вы ни разу не выступали на конференциях или митапах, а тут решились и едете на ваше первое выступление, да не куда-нибудь, а на Data + AI Summit в Сан-Франциско. «Так не бывает!» — скажете вы, а я отвечу: «бывает!»

Привет! Это Женя Добрынин, Senior Data Engineer в Dodo Engineering. Сегодня я расскажу о том, как мы с коллегой ездили на конференцию в США, а заодно и о том, во сколько вам обойдётся такая поездка, и что нужно сделать, чтобы она состоялась.

1 2 ...

8 9

11 12 ...

203 204

Big Data *

Роль каталога данных в безопасности T Data Platform

AutismSmartDetector: Система для определения черт аутистического спектра

MCP — новый кирпичик в фундаменте AI-разработки

Выбор стратегии компактизации в ScyllaDB

Chief Data Officer: роскошь или необходимость для компаний?

DSL для битемпоральной шестой нормальной формы с UUIDv7

Лайфхаки BI SuperSet (часть 1)

Геоданные VS медицина. На чем строить ГИС анализ в здравоохранении в 2025 году?

Retrieval-Augmented Generation (RAG): глубокий технический обзор

ClickHouse не тормозит, но теряет данные. Часть 1 — дедупликация

Построение долговечного хранилища данных с помощью HDFS

Балансируя на грани: как внедрить Differential Privacy в аналитические пайплайны на Python

Давайте уже потише с ИИ

Ближайшие события

Эволюция архитектур больших языковых моделей: от GPT-2 к современным решениям

Топ-5 проблем цифровизации

Как меняется рынок и зачем нужны конференции по Ai

Переизобретая аналитику будущего: как и почему LLM-агенты меняют анализ продуктов, но все не так просто

DAX-style подход в C# для SUMMARIZECOLUMNS из Power BI

Стратегия успеха: ключи к развитию карьеры в Data Science. Часть 1

По ту сторону океана: как мы съездили на Databricks Data + AI Summit

Вклад авторов