Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

GolosCD 31 мар в 10:52

Sandbox DB: универсальная песочница для погружения в Big Data, аналитику и визуализацию

Простой

4 мин

11K

SQL * Data Engineering * Big Data *

Из песочницы

Recovery Mode

Запускайте PostgreSQL, ClickHouse, Airflow, Superset и другие инструменты одним кликом: учите, экспериментируйте, осваивайте новое!

+17

koanse 30 мар в 16:56

Кардинальность при оптимизации DAX запросов в ClickHouse

7 мин

Блог компании VisiologySQL * Big Data * Визуализация данных *

Кейс

Привет, Хабр! Мы уже неоднократно поднимали вопросы оптимизации запросов к СУБД ClickHouse, которую все чаще используют как универсальное высокопроизводительное хранилище для аналитических задач. В случае с Visiology этот вопрос приобретает двойную ценность, так как мы используем оптимизацию для эффективного выполнения запросов в языке DAX.

Сегодня мы поговорим о применении группировок GROUP BY с учетом их производительности для относительно больших таблиц, например, с миллионами записей. Таким образом, речь пойдет об оценке кардинальности одного или нескольких столбцов. Эта задача, кстати, является достаточно нетривиальной. Но если Вы можете ее решить, появляется возможность для эффективных оптимизаций SQL. О них мы и поговорим сегодня.

badcasedaily1 28 мар в 16:12

Промежуточные витрины в SQL

8 мин

2.4K

Блог компании OTUSSQL * Big Data *

Обзор

Привет, Хабр!

Сегодня я хочу поговорить о том, без чего не обходится практически ни один серьёзный проект с большими данными (да и с не слишком большими тоже) — о промежуточных витринах (или более привычно – staging, core, data mart).

kucev 27 мар в 10:40

LLM red teaming: полное руководство [+советы экспертов]

12 мин

1.3K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Давайте представим стратегию, зародившуюся в военной сфере, где команды притворяются врагами друг друга, чтобы проверить оборонительные механизмы. Этот подход, известный как red teaming, оказался чрезвычайно ценным и теперь нашёл новое применение. Сегодня, когда искусственный интеллект занимает всё больше места в нашей повседневной жизни, использование метода red teaming для тестирования этих систем становится необходимым. Red teaming для моделей-LLM помогает убедиться, что они не только эффективны в работе, но и безопасны и надежны.

evgeniatro 27 мар в 10:34

Как мы размечали более 800 часов аудио: от бытовых диалогов до шумных медицинских записей

Простой

3 мин

642

Блог компании Data LightBig Data *

Кейс

Многим может показаться, что может быть сложного в аудиоразметке? Надел наушники, включил запись — и вперед, переписывай все, что слышишь. Но, как показал этот проект, даже такая на первый взгляд стандартная задача превращается в настоящее испытание, когда дело доходит до сотен часов сложных записей с медицинских устройств и фоновым шумом.

Рассказываем, как нам удалось не только качественно обработать более 800 часов аудио, но и выстроить процесс так, чтобы он оставался эффективным и прозрачным даже в самых сложных условиях.

sag25 27 мар в 07:01

Как мы покорили методы Big Data для данных любого размера

Простой

5 мин

2.9K

Блог компании МТСBig Data * Data Engineering *

Кейс

Всем привет! Меня зовут Саттар Гюльмамедов и я работаю в команде ETL платформы DataOps в МТС. Марк Твен как-то написал «Слухи о моей смерти сильно преувеличены» — про Big Data сейчас можно сказать то же самое. Волна хайпа, которую многие пытались оседлать, прошла. Но, как и значительная часть инженерных достижений, работа с большими данными стала рутиной, помогающей развиваться другим направлениям в ИТ.

В экосистеме МТС мы строим для Big Data отдельную платформу, где есть инструменты для хранения и оценки данных, анализа и построения отчетов. Но все начинается с их загрузки и обработки. Получение и преобразование данных — как раз задача библиотек и сервисов, которые делает моя команда. Многие знают мем о перекладывании JSON. А мы как раз делаем инструменты для тех случаев, когда такие задачи уже не столь тривиальны и нужно разобраться с разными типами данных, разными структурам, хранящимися к тому же в разных форматах, и все это нужно сделать в рамках одного процесса.

В этом материале я расскажу про наши решения и условия, лежащие в их основе. Одним наш опыт поможет спланировать эволюцию своих инструментов, другим снимет страх перед сложным стеком технологий Big Data, а третьи просто развлекутся.

Дисклеймер:
чтобы не отклоняться от темы, я не буду подробно описывать концепции ETL и ELT (они хорошо разобраны тут, тут и тут). Наши инструменты следуют парадигме «E[TL]+», т. е. позволяют выполнять трансформации данных как в процессе переноса, так и в целевом хранилище.

Про нашу платформу в общих чертах писал мой коллега Дмитрий Бодин в своей публикации «Customer Happiness: как не только разработать, но и внедрить новый продукт внутри крупной компании». Я продолжу начатый им рассказ и добавлю подробностей о компоненте ETL, его составляющих и нашей команде.

+29

shirokova_ea 26 мар в 13:51

Применение ML Pricing в ритейле: хвост виляет собакой

6 мин

1.8K

Блог компании Lenta techBig Data * Алгоритмы * Машинное обучение * Искусственный интеллект

Кейс

Привет, Habr! Мы Катя и Оля, продакт-менеджеры BigData в компании «Лента», отвечаем за развитие цифровых продуктов блоков «Ассортимент» и «Ценообразование».

В этой статье расскажем про внедрение ML-модели и алгоритма ценообразования товаров «хвоста», а также - трудности, с которыми столкнулись.

mark-rtb 26 мар в 11:29

От скриптов к сервисам: 10 книг для профессиональной разработки в Data Science

Средний

7 мин

6.8K

Блог компании Ozon БанкBig Data * Профессиональная литература * Машинное обучение * Python *

Мнение

Привет! Меня зовут Марк Паненко, и я Chief Data Science в Ozon Банке. Сегодня я хочу поговорить про книги, которые научат писать код. В современной экосистеме Data Science недостаточно просто знать алгоритмы машинного обучения и статистические методы — необходимы прочные инженерные навыки для создания масштабируемых, поддерживаемых решений.

Это третья часть серии статей о главных книгах для data-специалистов. В первой части «От комиксов до нейросетей» я писал о литературе для джунов. Во второй — «Код устареет, принципы — останутся» — для мидлов и сеньоров.

В этой же части мы сфокусируемся исключительно на книгах для развития навыков программиста, ставших необходимым для современного дата-сайентиста. Основываясь на опыте моего подкаста «Дата Завтрак», я структурировал подборку по пути профессионального роста инженера: от фундаментальных навыков до специализированных продакшн-инструментов.

Vasilenko_Ilia 25 мар в 16:30

Сделал тг бот по подсчету калорий за 2 часа и похудел на 10кг

Средний

3 мин

Big Data * Здоровье

Кейс

От идеи до работающего Telegram бота за 2 часа, от 112 кг до 102 кг за 2 месяца. Это история о том, как использование Cursor, v0.dev и современных AI-инструментов помогает решать личные проблемы с помощью кода — и как это личное решение превращается в бизнес-возможность.

-7

alizar 25 мар в 09:01

Картель влиятельных датасетов в обучении ИИ

Простой

8 мин

3.5K

Блог компании RUVDS.comНаучно-популярноеМашинное обучение * Искусственный интеллектBig Data *

В последнее время такие компании, как OpenAI и Google, заключают эксклюзивные соглашения об обмене данными с издателями, крупными форумами вроде Reddit и социальными медиаплатформами, что становится для них ещё одним способом сконцентрировать власть.

Такая тенденция выгодна крупнейшим игрокам на рынке ИИ, которые могут позволить себе такие сделки, в отличие от исследователей, некоммерческих организаций и небольших компаний. Крупнейшие корпорации располагают лучшими ресурсами для сбора датасетов. В результате эталонные датасеты для бенчмарков (и для обучения) моделей ИИ всё больше концентрируются в руках малого количества корпораций и академических учреждений.

По мнению некоторых исследователей, это «новая волна асимметричного доступа», которой ещё не было в истории открытого интернета в таком масштабе.

Читать дальше →

+39

aleksei_terentev 24 мар в 22:41

Propensity Score Matching: как оценить эффект, если проведение A/B-теста не возможно?

Средний

9 мин

4.9K

Машинное обучение * Big Data * Data Mining * Искусственный интеллектСтатистика в IT

Как определить, влияет ли то или иное событие на ключевые метрики, если полноценный A/B-тест недоступен?

В этой статье мы разберём метод Propensity Score Matching (PSM): узнаем, как компенсировать отсутствие рандомизации, выровнять группы по ключевым признакам и избежать ложных выводов при оценке эффектов.

Mostransproekt 24 мар в 21:15

Не окей, гугл: как сделать поисковик для работы с служебными презентациями

Средний

11 мин

1.4K

Блог компании МосТрансПроектBig Data * Хранение данных * Искусственный интеллект

Кейс

Привет, Хабр! Это снова команда «МосТрансПроекта». Мы постоянно работаем с информацией и знаниями, которые храним в служебных презентациях. Чтобы ими было удобней пользоваться и извлекать данные, мы решили создать удобный сервис хранения документов с поиском. Задача оказалась непростой, и в этой статье мы расскажем, как её решили. Текст будет интересен всем, кто занимается структурированием данных, поисковыми машинами и ИИ.

leadVSK 21 мар в 12:01

Тестирование платформы DeepSeek для проверки гипотез по анализу данных

Простой

3 мин

5.7K

Блог компании Страховой Дом ВСКМашинное обучение * Тестирование IT-систем * Big Data * Искусственный интеллект

Обзор

Привет, Хабр!

Мы, ребята из Центра эксплуатации Блока ИТ Страхового Дома ВСК, занимаемся управлением автоматизации ИТ-процессов. И у нас, как у всех — куча прикладных задач, которые хочется закрыть быстро дешево и качественно. Недавний хайп по Deepseek не обошел нас стороной, и мы решили протестировать платформу по парочке гипотез в надежде на чудо.

И так, мы решили сфокусироваться на потребностях нашей команды технической поддержки в части анализа и обработки данных по ключевым метрикам и категоризации обращений.

Гипотеза 1: Оценка тенденций ключевых показателей технической поддержки

Мы решили проверить, насколько DeepSeek способен анализировать динамику показателей. В качестве данных взяли выгрузку по основным метрикам техподдержки: SLA, количество заявок (поступило/решено), количество негативных отзывов и пр. Скармливали выгрузку Excel, в общем то, простая таблица со следующими показателями (столбцы):

+15

koanse 21 мар в 10:43

Изучаем DAX Time Intelligence с помощью ViTalk GPT

3 мин

1.3K

Блог компании VisiologyBig Data * Визуализация данных * Искусственный интеллект

Кейс

Привет, Хабр! Сегодня я хочу поговорить о возможностях и ограничениях функций Time Intelligence в Visiology. Это очень интересный раздел языка DAX, который позволяет быстро делать показательные расчеты, например, сравнивая показатели текущего периода с предыдущими. Однако в его реализации для Visiology и Power BI есть некоторые различия (впрочем, не влияющие на результат). В этой статье мы поговорим об этой разнице, а также я наглядно покажу, как чат-бот ViTalk GPT помогает разобраться с особенностями работы различных функций.

kirillsergeev0102 20 мар в 12:27

Дедупликация объявлений: как мы боремся с одинаковыми размещениями

Сложный

13 мин

Блог компании ЦианBig Data * Data Engineering * Алгоритмы * Машинное обучение *

Туториал

Привет! Меня зовут Кирилл Сергеев, я ML-инженер в Циане. В этой статье я расскажу, как мы решили задачу дедупликации объявлений о недвижимости, разработав систему на основе трёх моделей. Эта система автоматически находит и объединяет дублирующиеся объявления, помогая пользователям видеть только актуальную и уникальную информацию.

Материал будет полезен ML-инженерам и специалистам по обработке данных, которым интересно, как мы подошли к решению этой задачи: какие методы использовали, какие проблемы возникли и как мы их преодолели.

+12

evgeniatro 20 мар в 10:25

Группировка объявлений в карточки: как мы разметили 20 000 товаров

Простой

2 мин

623

Блог компании Data LightBig Data * Машинное обучение *

Кейс

Казалось бы, стандартная задача: взять 20 000 объявлений, определить в них модель товара и сгруппировать по карточкам – легкий проект, который можно закрыть за пару месяцев.

Но на деле все усложняют многоязычные названия, аббревиатуры, субъективные решения аннотаторов и нюансы классификации. Как мы выстроили процесс, чтобы обеспечить точность группировки, как мы валидировали данные и какие решения помогли нам справиться с вызовами? Рассказываем в этой статье.

GeorgeNordic 19 мар в 11:26

Что подразумевают под Data Governance?

Средний

2 мин

3.2K

Хранение данных * Терминология ITData Engineering * Big Data *

Если говорить про Data Governance, то это, в первую очередь, не продукты, а огромная методология управления жизненным циклом данных, и только потом – технологии. Близко к идеалу считается методология DAMA-DMBOK, и у любого специалиста по данным это должна быть настольная книга. К сожалению, в подавляющем большинстве случаев, когда люди начинают задумываться про управление данных, она попросту неприменима, так как она показывает «правильное» управление данными больших предприятий, до неё еще надо «дорасти», при этом точечно применяя сначала простые приемы, с возможностью расширения методик управления данными как «вширь», на другие отделы, так в «вглубь» на все процессы, связанные с управлением данными (Data Management): получением («добычей»), обработкой, хранением, извлечением и использованием информации. Без подобного управления жизненным циклом данных получим картину как в последнем исследовании Makves, что 40% данных никогда не используется: к ним не зафиксировано ни одного обращения за 5 лет.
Найти «Ценность в данных» становится искусством, так как на предприятии растут «Кладбища данных» вместо «Хранилищ данных».

Сейчас зачастую под Data Governance имеют в виду две части, это Data Quality – управление качеством данных, и Data Linage – «понять, откуда пришли данные, как они изменялись и можно ли им доверять». Если данные методологии использовать «в лоб», то это очень сильно замедлит разработку и перегрузит команду по управлению данными.

prfnv 18 мар в 13:37

Бьем автоматизацией по ручной работе с данными: как мы избавились от рутины с ML-моделями

Простой

7 мин

6.4K

Блог компании МТСМашинное обучение * Data Mining * Big Data *

Кейс

Всем привет! Это DS-ы Павел Парфенов и Максим Шаланкин из команды Финтеха Big Data МТС. Мы и наши коллеги Data Scientists и Data Analysts ежедневно обрабатываем огромные массивы информации, строим модели и выделяем целевые сегменты, чтобы принимать обоснованные решения. Наши рутинные задачи — предварительный анализ данных (EDA), обучение ML-моделей и сегментация аудитории — часто отнимают кучу времени и ресурсов.

Для себя и коллег с другими компетенциями мы решили сделать инструмент, который сэкономит время на рутинных задачах. В этой публикации мы подробно расскажем, что именно оптимизировали с помощью автоматизации и на каких этапах рабочего процесса применяем нашу командную платформу. Используя этот опыт, вы сможете освободиться от монотонных действий при работе с данными и сосредоточиться на по-настоящему важных вещах.

+35

DenisBerezutskiy 18 мар в 10:13

«Ошибка на миллиард» в ИИ: боремся с галлюцинациями в LLM по аналогии с NullPointerException

Средний

20 мин

4.8K

Блог компании YADROИскусственный интеллектМашинное обучение * Big Data *

Привет! Меня зовут Денис Березуцкий, я старший инженер по разработке ПО искусственного интеллекта в YADRO. В ML-команде мы разрабатываем системы, которые облегчают работу нашим заказчикам с помощью текстовых генеративных нейросетей: реализуем RAG, создаем чат-ботов, агентные системы и другие решения.

Как и многие в индустрии, мы сталкиваемся с проблемами галлюцинаций LLM, которые портят ответы виртуальным ассистентам и способны подорвать доверие к ним. В статье я расскажу об одном не совсем стандартном методе, перенесенном из «классического» программирования, который мы применяем для борьбы с галлюцинациями и улучшения поисковой выдачи.

+25

Vital18 18 мар в 00:57

Программный код в Big data и Power law

Средний

6 мин

919

Big Data * Data Mining * Python * Алгоритмы * Криптография *

Аналитика

В статье приводятся оригинальные модули Python и даётся пояснение по их применению в задачах распределённой децентрализованной сети по типу блокчейн или, другими словами, в процессах самоорганизованной критичности (SOC). В научных публикациях чаще встречается физический термин SOC в качестве концепции, включающей процессы турбулентности, детонации, землетрясения, нейросети, фондовая волатильность, социальный рейтинг и другие.

Для процессов SOC характерно отсутствие управляющих параметров и масштабная инвариантность. Универсальность сложных процессов SOC со степенным законом Power law имеет тот же характер, как и универсальность простых линейных систем, не обладающих масштабной инвариантностью, по отношению к закону нормального распределения вероятности.

Зависимость от масштаба возникает при аналого-цифровом преобразовании битов в позиционную систему счисления и проявляется в законе нормального распределения вероятности в виде дисперсии и математического ожидания. Потеря масштабной инвариантности в позиционной системе счисления компенсируется приобретением принципа причинности. Например, в Древнем Риме, где была принята непозиционная система счисления, вычисляли, что «после того - не вследствие того» и сильно удивились бы истории с падающим на Ньютона яблоком.

Значительные достижения в анализе Big data заставляют предположить связь с распределением вероятности Пуассона: чем больше данных, тем чаще должны встречаться пуассоновские события и вопрос лишь в поиске подходящей метрики и системы счисления.

-1

1 2 ...

19 20

22 23 ...

204 205

Big Data *

Sandbox DB: универсальная песочница для погружения в Big Data, аналитику и визуализацию

Кардинальность при оптимизации DAX запросов в ClickHouse

Промежуточные витрины в SQL

LLM red teaming: полное руководство [+советы экспертов]

Как мы размечали более 800 часов аудио: от бытовых диалогов до шумных медицинских записей

Как мы покорили методы Big Data для данных любого размера

Применение ML Pricing в ритейле: хвост виляет собакой

От скриптов к сервисам: 10 книг для профессиональной разработки в Data Science

Сделал тг бот по подсчету калорий за 2 часа и похудел на 10кг

Картель влиятельных датасетов в обучении ИИ

Propensity Score Matching: как оценить эффект, если проведение A/B-теста не возможно?

Не окей, гугл: как сделать поисковик для работы с служебными презентациями

Тестирование платформы DeepSeek для проверки гипотез по анализу данных

Ближайшие события

Изучаем DAX Time Intelligence с помощью ViTalk GPT

Дедупликация объявлений: как мы боремся с одинаковыми размещениями

Группировка объявлений в карточки: как мы разметили 20 000 товаров

Что подразумевают под Data Governance?

Бьем автоматизацией по ручной работе с данными: как мы избавились от рутины с ML-моделями

«Ошибка на миллиард» в ИИ: боремся с галлюцинациями в LLM по аналогии с NullPointerException

Программный код в Big data и Power law

Вклад авторов