Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

jihor 24 апр в 12:42

Секреты Spark в Arenadata Hadoop: как мы ускорили построение витрин для задач ML

Средний

9 мин

1.7K

Блог компании РСХБ.цифра (Россельхозбанк)Big Data * Data Engineering * Искусственный интеллектМашинное обучение *

Кейс

Привет, Хабр! Я Дмитрий Жихарев, CPO Платформы искусственного интеллекта RAISA в Лаборатории ИИ РСХБ-Интех. В этой статье я и архитектор нашей платформы Александр Рындин @aryndin9999расскажем о том, как мы построили взаимодействие Платформы ИИ и Озера данных для работы с витринами данных моделей машинного обучения с использованием Spark.

+14

AlekseyStruchenko 27 фев в 10:26

Как не утонуть в данных: выбираем между DWH, Data Lake и Lakehouse

Средний

13 мин

9.4K

Блог компании ArenadataХранение данных * Data Engineering * Big Data * Базы данных *

Обзор

Привет, Хабр! Меня зовут Алексей Струченко, я работаю архитектором информационных систем в Arenadata. Сегодня хотелось бы поговорить о хранилищах данных — их видах, ключевых особенностях и о том, как выбрать подходящее решение. В эпоху цифровой трансформации данные стали одним из самых ценных активов для компаний любого масштаба и сферы деятельности. Эффективное хранение, обработка и анализ больших объёмов данных помогают организациям принимать обоснованные решения, повышать операционную эффективность и создавать конкурентные преимущества.

Однако с ростом объёмов данных и усложнением их структуры традиционные методы хранения сталкиваются с ограничениями. В этой статье мы подробно рассмотрим подходы к хранению данных: Data Warehouse (DWH), Data Lake и относительно новую концепцию Lakehouse. Разберем их особенности, различия, преимущества и недостатки, а также предложим рекомендации по выбору каждого подхода.

Всплыть

+14

darovska_online 23 дек 2024 в 08:41

Как не нужно визуализировать данные: антипаттерны в примерах

Простой

6 мин

6.2K

Big Data * Визуализация данных *

Туториал

Как делать графики понятными и наглядными? Да ещё и избежать неверных трактовок? Когда использовать круговую диаграмму, а когда нужны линейные графики или столбчатая шкала? Для этого достаточно учесть антипаттерны, которые вредят и запутывают. Разберём на «хороших» и «плохих» примерах.

Привет, Хабр! Меня зовут Андрей Машковцев, я — BI-аналитик в «Т-банке», эксперт Skillbox, веду телеграмм–канал «Лайфхаки в аналитике» и увлекаюсь бегом. Для закрытого комьюнити Skillbox Code Experts рассказал об основных ошибках при визуализации данных. Основные мысли переложил в статью.

+14

Beeline_tech 22 дек 2024 в 12:52

MLOps: как не потеряться в 10 тысячах фич, часть 2

6 мин

8.6K

Блог компании билайнМашинное обучение * DevOps * Big Data *

Кейс

Первая часть — здесь.

Data lineage

Этот подход обеспечивает прослеживание связей в данных и клиентов, которые используют данные, от источника, включая промежуточные стадии, до момента потребления этих данных. Данные может потреблять сервисы, какие-то BI-системы, на которых построены дашборды, эксплуатировать данные могут люди, дата аналитики, которым это необходимо в рабочих процессах. Data lineage позволяет прозрачно взглянуть на эти вещи и отследить момент получения предагрегатов до момента эксплуатации этих данных клиентами.

Нам важен разрез, когда клиентами или целевыми заказчиками данных являются ML-модели.

+14

InBioReactor 17 дек 2024 в 09:40

Как посчитать биологические данные и не уронить сервер и ноутбук?

Средний

14 мин

2.9K

Блог компании FirstVDSBig Data * БиологияНаучно-популярноеЧитальный зал

Туториал

Привет, Хабр

Наверняка вы слышали о биоинформатике. Звучит перспективно, приятно и полезно. Часто, ввиду всеобщих рассказов о перспективности и возможностях направления, некоторые люди из IT или из «мокрой» биологии (так называют область биологии, где работают в лаборатории с бактериями и прочими возможными объектами живой и не очень природы и реагентами) хотят перейти в биоинформатику. Однако далеко не все понимают, что же это за область такая и почему с ней сложно работать.

Читать дальше →

+14

Nina_Feshchenko 9 дек 2024 в 17:19

Прогнозирование продаж с использованием библиотеки Prophet, часть 2

Средний

5 мин

7.1K

Блог компании билайнМашинное обучение * Статистика в ITBig Data *

Туториал

Привет! Продолжаю знакомить вас с библиотекой Prophet в качестве инстурмента прогнозирования продаж. Первая часть тут.

Функции для критериев качества в нашей прогнозной модели будут выглядеть следующим образом:

+14

dima406 4 дек 2024 в 06:37

Задача прогнозирования дохода клиента, или Как избавиться от неприличных вопросов в заявке

Средний

10 мин

1.9K

Блог компании Альфа-БанкМашинное обучение * Big Data *

Кейс

Спрашивать о зарплате — неприличный вопрос. Конечно, если вас не спросили об этом на Патриках 🙂. Прогнозирование доходов клиентов — это одна из ключевых задач, стоящих перед современными финансовыми учреждениями. Оно не просто помогает в оптимизации внутренних процессов, но и играет важную роль в улучшении клиентского опыта. Поэтому, даже если бы мы были на Патриках, то не доверяли бы утверждениям из уст опрашиваемых.

Для этого у нас есть модели.

+14

MaximML 17 окт 2024 в 16:27

Семь каверзных вопросов от преподавателей школы аналитиков данных МТС

6 мин

8.4K

Блог компании МТСBig Data * IT-компанииМашинное обучение *

Привет, Хабр! Меня зовут Максим Шаланкин, я вместе со своими коллегами — преподавателями в Школе аналитиков данных от МТС — подготовил семь каверзных вопросов, с которыми могут столкнуться начинающие специалисты в области Data Science, ML и Big Data. Ну что, поехали!

+14

vasilfatikhov 30 авг 2024 в 08:10

Как мы искали альтернативу иностранному ПО

Средний

4 мин

5.2K

Блог компании ВТБХранение данных * Big Data *

Кейс

Привет, друзья! Я — Василь Фатихов, работаю в ИТ подразделении ВТБ. Одной из моих повседневных задач является загрузка данных в корпоративное хранилище. Именно с этими данными работают потом «колдуны — аналитики», извлекая из них новые возможности для бизнеса.

Сейчас многие сталкиваются с проблемами, связанными с переходом на альтернативное программное обеспечение. Именно по этой причине мы с коллегами решили написать эту статью, чтобы показать возможные варианты решений и предупредить о трудностях.

+14

breakmirrors 8 авг 2024 в 11:33

Уроки, извлеченные из масштабирования до многотерабайтных датасетов

Средний

9 мин

2.4K

Блог компании Magnus TechPython * Виртуализация * Big Data * Машинное обучение *

Туториал

Перевод

В этой статье я расскажу об уроках, которые вынес при работе с многотерабайтными датасетами. Объясню, с какими сложностями столкнулся при увеличении масштабов датасета и как их удалось решить.

Я разделил статью на две части: первая посвящена масштабированию на отдельной машине, вторая — масштабированию на множестве машин. Наша цель — максимизировать доступные ресурсы и как можно быстрее выполнить поставленные задачи.

+14

InfoWatch 5 мая в 12:10

Сравниваем быстродействие новой функциональности ClickHouse по поиску ближайших векторов с другими решениями

Средний

13 мин

4.7K

Блог компании InfoWatchХранение данных * Big Data * Базы данных * Программирование *

Обзор

Всем привет! Меня зовут Диана Бутько, я студентка 3 курса, изучаю информационные системы и программирование. В InfoWatch я пришла на практику, и одной из моих задач стал сравнительный анализ различных методов поиска похожих векторов. Это один из ключевых аспектов машинного обучения и анализа данных, используемых в рекомендательных системах, кластеризации, семантическом поиске и других областях. Но чем больше объем данных, тем важнее становится выбор инструментов: полный перебор векторов требует больших вычислительных ресурсов, а в других алгоритмах порой необходимо балансировать между точностью и скоростью поиска.

В этой статье я сравниваю пять методов поиска похожих векторов:
— полный перебор по евклидову расстоянию с реализацией в Python;
— FAISS с индексами IndexFlatL2 (полный перебор, евклидово расстояние) и IndexIVFFlat (сегментирование по ячейкам, евклидово расстояние);
— векторный поиск в ClickHouse с индексом HNSW и метриками расстояния L2Distance (евклидово расстояние) и cosineDistance (косинусное сходство).

+13

alfablend 17 мар в 18:12

Как мы искали должников при помощи Pandas

Средний

6 мин

9.4K

Python * Big Data * УрбанизмОткрытые данные * SQLite *

Туториал

Петербургский Фонд капитального ремонта опубликовал документы, в которых указана задолженность за каждую квартиру в городе по итогам 2024 года. Мы изучили эти файлы, чтобы ответить на вопрос: где и почему хуже всего платят за ремонт в своём доме.

Я занимаюсь анализом данных и дата‑журналистикой в газете «Деловой Петербург». Расскажу о том, как объединяли информацию из множества локальных html‑таблиц и приведу примеры кода на «Питоне».

+13

Lujin1234567890 21 янв в 04:16

Как я захотел проверить родинку на меланому, а в результате создал бесплатное приложение

Простой

2 мин

Big Data * Data Engineering * Google App Engine *

Из песочницы

Рак кожи, в частности меланома, – одна из самых опасных онкологических болезней. Ранняя диагностика значительно повышает шансы на успешное лечение. Но несмотря на это, большинство приложений, которые я нашел в PlayStore для анализа кожи оказались неожиданно громоздкими и дорогими. Казалось бы, что может быть проще формулы — нажми на кнопку, получишь результат? Вот и я так думал в поисках нужного приложения. Но, каждый раз приходилось заполнять профиль и анкеты только для того, чтобы оказаться перед экраном с реквизитами для оплаты. В итоге это вдохновило меня на создание бесплатного и простого в использовании приложения.

+13

aleksakirik 11 дек 2024 в 09:10

Повышение производительности складской комплектации: как без трудоёмкого хронометража найти потенциал ускорения

6 мин

Блог компании X5 TechBig Data * Управление проектами * Управление персоналом * Статистика в IT

Кейс

✏️ Технотекст 7

Текущая экономическая ситуация в мире приводит к сильному давлению роста цен во всех секторах экономики. Ритейлеры не могут перекладывать эти риски на плечи своих покупателей, что приводит их к необходимости поиска новых путей сокращения затрат на экземпляр процесса, т. е. на штуку товара. Усиливающаяся конкуренция с e‑commerce требует перестройки процессов и выхода на повышенные скорости доставки в борьбе за клиента.

И кажется, что все имеющиеся инструменты повышения эффективности уже использованы. Но есть ещё один. В этой статье я расскажу о нашем опыте повышения производительности операций в распределительных центрах торговой сети «Пятёрочка» без больших финансовых вливаний и долгосрочных разработок. Я руковожу Департаментом развития аналитики «Цепочки поставок и поддерживающие функции» в Х5 Tech, и моя команда занимается поиском путей повышения эффективности бизнеса через анализ больших данных.

+13

vagonoff 16 сен 2024 в 08:53

Как нам удалось в 100 раз ускорить решение оптимизационной задачи NBO в Альфа-Банке

Средний

6 мин

3.4K

Блог компании GlowByteData Mining * Big Data * Математика * Искусственный интеллект

Кейс

В данной статье мы расскажем, как нам удалось найти решение задачи NBO на open-source солвере CBC примерно в 100 раз и добиться повышения оптимального значения целевой функции на 0.5%.

+13

kucev 31 июл в 11:00

Retrieval-Augmented Generation (RAG): глубокий технический обзор

34 мин

5.5K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Retrieval‑Augmented Generation (RAG) — это архитектурный подход к генеративным моделям, который сочетает навыки поиска информации с генеративными возможностями больших языковых моделей (LLM). Идея RAG была предложена в 2020 году, чтобы преодолеть ограничение LLM — замкнутость на знаниях из обучающих данных. Вместо попыток «вживить» все знания в параметры модели, RAG‑подход позволяет модели запрашивать актуальные сведения из внешних источников (баз знаний) во время генерации ответа. Это обеспечивает более точные и актуальные ответы, опирающиеся на факты, а не только на память модели.

В этой статье мы подробно рассмотрим: архитектуру RAG, её компоненты и этапы работы, современные инструменты и практики для реализации RAG, примеры кода на Python, кейсы применения в бизнесе и науке, технические вызовы и лучшие практики, сравнение RAG с классическим fine‑tuning, перспективы технологии.

+12

MaxRokatansky 17 июн в 17:43

Обнаружение аномалий в данных временных рядов с помощью статистического анализа

Простой

20 мин

5.2K

Блог компании OTUSBig Data * Машинное обучение * DevOps *

Перевод

Настройка оповещений для различных метрик не всегда представляет из себя тривиальную задачу. В некоторых случаях может быть вполне достаточно простого порогового значения, например, для отслеживания свободного места на диске устройства. Вы можете просто установить оповещение о том, что осталось 10% свободного места, и все готово. То же самое касается и мониторинга доступной памяти на сервере.

Однако что делать, если необходимо отслеживать поведение пользователей на веб‑сайте? Представьте, что вы управляете интернет‑магазином, где продаете товары. Одним из подходов может быть установка минимального порога для ежедневных продаж и проверка его раз в день. Но что, если вам нужно выявить проблему гораздо раньше, в течение нескольких часов или даже минут? Статичный порог не позволит этого сделать, так как активность пользователей может меняться в течение дня. Именно здесь на помощь приходит обнаружение аномалий.

+12

azhuravlev1001 30 апр в 08:50

Как мы в PIX BI научились выжимать максимум из данных с помощью таблиц

Простой

8 мин

2.4K

Блог компании PIX RoboticsВизуализация данных * Big Data *

Обзор

Как мы в PIX BI приручили таблицы, чтобы выжимать максимум из данных

Когда мы думаем о таблицах, сразу приходит на ум Excel — этот старший брат всех электронных таблиц, который, несмотря на свои достоинства, часто становится… Но — давайте не будем подсвечивать ничьи недостатки, а лучше поговорим о достоинствах! Таблицы смело можно назвать визуализацией данных еще со времен древних цивилизаций. Их использовали для учета всего — от ракушек на базаре до золотых статуй в храмах. Современные аналитики хорошо знают истинную ценность таблиц и доверяют им.

Когда мы накапливаем достаточно опыта работы с таблицами в Excel, когда исследователь, сидящий в каждом аналитике, топает ногами и требует расширения его контроля над данными, — вот тут и начинается наше путешествие в мир BI-систем.

Да, работать с таблицами в self-service системах, таких как PIX BI, удобнее, чем в Excel. Почему? Во-первых, это просто. Все элементы интерфейса интуитивно понятны. Не нужно фантазировать с формулами или изображать из себя мега-специалиста, чтобы увидеть, как растут ваши продажи. Все происходит наглядно, быстро и без лишних нервов.

Во-вторых, BI-системы предлагают интерактивность: можно легко настраивать фильтры, сортировки и даже комбинировать данные без риска испортить всю таблицу. Вся информация собирается в одном месте, как старые, дорогие сердцу игрушки — с уютом и любовью!

Итак, в этой статье я подробнее разберу, как работать с таблицами в BI и какие фишки можно использовать. Конечно, на примере продукта, который мы создаем — PIX BI. Открываем двери нового, яркого мира аналитики!

+12

MrSotnik 25 апр в 09:16

Full-stack в аналитике: почему это будущее Data Science?

Средний

5 мин

6.4K

JavaScript * Python * Big Data * Data Engineering *

Из песочницы

Привет.

Представьте: вы запилили нейросеть, которая определяет котиков на фото с точностью 99.9% (оставшиеся 0.1% — это когда хомяк притворяется котом). Воодушевлённый результатом, бежите к руководству — а там оказывается, что:

+12

kirillsergeev0102 20 мар в 12:27

Дедупликация объявлений: как мы боремся с одинаковыми размещениями

Сложный

13 мин

2.4K

Блог компании ЦианМашинное обучение * Алгоритмы * Data Engineering * Big Data *

Туториал

Привет! Меня зовут Кирилл Сергеев, я ML-инженер в Циане. В этой статье я расскажу, как мы решили задачу дедупликации объявлений о недвижимости, разработав систему на основе трёх моделей. Эта система автоматически находит и объединяет дублирующиеся объявления, помогая пользователям видеть только актуальную и уникальную информацию.

Материал будет полезен ML-инженерам и специалистам по обработке данных, которым интересно, как мы подошли к решению этой задачи: какие методы использовали, какие проблемы возникли и как мы их преодолели.

+12

1 2 3 4 5

7 8 ...

24 25

Big Data *

Секреты Spark в Arenadata Hadoop: как мы ускорили построение витрин для задач ML

Как не утонуть в данных: выбираем между DWH, Data Lake и Lakehouse

Как не нужно визуализировать данные: антипаттерны в примерах

MLOps: как не потеряться в 10 тысячах фич, часть 2

Как посчитать биологические данные и не уронить сервер и ноутбук?

Привет, Хабр

Прогнозирование продаж с использованием библиотеки Prophet, часть 2

Задача прогнозирования дохода клиента, или Как избавиться от неприличных вопросов в заявке

Семь каверзных вопросов от преподавателей школы аналитиков данных МТС

Как мы искали альтернативу иностранному ПО

Уроки, извлеченные из масштабирования до многотерабайтных датасетов

Сравниваем быстродействие новой функциональности ClickHouse по поиску ближайших векторов с другими решениями

Как мы искали должников при помощи Pandas

Как я захотел проверить родинку на меланому, а в результате создал бесплатное приложение

Ближайшие события

Повышение производительности складской комплектации: как без трудоёмкого хронометража найти потенциал ускорения

Как нам удалось в 100 раз ускорить решение оптимизационной задачи NBO в Альфа-Банке

Retrieval-Augmented Generation (RAG): глубокий технический обзор

Обнаружение аномалий в данных временных рядов с помощью статистического анализа

Как мы в PIX BI научились выжимать максимум из данных с помощью таблиц

Full-stack в аналитике: почему это будущее Data Science?

Дедупликация объявлений: как мы боремся с одинаковыми размещениями

Вклад авторов