Как стать автором
Поиск
Написать публикацию
Обновить
121.35

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

Секреты Spark в Arenadata Hadoop: как мы ускорили построение витрин для задач ML

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров1.7K

Привет, Хабр! Я Дмитрий Жихарев, CPO Платформы искусственного интеллекта RAISA в Лаборатории ИИ РСХБ-Интех. В этой статье я и архитектор нашей платформы Александр Рындин @aryndin9999расскажем о том, как мы построили взаимодействие Платформы ИИ и Озера данных для работы с витринами данных моделей машинного обучения с использованием Spark.

Читать далее

Как не утонуть в данных: выбираем между DWH, Data Lake и Lakehouse

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров9.4K

Привет, Хабр! Меня зовут Алексей Струченко, я работаю архитектором информационных систем в Arenadata. Сегодня хотелось бы поговорить о хранилищах данных — их видах, ключевых особенностях и о том, как выбрать подходящее решение. В эпоху цифровой трансформации данные стали одним из самых ценных активов для компаний любого масштаба и сферы деятельности. Эффективное хранение, обработка и анализ больших объёмов данных помогают организациям принимать обоснованные решения, повышать операционную эффективность и создавать конкурентные преимущества.

Однако с ростом объёмов данных и усложнением их структуры традиционные методы хранения сталкиваются с ограничениями. В этой статье мы подробно рассмотрим подходы к хранению данных: Data Warehouse (DWH), Data Lake и относительно новую концепцию Lakehouse. Разберем их особенности, различия, преимущества и недостатки, а также предложим рекомендации по выбору каждого подхода.

Всплыть

Как не нужно визуализировать данные: антипаттерны в примерах

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров6.2K

Как делать графики понятными и наглядными? Да ещё и избежать неверных трактовок? Когда использовать круговую диаграмму, а когда нужны линейные графики или столбчатая шкала? Для этого достаточно учесть антипаттерны, которые вредят и запутывают. Разберём на «хороших» и «плохих» примерах.

Привет, Хабр! Меня зовут Андрей Машковцев, я — BI-аналитик в «Т-банке», эксперт Skillbox, веду телеграмм–канал «Лайфхаки в аналитике» и увлекаюсь бегом. Для закрытого комьюнити Skillbox Code Experts рассказал об основных ошибках при визуализации данных. Основные мысли переложил в статью.

Читать далее

MLOps: как не потеряться в 10 тысячах фич, часть 2

Время на прочтение6 мин
Количество просмотров8.6K

Первая часть — здесь.

Data lineage

Этот подход обеспечивает прослеживание связей в данных и клиентов, которые используют данные, от источника, включая промежуточные стадии, до момента потребления этих данных. Данные может потреблять сервисы, какие-то BI-системы, на которых построены дашборды, эксплуатировать данные могут люди, дата аналитики, которым это необходимо в рабочих процессах. Data lineage позволяет прозрачно взглянуть на эти вещи и отследить момент получения предагрегатов до момента эксплуатации этих данных клиентами.

Нам важен разрез, когда клиентами или целевыми заказчиками данных являются ML-модели. 

Читать далее

Как посчитать биологические данные и не уронить сервер и ноутбук?

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров2.9K


Привет, Хабр


Наверняка вы слышали о биоинформатике. Звучит перспективно, приятно и полезно. Часто, ввиду всеобщих рассказов о перспективности и возможностях направления, некоторые люди из IT или из «мокрой» биологии (так называют область биологии, где работают в лаборатории с бактериями и прочими возможными объектами живой и не очень природы и реагентами) хотят перейти в биоинформатику. Однако далеко не все понимают, что же это за область такая и почему с ней сложно работать.
Читать дальше →

Прогнозирование продаж с использованием библиотеки Prophet, часть 2

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров7.1K

Привет! Продолжаю знакомить вас с библиотекой Prophet в качестве инстурмента прогнозирования продаж. Первая часть тут.

Функции для критериев качества в нашей прогнозной модели будут выглядеть следующим образом:

Читать далее

Задача прогнозирования дохода клиента, или Как избавиться от неприличных вопросов в заявке

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.9K

Спрашивать о зарплате — неприличный вопрос. Конечно, если вас не спросили об этом на Патриках 🙂. Прогнозирование доходов клиентов — это одна из ключевых задач, стоящих перед современными финансовыми учреждениями. Оно не просто помогает в оптимизации внутренних процессов, но и играет важную роль в улучшении клиентского опыта. Поэтому, даже если бы мы были на Патриках, то не доверяли бы утверждениям из уст опрашиваемых.

Для этого у нас есть модели.

Читать далее

Семь каверзных вопросов от преподавателей школы аналитиков данных МТС

Время на прочтение6 мин
Количество просмотров8.4K

Привет, Хабр! Меня зовут Максим Шаланкин, я вместе со своими коллегами — преподавателями в Школе аналитиков данных от МТС — подготовил семь каверзных вопросов, с которыми могут столкнуться начинающие специалисты в области Data Science, ML и Big Data. Ну что, поехали!

Читать далее

Как мы искали альтернативу иностранному ПО

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров5.2K

Привет, друзья! Я — Василь Фатихов, работаю в ИТ подразделении ВТБ. Одной из моих повседневных задач является загрузка данных в корпоративное хранилище. Именно с этими данными работают потом «колдуны — аналитики», извлекая из них новые возможности для бизнеса.

Сейчас многие сталкиваются с проблемами, связанными с переходом на альтернативное программное обеспечение. Именно по этой причине мы с коллегами решили написать эту статью, чтобы показать возможные варианты решений и предупредить о трудностях.

Читать далее

Уроки, извлеченные из масштабирования до многотерабайтных датасетов

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2.4K

В этой статье я расскажу об уроках, которые вынес при работе с многотерабайтными датасетами. Объясню, с какими сложностями столкнулся при увеличении масштабов датасета и как их удалось решить.

Я разделил статью на две части: первая посвящена масштабированию на отдельной машине, вторая — масштабированию на множестве машин. Наша цель — максимизировать доступные ресурсы и как можно быстрее выполнить поставленные задачи.

Читать далее

Сравниваем быстродействие новой функциональности ClickHouse по поиску ближайших векторов с другими решениями

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров4.7K

Всем привет! Меня зовут Диана Бутько, я студентка 3 курса, изучаю информационные системы и программирование. В InfoWatch я пришла на практику, и одной из моих задач стал сравнительный анализ различных методов поиска похожих векторов. Это один из ключевых аспектов машинного обучения и анализа данных, используемых в рекомендательных системах, кластеризации, семантическом поиске и других областях. Но чем больше объем данных, тем важнее становится выбор инструментов: полный перебор векторов требует больших вычислительных ресурсов, а в других алгоритмах порой необходимо балансировать между точностью и скоростью поиска.

В этой статье я сравниваю пять методов поиска похожих векторов:
— полный перебор по евклидову расстоянию с реализацией в Python;
— FAISS с индексами IndexFlatL2 (полный перебор, евклидово расстояние) и IndexIVFFlat (сегментирование по ячейкам, евклидово расстояние);
— векторный поиск в ClickHouse с индексом HNSW и метриками расстояния L2Distance (евклидово расстояние) и cosineDistance (косинусное сходство).

Читать далее

Как мы искали должников при помощи Pandas

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров9.4K

Петербургский Фонд капитального ремонта опубликовал документы, в которых указана задолженность за каждую квартиру в городе по итогам 2024 года. Мы изучили эти файлы, чтобы ответить на вопрос: где и почему хуже всего платят за ремонт в своём доме.

Я занимаюсь анализом данных и дата‑журналистикой в газете «Деловой Петербург». Расскажу о том, как объединяли информацию из множества локальных html‑таблиц и приведу примеры кода на «Питоне».

Читать далее

Как я захотел проверить родинку на меланому, а в результате создал бесплатное приложение

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров3K

Рак кожи, в частности меланома, – одна из самых опасных онкологических болезней. Ранняя диагностика значительно повышает шансы на успешное лечение. Но несмотря на это, большинство приложений, которые я нашел в PlayStore для анализа кожи оказались неожиданно громоздкими и дорогими. Казалось бы, что может быть проще формулы — нажми на кнопку, получишь результат? Вот и я так думал в поисках нужного приложения. Но, каждый раз приходилось заполнять профиль и анкеты только для того, чтобы оказаться перед экраном с реквизитами для оплаты. В итоге это вдохновило меня на создание бесплатного и простого в использовании приложения.

Читать далее

Ближайшие события

Повышение производительности складской комплектации: как без трудоёмкого хронометража найти потенциал ускорения

Время на прочтение6 мин
Количество просмотров2K

Текущая экономическая ситуация в мире приводит к сильному давлению роста цен во всех секторах экономики. Ритейлеры не могут перекладывать эти риски на плечи своих покупателей, что приводит их к необходимости поиска новых путей сокращения затрат на экземпляр процесса, т. е. на штуку товара. Усиливающаяся конкуренция с e‑commerce требует перестройки процессов и выхода на повышенные скорости доставки в борьбе за клиента.

И кажется, что все имеющиеся инструменты повышения эффективности уже использованы. Но есть ещё один. В этой статье я расскажу о нашем опыте повышения производительности операций в распределительных центрах торговой сети «Пятёрочка» без больших финансовых вливаний и долгосрочных разработок. Я руковожу Департаментом развития аналитики «Цепочки поставок и поддерживающие функции» в Х5 Tech, и моя команда занимается поиском путей повышения эффективности бизнеса через анализ больших данных.

Читать далее

Как нам удалось в 100 раз ускорить решение оптимизационной задачи NBO в Альфа-Банке

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров3.4K

В данной статье мы расскажем, как нам удалось найти решение задачи NBO на open-source солвере CBC примерно в 100 раз и добиться повышения оптимального значения целевой функции на 0.5%.

Читать далее

Retrieval-Augmented Generation (RAG): глубокий технический обзор

Время на прочтение34 мин
Количество просмотров5.5K

Retrieval‑Augmented Generation (RAG) — это архитектурный подход к генеративным моделям, который сочетает навыки поиска информации с генеративными возможностями больших языковых моделей (LLM). Идея RAG была предложена в 2020 году, чтобы преодолеть ограничение LLM — замкнутость на знаниях из обучающих данных. Вместо попыток «вживить» все знания в параметры модели, RAG‑подход позволяет модели запрашивать актуальные сведения из внешних источников (баз знаний) во время генерации ответа. Это обеспечивает более точные и актуальные ответы, опирающиеся на факты, а не только на память модели.

В этой статье мы подробно рассмотрим: архитектуру RAG, её компоненты и этапы работы, современные инструменты и практики для реализации RAG, примеры кода на Python, кейсы применения в бизнесе и науке, технические вызовы и лучшие практики, сравнение RAG с классическим fine‑tuning, перспективы технологии.

Читать далее

Обнаружение аномалий в данных временных рядов с помощью статистического анализа

Уровень сложностиПростой
Время на прочтение20 мин
Количество просмотров5.2K

Настройка оповещений для различных метрик не всегда представляет из себя тривиальную задачу. В некоторых случаях может быть вполне достаточно простого порогового значения, например, для отслеживания свободного места на диске устройства. Вы можете просто установить оповещение о том, что осталось 10% свободного места, и все готово. То же самое касается и мониторинга доступной памяти на сервере.

Однако что делать, если необходимо отслеживать поведение пользователей на веб‑сайте? Представьте, что вы управляете интернет‑магазином, где продаете товары. Одним из подходов может быть установка минимального порога для ежедневных продаж и проверка его раз в день. Но что, если вам нужно выявить проблему гораздо раньше, в течение нескольких часов или даже минут? Статичный порог не позволит этого сделать, так как активность пользователей может меняться в течение дня. Именно здесь на помощь приходит обнаружение аномалий.

Читать далее

Как мы в PIX BI научились выжимать максимум из данных с помощью таблиц

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.4K

Как мы в PIX BI приручили таблицы, чтобы выжимать максимум из данных

Когда мы думаем о таблицах, сразу приходит на ум Excel — этот старший брат всех электронных таблиц, который, несмотря на свои достоинства, часто становится… Но — давайте не будем подсвечивать ничьи недостатки, а лучше поговорим о достоинствах! Таблицы смело можно назвать визуализацией данных еще со времен древних цивилизаций. Их использовали для учета всего — от ракушек на базаре до золотых статуй в храмах. Современные аналитики хорошо знают истинную ценность таблиц и доверяют им.

Когда мы накапливаем достаточно опыта работы с таблицами в Excel, когда исследователь, сидящий в каждом аналитике, топает ногами и требует расширения его контроля над данными, — вот тут и начинается наше путешествие в мир BI-систем.

Да, работать с таблицами в self-service системах, таких как PIX BI, удобнее, чем в Excel. Почему? Во-первых, это просто. Все элементы интерфейса интуитивно понятны. Не нужно фантазировать с формулами или изображать из себя мега-специалиста, чтобы увидеть, как растут ваши продажи. Все происходит наглядно, быстро и без лишних нервов.

Во-вторых, BI-системы предлагают интерактивность: можно легко настраивать фильтры, сортировки и даже комбинировать данные без риска испортить всю таблицу. Вся информация собирается в одном месте, как старые, дорогие сердцу игрушки — с уютом и любовью!

Итак, в этой статье я подробнее разберу, как работать с таблицами в BI и какие фишки можно использовать. Конечно, на примере продукта, который мы создаем — PIX BI. Открываем двери нового, яркого мира аналитики!

Читать далее

Full-stack в аналитике: почему это будущее Data Science?

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров6.4K

Привет.

Представьте: вы запилили нейросеть, которая определяет котиков на фото с точностью 99.9% (оставшиеся 0.1% — это когда хомяк притворяется котом). Воодушевлённый результатом, бежите к руководству — а там оказывается, что:

Читать далее

Дедупликация объявлений: как мы боремся с одинаковыми размещениями

Уровень сложностиСложный
Время на прочтение13 мин
Количество просмотров2.4K

Привет! Меня зовут Кирилл Сергеев, я ML-инженер в Циане. В этой статье я расскажу, как мы решили задачу дедупликации объявлений о недвижимости, разработав систему на основе трёх моделей. Эта система автоматически находит и объединяет дублирующиеся объявления, помогая пользователям видеть только актуальную и уникальную информацию.

Материал будет полезен ML-инженерам и специалистам по обработке данных, которым интересно, как мы подошли к решению этой задачи: какие методы использовали, какие проблемы возникли и как мы их преодолели.

Читать далее

Вклад авторов