Как стать автором
Поиск
Написать публикацию
Обновить
75.9

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

Планы и факты: работаем с денормализованной таблицей

Время на прочтение6 мин
Количество просмотров3.7K

Привет, Хабр! В этой статье я хотел бы поговорить про особенности план-факт анализа, а также о работе с денормализованной таблицей, которая «была, есть и будет использоваться», потому что оказывается удобной для некоторых приемов работы с BI. Под катом вы найдете 7 примеров решения типовых задач план-факт анализа, включая расчет долей, отображение данных с учетом иерархии, разбивку по регионам и так далее. Всех, кому интересны эти практические аспекты, жду под катом :)

Читать далее

Apache Flink: тестирование собственного сериализатора состояния

Уровень сложностиСложный
Время на прочтение15 мин
Количество просмотров1K

Привет, Хабр! На связи Александр Бобряков, техлид команды МТС Аналитика. Это мой одиннадцатый пост про Apache Flink. В предыдущей части мы рассмотрели сериализацию данных во Flink, написали сериализатор, поддерживающий эволюцию схемы для Flink-состояния в операторе на основе Jackson.

В этой части мы научимся писать тесты на эволюцию схемы состояния при использовании своего сериализатора.

Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии. Этот материал соответствует релизной ветке с названием release/10_test_JacksonStateSerializer.

Читать далее

Улучшаем RAG с помощью графов знаний

Время на прочтение15 мин
Количество просмотров6.4K

Генерация с дополненной выборкой (RAG) — это метод, который соединяет внешние источники данных для улучшения вывода больших языковых моделей (LLM). Этот метод идеально подходит для LLM для доступа к частным или специфичным для предметной области данным и решения проблем, связанных с галлюцинациями. Поэтому RAG широко используется для поддержки многих приложений GenAI, таких как чат-боты AI и системы рекомендаций.

Базовый RAG обычно объединяет векторную базу данных и LLM, где векторная база данных хранит и извлекает контекстную информацию для пользовательских запросов, а LLM генерирует ответы на основе извлеченного контекста. Этот подход хорошо работает во многих случаях, однако он испытывает трудности со сложными задачами, такими как многоадресное рассуждение или ответы на вопросы, требующие соединения разрозненных фрагментов информации.

Например, вопрос «Какое имя было дано сыну человека, который победил узурпатора Аллектуса?»

Читать далее

Анализ фильмов с интернет-портала Кинопоиск

Уровень сложностиСредний
Время на прочтение41 мин
Количество просмотров3.9K

Данное исследование посвящено анализу данных о фильмах, собранных с крупнейшей российской платформы КиноПоиск. Основная цель работы — выявить факторы, влияющие на популярность фильмов, их рейтинги и финансовую успешность. В ходе исследования были проанализированы жанровые предпочтения аудитории, проведено сравнение оценок фильмов на Кинопоиске и IMDb, а также исследована взаимосвязь между бюджетами фильмов и их кассовыми сборами.

Разработка включала этапы сбора, обработки, анализа и визуализации данных. Для обработки данных применялись методы очистки от пропусков и ошибок, фильтрации по ключевым показателям и трансформации структур данных. Были реализованы функции для конвертации валют, извлечения данных о жанрах и персоналиях фильмов (актёрах и режиссёрах), а также вычисления статистических показателей полноты и однородности выборки.

Для эффективной работы системы был использован современный технологический стек. Обработка данных осуществлялась с помощью MongoDB, что обеспечило хранение и управление большими объёмами неструктурированной информации. RabbitMQ организовал асинхронный обмен сообщениями между компонентами системы, а серверная часть приложения разрабатывалась на базе Spring Boot, что ускорило процесс разработки и упростило развертывание приложения. Контейнеризация с использованием Docker обеспечила удобное развертывание и масштабирование системы. Основными языками программирования стали Java 17 и Python: Java использовалась для серверной части и микросервисов, а Python — для анализа данных и построения алгоритмов обработки информации.

Для анализа данных применялись библиотеки Pandas, Seaborn и SciPy, которые обеспечили эффективную обработку данных и визуализацию результатов. В рамках анализа строились графики, отображающие популярность жанров, исследовалась корреляция оценок на Кинопоиске и IMDb, а также визуализировалась связь между бюджетами и кассовыми сборами. Для представления результатов применялись такие инструменты, как matplotlib и seaborn, позволяя визуализировать ключевые закономерности в виде графиков и диаграмм.

Анализ выявил ключевые закономерности: популярность определённых жанров, зависимость коммерческого успеха фильма от его бюджета и значительное влияние известных актёров и режиссёров на успех фильма. Полученные результаты могут быть полезны для киностудий и продюсеров при планировании новых проектов, прогнозировании кассовых сборов и выборе жанров. Результаты также могут применяться для оптимизации маркетинговых стратегий при продвижении фильмов. В будущем планируется углубить исследование, проанализировать долгосрочные тренды в изменении популярности жанров и исследовать влияние пользовательских рецензий на успех фильмов.

Читать далее

Алгоритмы и структуры данных для численных вычислений с автоматической оценкой точности

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров1.8K

Специалист отдела перспективных исследований компании «Криптонит» Игорь Нетай на протяжении нескольких лет изучал фундаментальную проблему быстрой потери точности вычислений. Она связана с повсеместно применяемым форматом экспоненциальной записи чисел и наиболее остро затрагивает сферы AI, HPC и Big Data.

Читать далее

В поисках потерянных данных: переход со StreamSets на Data Boring

Время на прочтение5 мин
Количество просмотров464

Наш заказчик столкнулся с реальной проблемой, когда из-за использования устаревшего ETL-инструмента StreamSets оказался в ситуации, в которой его система начала давать сбои, а это напрямую влияло на финансовые результаты. Мы решили помочь, организовав миграцию на более современное решение — Luxms Data Boring.

В этой статье мы, Николай Павлов и Наталья Глодя, делимся опытом нашей команды в поисках потерянных данных и рассказываем о том, как важно не дожидаться критических ситуаций, а заранее обновлять свои инструменты. Узнайте, как мы смогли не только решить проблему заказчика, но и обеспечить надежность и эффективность бизнес-процессов с помощью отечественного ПО, подходящего под условия импортозамещения.

Читать далее

Customer Happiness: как не только разработать, но и внедрить новый продукт внутри крупной компании

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров1.4K

Привет, Хабр! Меня зовут Дмитрий Бодин, в МТС Диджитал я руковожу командой интеграции DataOps Platform — платформы по работе с данными. Мы занимаемся внедрением и сопровождением инструментов DataOps внутри экосистемы МТС. 

При запуске DataOps Platform мы увидели слабую заинтересованность в ее сервисах, так как все привыкли работать с инструментами от известных вендоров. В этот момент мы поняли, что очень важно продвигать платформу внутри компании и сопровождать пользователей на всех этапах внедрения. 

Ниже я на нашем опыте расскажу, как нам удалось заинтересовать коллег своим продуктом, какие возникали проблемы с ростом числа пользователей и как мы построили внутреннюю систему консалтинга, которая помогает на всех этапах работы с нашими инструментами. Надеюсь, мой опыт будет полезен тем, кто занимается созданием и развитием с нуля внутренних продуктов в своих компаниях.

Читать далее

Как мы попробовали Apache Iceberg в связке со Spark и что из этого вышло

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров5.1K

Тема преимуществ открытых табличных форматов при работе с озерами данных всё чаще поднимается в среде дата-инженеров. Предполагается, что их использование способно устранить недостатки популярного Apache Hive. Но так ли это на практике?

Меня зовут Иван Биленко, я инженер данных в команде дата-платформы Циан. В этой статье я хочу немного познакомить вас с процессами и стеком внутри нашей платформы, рассказать, почему мы решили попробовать Iceberg, с какими проблемами столкнулись при тестировании и какие преимущества Iceberg может дать тем, кто еще только задумывается о переходе. Дисклеймер: статья носит обзорный характер.

Читать далее

Прогнозирование продаж с использованием библиотеки Prophet, часть 1

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров3.1K

Прогнозирование можно считать одной из основных задач аналитика. Прогноз продаж, оттока, выручки, затрат – всех основных KPI развития бизнеса – может потребоваться где и когда угодно, начиная от небольших ad hoc кейсов до масштабных задач вроде процесса бюджетирования на предстоящий год.

Меня зовут Нина Фещенко, я работаю в команде аналитики продаж FTTB-FMC (или иначе – ШПД и конвергентных продуктов) Билайн. В данной статье мы рассмотрим прогнозирование продаж FTTB-FMC для целей ежедневной отчетности.  

Начнем с того, что мы понимаем под продажами ШПД и конвергенции. 

Читать далее

Культурный BI: конференция Visiology и Conteq в Санкт-Петербурге

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров402

Привет, друзья! Если вы имеете отношение к BI или подготовке отчетности и территориально находитесь в Санкт-Петербурге, этот пост — для вас! Visiology и Conteq организуют 15 октября уникальную по своему формату вечернюю конференцию в культурной столице. На мероприятии можно будет вживую познакомиться с новейшей версией платформы, а также заявить свой кейс на бесплатный пилотный проект. Подробности о том, кому имеет смысл  спланировать свой вечер 15 октября в Санкт-Петербурге вместе с нами, — под катом.

Хочу на BI-тусовку в Питере 15 октября!

Преимущества DAX на примере коэффициента проникновения

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров1.7K

Привет, Хабр! В рамках Business Intelligence для расчета KPI и других статистических характеристик могут использоваться различные средства. Универсальным и мощным инструментом является язык DAX, в этой статье я хочу показать его преимущества на примере популярной задачи расчета коэффициента проникновения в Power BI.

Если интересна аналитика с DAX - то добро пожаловать! :)

Читать далее

Кто такой и чем занимается дата-инженер

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.9K

Хабр, привет! Меня зовут Саша Сайков, я дата-инженер в PepsiCo и старший ревьюер на курсах «Инженер данных» и «Инженер машинного обучения» в Яндекс Практикуме. Я хочу рассказать, чем занимаются дата-инженеры, в каких компаниях мы работаем и чем отличается наша работа от работы других специалистов по данным.

Читать далее

Как мы построили сервис, который поможет сократить поиск видео контента в огромной базе данных

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров2.1K

Всем привет!

Меня зовут Дима Савелко, я лид команды нейро-сети.рф.

В мире, где короткие видеоролики становятся все более популярными, создателям видео контента все сложнее находить релевантные видео для своих целей. Мы решили эту проблему, создав сервис по поиску видеоконтента с помощью текста.

В статье мы расскажем, как мы использовали современные AI-технологии, чтобы сделать поиск видео быстрым и точным. Узнайте, какие решения мы приняли на каждом этапе разработки, и как наш сервис может улучшить вашу работу с видеоконтентом. Мы поделимся практическими советами и опытом, чтобы помочь вам избежать ошибок и максимально эффективно использовать возможности AI. Читайте нашу статью и узнайте, как сделать поиск видео проще и эффективнее!

Читать далее

Ближайшие события

PandasAI — кратно ускоряем работу аналитика данных в одну строчку

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров14K

Ускоряем написание кода при работе с таблицами и библиотекой Pandas с помощью PandasAI в несколько раз за пару строк. Хитрецы уже используют ...

Читать далее

Как стать BI-аналитиком? Онлайн и офлайн, теория и практика

Время на прочтение4 мин
Количество просмотров5.5K

Привет, друзья! Сегодня обсудим образование. Конечно, не всю систему в целом, а только те аспекты, которые затрагивают действующих и будущих BI-специалистов. Как получить фундаментальные знания в отрасли, где быстро и бесплатно найти ответ на волнующий вопрос, у кого научиться работать на конкретной BI-платформе, чтобы претендовать на ключевые позиции в крупных компаниях? Если вы задаете себе такие вопросы относительно Visiology, то все ответы на них найдете под катом.

Читать далее

Как Uber обслуживает более 40 миллионов чтений в секунду из онлайн-хранилища с помощью встроенного кэша

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров9.3K

Привет, Хабр! Представляю вам перевод статьи "How Uber Serves Over 40 Million Reads Per Second from Online Storage Using an Integrated Cache" автора Preetham Narayanareddy. Из неё вы узнаете, как в Uber проектировалась система кэширования на основе Redis, с какими сложностями и тонкостями пришлось столкнуться разработчикам, и как в итоге им удалось создать действительно высокопроизводительное решение.

Читать далее

Почему решения принимаются не на основе дашбордов?

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров7K

Чем похожи дашборд и рекламный баннер? 

У нас упала конверсия из просмотров в клики! У нас не продаются товары! Два йогурта по цене одного! Оба привлекают внимание, содержат и картинки, и текст и реже, чем хотелось бы, приводят к действию.

Аналитики часто ожидают, что дашборд это нечто ценное само по себе и работа закончена. Но дашборд это инструмент, который нужен для принятия решений и если решения не принимаются - значит инструмент бесполезен. На абстрактном примере я хочу показать реальные проблемы на пути превращения несложного дашборда по ассортименту интернет-магазина в систему принятия решений.

Читать далее

Что такое Data Service и почему он может быть вам полезен

Время на прочтение8 мин
Количество просмотров4.1K

Привет, Хабр! На связи группа экспертов по управлению данными из МТС.
А именно: Патрисия Кошман — руководитель группы (управление метаданными) и Аксинья Ласкова — эксперт по практикам качества данных.

Сервисы МТС собирают огромное количество данных разных типов и качества, начиная с информации об оборудовании сети и заканчивая данными о кинопроизводстве. Естественно, эти данные нужно хранить, обрабатывать и находить им применение.

Как это происходит у нас — рассказали под катом!

Читать далее

Меньше работы с людьми, больше работы с данными: кому подойдет мир аналитики

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров6.1K

В мире, где каждый клик, каждое взаимодействие и каждая транзакция превращаются в данные, способность понимать и интерпретировать этот поток информации становится все более ценной. Данные — это золото нашего времени, невидимый актив, который в правильных руках способен преобразовывать бизнес, науку и даже повседневную жизнь. В центре этой революции стоит профессия аналитика — ключевого игрока в процессе превращения сырых данных в ценные инсайты и стратегические решения. Об этом сегодня нам расскажет Алексей Бабенков.

Читать далее

Fashion is ML profession! Материалы митапа

Время на прочтение2 мин
Количество просмотров1.5K

Использование ML в онлайн-шоппинге не ограничивается рекомендациями товаров. Покупать одежду и обувь проще, когда у любого бренда ты знаешь нужный размер, видишь удачное сочетания товаров и легко находишь похожие внешне или по цвету вещи.

В Lamoda Tech мы создаем продукты, которые решают самые разные задачи пользователей и бизнеса. На митапе 28 марта мы рассказали, какие ML-модели работают у нас в проде и как мы строили эту работу. 

Делимся с вами видео выступлений и презентациями.

Читать далее

Вклад авторов