Обновить
77.64

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Мнение GlowByte: чем можно импортозаместить CPM и надо ли это делать

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров711

Всем привет! Это снова мы — направление FI (Financial Intelligence) компании GlowByte. В прошлой статье мы обещали рассказать про отечественные решения класса CPM. Сегодня мы расскажем, почему, на наш взгляд, сейчас лучшее время для внедрения российского софта, а также опишем основные требования заказчиков к подобным платформам. 

Читать далее

Приключение по перереносу аналитики из Oracle в Iceberg

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.2K

Мы начали с простой цели: разобраться в небольших операционных данных из нашей среды Oracle E-Business Suite (OEBS). Сначала всё казалось несложным. У нас был классический data warehouse: пакетная обработка, массовые загрузки и привычная реляционная СУБД. Но по мере того как мы углублялись в проект, казалось бы рутинная задача превратилась в исследование и эксперименты с неожиданными поворотами и поиском чего-то действительно универсального.

Читать далее

У SAMURAI есть цель — zero-shot решение задачи Visual Object Tracking(VOT)

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров938

Визуальный трекинг объектов без обучения – сложная задача, особенно в динамических сценах. Новый метод SAMURAI расширяет возможности SAM-2, интегрируя механизмы моделирования движения и улучшая архитектуру памяти.

SAMURAI использует фильтр Калмана для моделирования движения и стабилизации предсказаний, что позволяет значительно повысить точность трекинга в сложных условиях. Метод превосходит существующие zero-shot методы и демонстрирует конкурентоспособные результаты по сравнению с обучаемыми моделями.

Подробнее об архитектуре SAMURAI

Векторизация текста в NLP: от слов к числам

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров3.7K

Перед началом работы с NLP-моделями текст нужно преобразовать в понятный модели вид. Этот процесс называется векторизацией, и без него невозможно представить современный NLP. По сути, мы превращаем слова, предложения или целые документы в векторы — наборы чисел, которые отражают определенные характеристики текста. 

Рассказываем о векторизации подробнее вместе с экспертом.

Читать далее

Apache Flink: использование и автоматическая проверка собственного сериализатора состояния

Уровень сложностиСложный
Время на прочтение11 мин
Количество просмотров1.3K

Привет, Хабр! На связи Александр Бобряков, техлид команды МТС Аналитики. Это мой финальный пост про Apache Flink. В предыдущих частях мы рассматривали процессы сериализации данных, написали кастомный сериализатор, а также покрыли его тестами. В них проверялась поддержка эволюции схемы состояния. Для этого мы реализовали много удобных абстракций, связанных с перезагрузкой Flink MiniCluster, компиляцией тестовых java-классов, использованием их в classpath кластера и так далее.

В этом материале мы применим разработанный сериализатор JacksonStateSerializer в бою, а также автоматизируем проверку эволюции схемы для всех наших классов, участвующих в сериализации.

Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии. Данная статья соответствует релизной ветке с названием release/11_JacksonEvolvingState. По мере выхода новых материалов на Хабре ссылки на них будут появляться ниже.

Список моих постов про Flink:

Читать далее

Плюсы и минусы SUMMARIZE

Время на прочтение6 мин
Количество просмотров2.5K

При использовании DAX аналитикам важно следить не только за корректностью результатов, но и за производительностью системы при обработке запросов. Одним из инструментов повышения эффективности является корректное использование функции SUMMARIZE. Всем, кто работает с большими объемами данных, активно изучает синтаксис DAX, а также интересующимся особенностями SUMMARIZE — добро пожаловать под кат!

Читать далее

Алгоритм k-means и метод локтя: кластеризация данных с примерами на Python

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров15K

Кластеризация данных — одна из ключевых задач машинного обучения. Она позволяет группировать объекты в однородные кластеры на основе их характеристик. Один из самых популярных, простых и эффективных методов кластеризации — это алгоритм k-means. 

Рассмотрим, как работает k-means, познакомимся с методом локтя для определения числа кластеров и проиллюстрируем их применение на реальных данных с помощью языка программирования Python.

Читать далее

Поддержка MDX в Luxms BI: комфортная миграция с Power BI

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров819

Сегодня у большинства крупных компаний есть схожая задача: в условиях санкционных рисков, постепенном «отключении» зарубежных систем и политики импортозамещения перейти на отечественные решения, сохраняя при этом функционал, привычное качество решений и свои наработки.

Меня зовут Алексей Розанов, я руководитель пресейл направления и работы с партнерами ГК Luxms, вендора платформы Luxms BI.

Luxms BI — платформа бизнес-аналитики данных с высочайшим быстродействием и горизонтальной масштабируемостью. У нее мощные функциональные и визуальные возможности, а также быстрая обработка больших объемов данных благодаря своей датацентричной архитектуре. В Реестре российского ПО.

И как человек, который постоянно общается с заказчиками, я прекрасно понимаю, насколько сложным может быть переход с одной системы бизнес-аналитики на другую. Перенос данных, настройка ETL-процессов, интеграция с текущими бизнес-процессами, полная перестройка работы ИТ-служб — всё это требует значительных усилий. А для тех, кто использует Power BI и работает с многомерными кубами, задача усложняется многократно.

В этой статье я расскажу, как Luxms BI помогает нашим клиентам успешно адаптироваться к новым условиям, не теряя в гибкости и эффективности аналитики на примере реализации поддержки MDX-запросов.

Читать далее

Как мы усовершенствовали CDP благодаря агрегатным атрибутам

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров940

Постоянный рост конкуренции на рынке вынуждает компании учиться глубже понимать клиентов и адаптировать свои предложения под их потребности. В решении этой задачи маркетологам, аналитикам данных и владельцам бизнеса помогают платформы клиентских данных, которые улучшают персонализацию маркетинговых кампаний и повышают эффективность взаимодействия с клиентами. Под катом мы расскажем, как платформы могут помочь в этом процессе, обсудим концепцию агрегатных атрибутов и их роль в оптимизации работы с данными о клиентах.

Читать далее

Оценка чат-ботов LLM: основные метрики и методы тестирования

Время на прочтение9 мин
Количество просмотров2.8K

В этой статье я научу вас, как оценивать LLM-чат-ботов, чтобы понять, достаточно ли они убедительны, чтобы сойти за реальных людей. Но что еще важнее, вы сможете использовать результаты этой оценки, чтобы понять, как улучшить своего LLM-чат-бота, например, изменив промпт или саму LLM-модель.

В этой статье вы узнаете:

* Разницу между оценкой LLM-чат-ботов и стандартной оценкой LLM

* Различные подходы к оценке LLM-диалогов

* Различные типы метрик для оценки LLM-чат-ботов

* Как реализовать оценку LLM-диалогов в коде с использованием DeepEval

Читать далее

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

Время на прочтение12 мин
Количество просмотров7.5K

Привет, Хабр! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.

Гибкие методологии построения хранилищ данных — очень популярный тренд. Причина — возрастающая сложность корпоративных моделей данных и необходимость интеграции большого числа разнородных источников, которые включают в себя не только традиционные СУБД и плоские файлы, но и различные real-time-брокеры сообщений, внешние API и базы данных NoSQL.

В этой статье хочу рассказать, как мы изначально хранили данные, почему решили внедрить методологии Data Lake и Data Vault и к чему это привело. Кроме того, покажу, как мы изобрели свой велосипед разработали свой фреймворк по автоматизации работы с помощью модели Data Vault.

Читать далее

Государственные гранты для IT-проектов или почему финансирование достаётся единицам?

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров5.3K

В 2019 г. активизировались Фонды и Министерства, занимающиеся выдачей грантов для IT‑компаний, а с 2022 г. начался российский «IT‑бум». Казалось бы, государство выделяет огромные средства на IT‑проекты, но финансирование получают лишь единицы. Почему? Ошибки у большинства команд типичны. Будем разбираться постепенно и с примерами.

Читать далее

Зачем в Look-a-like pseudolabelling (или самый простой метод PU-learning на службе у рекламщиков)

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2.2K

Каждый бизнес хочет меньше платить за рекламу -- и точность таргетирования здесь не на последних ролях. Как быть если вас только сотня-другая примеров ваших клиентов, а хочется получить несколько тысяч, не разорившись на маркетинг?
Публичные подходы к "поиску похожих" (часто говорят Look-a-like) в рекламе (видел их в статьях от рекламных агенств), даже с использованием Machine Learning, не лучшее из возможного.
Рассмотрим как можно сильно улучшить точность моделей в постановке Positive Unlabelled с помощью известного инструмента Pseudolabelling и позволить бизнесу терять в разы меньше денег, дотягиваясь именно до релевантных потенциальных клиентов.

Читать далее

Ближайшие события

Сегментация изображений с дефектами для промышленности на основе Unet и TensorFlow

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров3.6K

В процессе работы над проектом я решил продолжить решение задачи, которую мы начали на хакатоне от компании «Норникель». Несмотря на то, что в команде не удалось отправить решение из-за технических проблем с фреймворком, я вернулся к задаче и решил её самостоятельно. Это было для меня полезным опытом, так как редко удается поработать с реальными данными с производственного процесса, и я хотел приобрести дополнительные навыки в решении подобных задач.

Читать далее

О прогнозировании в станкостроении

Уровень сложностиСредний
Время на прочтение27 мин
Количество просмотров1.6K

Станкостроение традиционно рассматривается как “материнская отрасль” промышленности. От доступности современных, технологически совершенных станков напрямую зависит эффективность многих других секторов — от машиностроения до приборостроения и высокотехнологичных производств. В условиях мировой экономической конкуренции и санкционных ограничений вопросы развития отечественного станкостроения приобрели особую актуальность:

Читать далее

Быстрый матчинг товаров на маркетплейсе Wildberries

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров3.1K

Привет! Меня зовут Павел Саликов, я Senior ML-инженер в команде Дубликатов Товаров Wildberries. В этой статье расскажу про наше решение матчинга товаров на маркетплейсе и про то, как удалось сделать его быстрым.

Читать далее

AI-тренер и AI-редактор. Полный гайд по профессии

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров5.2K

Представьте, что искусственный интеллект — это ребенок, который только начинает учиться говорить и понимать окружающий мир, а AI-тренеры, редакторы и асессоры — это учителя и наставники. Они помогают ему разобраться, как правильно отвечать на вопросы, избегать ошибок и становиться полезным помощником для людей.

Но в чем разница между этими специальностями, какие карьерные перспективы для них существуют и какими качествами надо обладать, чтобы эффективно выполнять такую работу? Давайте разбираться.

Читать далее

Цифровая трансформация как основа непрерывного улучшения производства

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.8K

Всем привет! Сегодня в эфире редкая тема, про IIoT. Команда промышленной аналитики и интернета вещей GlowByte обобщила и структурировала мысли о возможностях цифрового производства, которые, на их взгляд, раскрываются и развиваются одновременно при правильной организации цифровой трансформации производства и конфликтуют друг с другом при неправильной.

Читать далее

Прогнозируем временные данные с TimeGPT

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров4.8K

Прогнозирование временных рядов играет ключевую роль в самых разных отраслях: от предсказания тенденций на фондовом рынке до оптимизации цепочек поставок и управления запасами.

Однако традиционные модели, такие как ARIMA, экспоненциальное сглаживание (ETS), Prophet, а также современные подходы глубокого обучения — например, LSTM и архитектуры на базе трансформеров — сталкиваются с рядом проблем.

Читать далее

Оценка систем LLM: основные метрики, бенчмарки и лучшие практики

Время на прочтение17 мин
Количество просмотров3.2K

Оценка LLM-систем вручную — это утомительное, времязатратное и порой раздражающее занятие. Поэтому, если вам приходилось многократно прогонять набор промптов, чтобы вручную проверять каждый вывод LLM, вас обрадует, что эта статья научит вас всему необходимому для правильной оценки LLM и обеспечения долгосрочной эффективности вас и вашего приложения на основе LLM.

Оценка LLM относится к процессу обеспечения соответствия выходных данных LLM человеческим ожиданиям, которые могут варьироваться от этических и безопасных соображений до более практических критериев, таких как правильность и релевантность выходных данных LLM. С инженерной точки зрения эти выходные данные LLM часто можно найти в форме тестовых кейсов, в то время как критерии оценки формализуются в виде метрик оценки LLM.

На повестке дня:

В чем разница между оценкой LLM и оценкой системы LLM, а также их преимущества

Офлайн-оценки, что такое бенчмарки системы LLM, как создавать наборы данных для оценки и выбирать правильные метрики оценки LLM, а также распространенные ошибки

Оценки в реальном времени и их польза для улучшения наборов данных для офлайн-оценок

Реальные примеры использования систем LLM и как их оценивать, включая chatbotQA и Text-SQL

Читать далее

Вклад авторов