Как стать автором

Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

MaxRokatansky 17 июн в 12:39

5 техник, применяемых в анализе временных рядов, которые должен знать каждый. Часть 1

Простой

9 мин

6.3K

Блог компании OTUSPython * Big Data * Машинное обучение * Визуализация данных *

Перевод

В этом руководстве мы будем разбираться, как повысить качество прогнозирования с помощью машинного обучения, используя точные методы разделения данных, перекрестную проверку временных рядов, конструирование признаков и многое другое.

Читать далее

+4

MaxRokatansky 16 июн в 12:55

5 техник, применяемых в анализе временных рядов, которые должен знать каждый. Часть 2

Простой

15 мин

6.3K

Блог компании OTUSМашинное обучение * Python * Big Data *

Перевод

В отличие от традиционных наборов данных, где объекты часто остаются статичными, данные временных рядов обладают уникальными временными паттернами, которые необходимо использовать для извлечения значимых признаков.

В этом разделе мы рассмотрим некоторые из наиболее эффективных методов.

Читать далее

+4

Luxms 27 мая в 09:35

Как в Почтатех внедряли отчетность на Luxms BI: интервью тимлида

Простой

5 мин

441

Блог компании Luxms BIВизуализация данных * Анализ и проектирование систем * Big Data * IT-инфраструктура *

Интервью

Когда в 2022 году в ИТ-системах Почты России стартовал масштабный проект по импортозамещению, команде BI-направления в дочерней компании «Почтатех» предстояло внедрить отечественную альтернативу привычным зарубежным аналитическим решениям – Luxms BI. О том, как проходил процесс внедрения, с какими трудностями столкнулись и какие возможности открылись перед командой — мы поговорили с Евгением Дрензелевым, техлидом BI-направления в Почтатех.

Далее он расскажет о задачах, которые предстояло решить в процессе импортозамещения, а также о тех выгодах и положительных изменениях, которые были получены в результате.

Читать далее

+4

badcasedaily1 15 мая в 08:55

Управление отставанием lag в Kafka Consumers: как не просто замерить, а стабилизировать

Простой

6 мин

2.8K

Блог компании OTUSApache * Big Data * DevOps * Data Engineering *

Обзор

Привет, Хабр!

Сегодня рассмотрим, почему отставание у Kafka-консьюмеров — это не просто строчка в kafka-consumer-groups, а метрика, от которой зависит SLA вашего сервиса. Рассмотрим, как её считать без самообмана, как соорудить собственный мониторинг на Python и Go, а главное — чем именно тушить всплески lag’а: throttle, autoscale и backpressure.

Читать далее

+4

EVRAZ 15 апр в 07:00

Эксгаустеры и где они обитают: о новой разработке рассказывает эксперт ЕВРАЗа

Простой

7 мин

1.4K

Блог компании ЕВРАЗПромышленное программирование * Big Data *

Кейс

Исключить аварийные остановки на производстве и прогнозировать время, когда агрегаты нуждаются в ремонте, — такие цели успешно реализовала команда ЕВРАЗа. Для этого на агломерационной фабрике внедрили автоматизированную систему, причем не отличающуюся особой сложностью. Как она работает, расскажу я, Python Backend разработчик компании Ольга Седова.

Читать далее

+4

evgeniatro 31 мар в 12:22

Руководство по созданию датасета для машинного обучения

5 мин

4K

Блог компании Data LightData Mining * Big Data *

Создание хорошего датасета — это процесс, который требует внимательного планирования и глубокого понимания задачи.

В этом руководстве мы разберем каждый этап подготовки данных (от постановки цели до сбора, очистки и организации информации), рассмотрим частые ошибки и дадим рекомендации, которые помогут сделать ваш датасет максимально полезным.

Читать далее

+4

LIIS-Formica 31 мар в 11:42

Как нам удалось упростить жизнь инженера-сметчика и сократить время на разработку сметы в 20 раз

Простой

4 мин

3.7K

Python * IT-компанииВысоконагруженные системы * Инженерные системы * Big Data *

Кейс

Если вы инженер-сметчик, то наверняка знаете, что такое ежедневная работа с огромными таблицами и бесконечными спецификациями. Кто-то, возможно, уже смирился с монотонностью, а кто-то разработал свои лайфхаки для ускорения обработки данных. Но сегодня расскажем о новом подходе, который помог нам упростить процесс составления сметы на монтаж системы вентиляции.

С чего все начиналось: с типичного дня сметчика

Однажды мне поставили задачу — подготовить сметы для нового объекта, включая раздел вентиляции. Как многие сметчики знают, вентиляция — это один из самых трудоемких разделов.

Читать далее

+4

koanse 30 мар в 16:56

Кардинальность при оптимизации DAX запросов в ClickHouse

7 мин

1.8K

Блог компании VisiologySQL * Big Data * Визуализация данных *

Кейс

Привет, Хабр! Мы уже неоднократно поднимали вопросы оптимизации запросов к СУБД ClickHouse, которую все чаще используют как универсальное высокопроизводительное хранилище для аналитических задач. В случае с Visiology этот вопрос приобретает двойную ценность, так как мы используем оптимизацию для эффективного выполнения запросов в языке DAX.

Сегодня мы поговорим о применении группировок GROUP BY с учетом их производительности для относительно больших таблиц, например, с миллионами записей. Таким образом, речь пойдет об оценке кардинальности одного или нескольких столбцов. Эта задача, кстати, является достаточно нетривиальной. Но если Вы можете ее решить, появляется возможность для эффективных оптимизаций SQL. О них мы и поговорим сегодня.

Читать далее

+4

evgeniatro 28 фев в 13:50

От африканских саванн до индийских мегаполисов: как мы собрали уникальный датасет для клиента

3 мин

585

Блог компании Data LightBig Data *

Кейс

Казалось бы, стандартная задача: через крауд-платформу собрать фотографии и видео, где люди произносят цифры – легкий проект, который можно закрыть за пару недель.

Но все это вылилось в десятки часов на чистку «мусорных» данных, видео, снятые в полной темноте, случайные TikTok-ролики вместо заданий и ситуации, где инструкции, кажется, читают единицы.

Как мы превратили хаос в структурированный датасет? Какие решения помогли преодолеть барьеры (как культурные, так и технические)? Расскажем в этой статье.

Читать далее

+4

koanse 26 фев в 08:57

Возможности комбинаторов в ClickHouse

9 мин

2.8K

Блог компании VisiologySQL * Big Data * Визуализация данных *

Кейс

Что делать с запросами к СУБД, выполнение которых затягивается на десятки минут, как можно оптимизировать вложенные операторы, чтобы получить нужные данные за секунды? За счет чего подобные операции выполняются в Visiology автоматически? Ответы на эти вопросы мы попробуем дать сегодня на примере небольшого синтетического теста со сложным SQL-запросом, и разберемся при чем тут комбинаторы в ClickHouse. Эта статья будет полезна тем, кто интересуется SQL-оптимизаторами, а также всем существующим и будущим пользователям Visiology, кто хочет заглянуть под капот системы. Если вы из их числа, добро пожаловать под кат :)

Читать далее

+4

evgeniatro 21 фев в 12:56

Как выстроить разметку для паноптической сегментации правильно?

9 мин

1.3K

Блог компании Data LightData Mining * Big Data *

Представьте себе задачу, в которой необходимо не просто понять, что изображено на картинке, но и точно определить границы каждого объекта, даже если они частично перекрывают друг друга. Семантическая сегментация отлично справляется с категоризацией пикселей, инстанс-сегментация позволяет различать отдельные объекты одного класса, но что, если нам нужно сразу и то, и другое?

Паноптическая сегментация объединяет оба этих подхода. При нем каждый пиксель получает как классовую принадлежность, так и уникальный ID объекта. Однако ее разметка — одна из самых сложных задач в области компьютерного зрения: аннотаторам приходится учитывать перекрытия, сложные границы объектов и баланс между двумя типами масок.

Как добиться высокой точности в разметке паноптической сегментации? Какие ошибки наиболее критичны при аннотировании? И почему этот метод так важен для беспилотных технологий, медицинской визуализации и AR-приложений? Разбираем подробнее в статье!

Читать далее

+4

FaryaRos 18 фев в 16:10

Dagster: новый стандарт для ETL в 2025?

Простой

14 мин

6.3K

Data Engineering * Big Data * Хранение данных * Python *

Мнение

Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:

Читать далее

+4

alena_alkova 30 янв в 16:06

Векторизация текста в NLP: от слов к числам

Простой

8 мин

3K

Блог компании SkillfactoryBig Data *

Обзор

Перед началом работы с NLP-моделями текст нужно преобразовать в понятный модели вид. Этот процесс называется векторизацией, и без него невозможно представить современный NLP. По сути, мы превращаем слова, предложения или целые документы в векторы — наборы чисел, которые отражают определенные характеристики текста.

Рассказываем о векторизации подробнее вместе с экспертом.

Читать далее

+4

EV12 23 янв в 10:48

AI-тренер и AI-редактор. Полный гайд по профессии

Простой

6 мин

3.2K

Блог компании Data LightBig Data *

Recovery Mode

Представьте, что искусственный интеллект — это ребенок, который только начинает учиться говорить и понимать окружающий мир, а AI-тренеры, редакторы и асессоры — это учителя и наставники. Они помогают ему разобраться, как правильно отвечать на вопросы, избегать ошибок и становиться полезным помощником для людей.

Но в чем разница между этими специальностями, какие карьерные перспективы для них существуют и какими качествами надо обладать, чтобы эффективно выполнять такую работу? Давайте разбираться.

Читать далее

+4

ak19 15 янв в 15:30

ПИКантная миграция: путь от Tableau к FineBI

Простой

13 мин

3.4K

Блог компании GlowByteBig Data * Data Engineering * DevOps * Системное администрирование *

Ретроспектива

Хабр, привет! Сегодня вашему вниманию представляю статью об особенностях перехода компании ПИК на новую систему бизнес-аналитики. Приятного прочтения!

Читать далее

+4

koanse 13 янв в 05:46

Выполнение DAX запроса AI DAX движка в СУБД на примере PostgreSQL

3 мин

1.4K

Big Data * Визуализация данных * Искусственный интеллектSQL *

Кейс

Привет, Хабр! DAX является мощным аналитическим языком запросов и активно используется во множестве проектов. Кроме того, на текущем уровне развития AI он способен условно в режиме реального времени преобразовать DAX запросы в запросы одной из СУБД, например, PostgreSQL, но, конечно, с рядом ограничений на сложность DAX запроса, схему данных и т.д. В связи с этим может быть актуальным вопрос, реально ли использовать «AI DAX движок» в сочетании с выполнением SQL запросов, сгенерированных этим движком, в одной из СУБД, т.е. выполнить DAX без Power BI на PostgreSQL источнике? Интересующимся возможностями DAX AI на примере PostgreSQL — добро пожаловать под кат :)

Читать далее

+4

TechDed 7 янв в 22:30

NVIDIA Cosmos: система генерации физически достоверных симуляций для ИИ

6 мин

4.9K

Big Data * Искусственный интеллектМашинное обучение * Научно-популярноеРобототехника

Обзор

Статья основана на анализе публично доступной информации о платформе NVIDIA Cosmos, включая официальные анонсы и технические блоги.

На выставке CES 2025 компания NVIDIA представила революционную платформу Cosmos, которая обещает кардинально изменить подход к разработке систем искусственного интеллекта, взаимодействующих с физическим миром. Платформа уже привлекла внимание ключевых игроков рынка, таких как Uber, Waabi и XPENG, что говорит о её серьёзном потенциале. В этой статье попытался разобраться, почему Cosmos вызывает такой интерес и какие возможности она открывает для разработчиков.

Читать далее

+4

antipov_dmitry 27 дек 2024 в 06:14

Как оценивать ваш RAG-пайплайн и валидировать качество ответов LLM

Средний

8 мин

4.2K

Data Engineering * Data Mining * Big Data * Искусственный интеллектМашинное обучение *

Мнение

RAG-системы становятся все популярнее в корпоративной среде, но их эффективное внедрение и качественная оценка остается сложной задачей. Один из типичных примеров использования RAG — создание чат-ботов, отвечающих на вопросы пользователей с опорой на корпоративную базу знаний. И которые, вроде бы, заводятся и работают, и делают это даже неплохо, но всегда хочется получше.

В этой статье под мандариновое настроение будет обзор основных аспектов создания RAG-пайплайнов, рассмотрим подходы к их дальнейшему улучшению и тюнингу, обсудим метрики оценки, а также софт, который может помочь вам в этих процессах.

Читать далее

+4

iamrozanov 17 дек 2024 в 10:00

Плюсы и минусы Luxms BI: честный взгляд на платформу от вендора

9 мин

2.6K

Блог компании Luxms BIВизуализация данных * Big Data * Анализ и проектирование систем * Бизнес-модели *

Мнение

Я - Алексей Розанов, руководитель отдела пресейл и работы с партнерами Luxms, хочу с вами честно поговорить о том, что собой представляет Luxms BI. Поскольку полагаться только на рейтинги нельзя, а опыт других компаний сильно зависит от их задач, требований и условий, то хочу предложить вам еще один взгляд - взгляд вендора.

Это будет объективный, насколько это вообще возможно, обзор плюсов и минусов платформы Luxms BI, основанный на общении с нашими партнерами, действующими и потенциальными заказчиками. Я не буду голословным и предоставлю максимальное количество подтверждений тому, о чем буду говорить.

Читать далее

+4

kucev 16 дек 2024 в 13:46

Лучшие большие языковые модели в ноябре 2024 г

8 мин

7.9K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

В ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим.

Читать далее

+4

1 2 ...

17

18 19 ...