Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

@muxa_ru 17 окт 2024 в 22:07

Метрологический дефицит в бигдате: что это такое и как с ним бороться

6 мин

2.4K

Исследования и прогнозы в IT * Big Data * Машинное обучение * Инженерные системы * Промышленное программирование *

Добрый день. Сегодня я хотел бы поговорить о том, что вроде бы очевидно и должно быть везде, но когда я читаю статьи презентации, рекламные статьи, научные статьи, выступления на отраслевых конференциях и тексты «войди в айти и стань датасатанистом», я этого не вижу.

Речь о том, что данные, попадающие в машинное обучение, ИИ, цифровых двойников и т. п., не являются тем чем кажутся. Потому что между их изначальным физическим смыслом и числовым выражением внутри модели, стоит череда преобразований.

Но в этот раз речь пойдёт не о цифровом износе и моих многолетних наблюдениях за цифровыми объектами, а об измерительных приборах и ваших многолетних наблюдениях за производственными процессами.

+21

@MaximML 17 окт 2024 в 16:27

Семь каверзных вопросов от преподавателей школы аналитиков данных МТС

6 мин

6.1K

Блог компании МТСBig Data * IT-компанииМашинное обучение *

Привет, Хабр! Меня зовут Максим Шаланкин, я вместе со своими коллегами — преподавателями в Школе аналитиков данных от МТС — подготовил семь каверзных вопросов, с которыми могут столкнуться начинающие специалисты в области Data Science, ML и Big Data. Ну что, поехали!

+11

@Lightcart 17 окт 2024 в 12:51

Под капотом GCN

Средний

5 мин

1.1K

Big Data * Data Engineering * Искусственный интеллектМатематика * Машинное обучение *

Перевод

Здравствуйте! Сегодня мы погружаемся в тему графовых сверточных сетей (GCN) и ключевых принципов, стоящих за ними. Если вам интересно узнать больше, я настоятельно рекомендую перейти на статью на Habr, где вы найдёте подробный анализ и актуальные примеры применения GCN.

Введение

GCN (Graph Convolutional Networks) — это масштабируемый подход к полуконтролируемому обучению, который применяется к данным, представленным в виде графов. Если вы хотите глубже понять, как сверточные нейронные сети (CNN) адаптируются для работы с графовыми структурами, загляните в статью на Habr.

Выбор архитектуры GCN основан на принципе локализованного приближения первого порядка спектральных сверток для графов. Что это значит? Мы рассматриваем только ближайших соседей узла, а спектральная свертка позволяет извлекать информацию с помощью спектра графа. В подробностях вы сможете разобраться, прочитав статью.

Метод

Рассмотрим задачу классификации узлов в графе, где метки доступны лишь для небольшого числа узлов. Графо-ориентированное полу-контрольное обучение предлагает интересные решения для такой задачи. Чтобы лучше понять использование графовой регуляризации и как она работает в функции потерь, обращайтесь к статье.

Не упустите шанс углубиться в эту увлекательную тему и раскрыть все нюансы GCN!

@realnumber3012 17 окт 2024 в 10:47

Кейс оптимизации запросов для Greenplum

9 мин

Блог компании X5 TechBig Data * IT-компанииSQL *

Кейс

✏️ Технотекст 7

Всем привет! Меня зовут Андрей, я работаю дата аналитиком в Data Team продукта Dialog.X5/Insights в X5 Tech. Мы предоставляем аналитику по продажам и покупательскому поведению на данных X5 Group. Для обработки больших объёмов данных в продукте используется СУБД (система управления базами данных) Greenplum.

В статье рассмотрим ресурсоёмкую операцию для распределённых систем COUNT(DISTINCT) и два способа оптимизации. Для предварительного погружения в планы запросов можно прочитать вот эту хорошую статью.

@JohnLi139 17 окт 2024 в 10:03

Как переподписка по CPU в облаке снижает производительность Arenadata DB: результаты, которых не ждёшь

Средний

10 мин

3.2K

Блог компании ArenadataData Engineering * Big Data * Облачные вычисления * Хранение данных *

Аналитика

Всем привет! Меня зовут Константин Малолетов, я архитектор облачных сервисов в компании Arenadata. Сегодня хочу рассказать, как мы решаем задачу эффективного размещения ресурсоёмких систем, таких как Arenadata DB, в облаке.

В статье рассмотрим несколько сценариев использования вычислительных ресурсов и их влияние на работу ADB, а также поделимся результатами проведённых тестов.

+19

@kucev 17 окт 2024 в 07:15

Краткий обзор LLM бенчмарков

6 мин

957

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

Когда мы говорим о бенчмаркинге LLM в какой-то предметной области, то имеем в виду две разные концепции: бенчмарки моделей LLM и бенчмарки систем LLM. Бенчмаркинг моделей LLM заключается в сравнении базовых моделей общего назначения (например, GPT, Mistral, Llama, Gemini, Claude и так далее). Нам не следует вкладывать ресурсы в их сравнение, потому что: 1. Для них существуют публикуемые таблицы лидеров, 2. В использовании этих моделей существует множество нюансов (например, изменчивость модели, промт, сценарий использования, качество данных, конфигурация системы), что снижает полезность обсуждения их высокоуровневых параметров, 3. Важнее точности модели могут быть другие факторы: локальность данных, соответствие требованиям защиты конфиденциальности, поставщик облачных услуг, степень возможности кастомизации (например, fine-tuning или повторного обучения).

Что мы должны обсуждать, так это бенчмаркинг систем LLM. Это осмысленный и важный процесс, при котором мы рассматриваем применение конкретных моделей LLM (вместе с промтом и конфигурацией системы) в наших конкретных сценариях использования. Нам следует курировать датасеты из конкретных предметных областей, задействовать в их разметке и людей, и LLM для создания «золотого» датасета, позволяющего оценивать вносимые нами постоянные улучшения. Можно даже рассмотреть возможность публикации «золотых» датасетов бенчмарков.

Читать дальше →

@shirokova_ea 16 окт 2024 в 12:06

Как Лента формирует эффективный ассортимент на основе данных

Средний

6 мин

2.3K

Блог компании Lenta techIT-компанииУправление проектами * Управление продуктом * Big Data *

Кейс

Привет, Habr!

Меня зовут Катя, я продакт-менеджер BigData в группе компаний «Лента», отвечаю за развитие цифровых продуктов блоков «Ассортимент» и «Ценообразование». В этой статье расскажу про путь к управлению ассортиментом на основе данных и наш флагман – приложение Deli – рабочее место, в котором менеджер анализирует матрицу своих категорий и вносит в нее изменения на основе рекомендаций алгоритма.

@evgeniatro 15 окт 2024 в 10:02

5 лучших инструментов для разметки данных в 2024 году

6 мин

5.1K

Блог компании Data LightИскусственный интеллектBig Data *

Разметка данных играет ключевую роль в развитии совершенно разных технологий: от автопилотов и голосовых помощников до агро- и тяжелой промышленности. Но сам процесс разметки может быть трудоёмким и занимать много времени.

Чтобы упростить эту задачу, важно выбрать инструменты, которые подходят для вашей задачи и могут сделать работу быстрее и удобнее. В этом руководстве мы разберем самые популярные решения для разметки данных, поделимся опытом команды Data Light и разберём, какой стоит выбрать именно вам.

@kucev 14 окт 2024 в 07:27

Как устроен бенчмарк LLM? Знакомство с оценкой моделей

6 мин

1.7K

Data Mining * Машинное обучение * Искусственный интеллектData Engineering * Big Data *

Перевод

В условиях, когда полным ходом идет (генеративная) революция искусственного интеллекта, каждый день появляются новые большие языковые модели (LLM). Существуют общие модели и усовершенствованные версии этих общих моделей для конкретных целей. В настоящее время на Huggingface размещено около 750 000 различных моделей. Но как выбрать ту, которая подойдет вашим целям?

Найти модель, которая лучше всего подойдет для поставленной задачи, сложно. Также определить, что такое «хорошая производительность» при выполнении некоторых задач, может быть непросто. Существует ряд доступных бенчмарков, которые помогут вам сравнить эти LLM. В этой статье объясняются основы оценки LLM и подробно рассматриваются общие метрики оценки и бенчмарки LLM.

@evgeniatro 11 окт 2024 в 13:54

Кто такой разметчик данных и сколько он зарабатывает? Все, что вам нужно знать о профессии

Простой

6 мин

15K

Блог компании Data LightИскусственный интеллектBig Data *

Вы когда-нибудь задумывались, как нейросети учатся распознавать лица, управлять автомобилями или рекомендовать фильмы? За всем этим скрывается работа разметчиков данных — специалистов, которые буквально обучают ИИ видеть и понимать мир.

Сколько зарабатывают разметчики, какие навыки им нужны, и стоит ли вам задуматься о работе в этой индустрии? Раскроем все секреты профессии в нашей статье.

@k0rsakov 11 окт 2024 в 06:00

Данные – это новая нефть

Простой

5 мин

3.6K

Карьера в IT-индустрииТерминология ITBig Data * Data Mining * Data Engineering *

Обзор

Данные – это реально нефть и даже лучше.

Выгода от данных больше чем от нефти.

Нефть заканчивается, а данные никогда не закончатся – это первое. А второе – данные можно перерабатывать и каждый раз получать выгоду.

-5

@ViAndrey 11 окт 2024 в 05:57

Культурный BI: конференция Visiology и Conteq в Санкт-Петербурге

Простой

2 мин

317

Блог компании VisiologyBig Data * КонференцииВизуализация данных *

Привет, друзья! Если вы имеете отношение к BI или подготовке отчетности и территориально находитесь в Санкт-Петербурге, этот пост — для вас! Visiology и Conteq организуют 15 октября уникальную по своему формату вечернюю конференцию в культурной столице. На мероприятии можно будет вживую познакомиться с новейшей версией платформы, а также заявить свой кейс на бесплатный пилотный проект. Подробности о том, кому имеет смысл спланировать свой вечер 15 октября в Санкт-Петербурге вместе с нами, — под катом.

Хочу на BI-тусовку в Питере 15 октября!

@saigina_m 10 окт 2024 в 08:41

Lamoda Tech Data Science Meetup #2: материалы встречи

2 мин

721

Блог компании Lamoda TechBig Data * Конференции

Репортаж

В Lаmoda Tech мы внедряем ML, чтобы сделать онлайн-шоппинг для миллионов пользователей комфортным, увлекательным и вдохновляющим.

На нашем втором Data Science митапе мы обсудили подходы к персонализации в поиске, каталоге и других продуктах, рассказали о применении машинного обучения в ценообразовании, а также поговорили о том, как оптимизировать ML-пайплайны и упростить работу дата сайентистов.

Смотреть записи докладов и презентации

@selesnow 9 окт 2024 в 14:08

Разработка пакетов на языке R (бесплатный видео курс)

Средний

2 мин

969

R * Data Engineering * Data Mining * Big Data *

Туториал

Разработка R-пакетов - отличный способ улучшить навыки программирования на R и глубже погрузиться в изучение языка. Этот курс шаг за шагом проведет вас через процесс создания собственных пакетов. Первый урок позволит вам написать свой первый пакет. Более того, вы сможете внести свой вклад в развитие языка, делясь своими наработками в виде R-пакетов.

@evgeniatro 9 окт 2024 в 11:50

Как разметить 3D кубоиды на 2D изображениях в CVAT? Методы геоинформационных систем в разметке данных

7 мин

659

Блог компании Data LightBig Data * Искусственный интеллект

Кейс

Команда Data Light регулярно встречается с нестандартными задачами, и в прошлом году мы начали работать над одной из них: наш проект неожиданно перерос из привычной разметки LiDAR облаков (изображений со специальных сканеров) в написание скриптов и созданию нестандартных решений для CVAT.

В этой статье я, Алексей Антюшеня, хочу рассказать, как мы нашли это необычное решение, и поделиться методом, который позволит ML специалистам и коллегам по нише решать сложные задачи по 3D разметке.

@ilia_chernikov 9 окт 2024 в 09:49

Бутстрап в PySpark

13 мин

1.8K

Блог компании X5 TechPython * Статистика в ITBig Data * Data Engineering *

Всем привет! Меня зовут Илья Черников, я аналитик больших данных в X5 Tech, сейчас занимаюсь аналитикой и оценкой активностей CVM маркетинга экспресс-доставки “Пятёрочки”.

В статье я расскажу о том, как мы решали вопрос автоматизации оценки эффективности большого количества маркетинговых кампаний с помощью бутстрапа в PySpark. Я опишу различные подходы к реализации бутстрапа с их плюсами и минусами, а также расскажу об итоговом варианте, который мы выбрали для себя.

@AI_dev90 8 окт 2024 в 10:15

Почему так происходит | Telegram Mini App

Простой

5 мин

4.3K

Сетевые технологии * .NET * Big Data * Python *

Из песочницы

Почему же так получилось, что «Тапалки» перестали давать хорошие раздачи и стали требовать донаты?

Сейчас вы увидите схему, которую я нарисовал, чтобы наглядно показать, кто дал старт и что за ним последовало. Без этого контекста будет сложно понять последствия.

Понять всю суть

@evgeniatro 4 окт 2024 в 11:16

Контроль качества разметки на проекте: 4 секрета успеха

6 мин

969

Блог компании Data LightИскусственный интеллектBig Data * Управление проектами *

Интервью

Существует известное правило: “мусор на входе, мусор на выходе”. Все знают, что “чистые”, точные данные повышают качество и корректность работы ИИ-моделей, так что итоговая ценность оправдывает дополнительные усилия и вложения. Намного дешевле компаниям выходит предотвратить проблемы с данными, чем решать их после.

Но как контролировать качество на проектах разметки максимально эффективно? Выстроить такие процессы непросто, но мы считаем, что у нас это получилось.

Для того, чтобы гарантировать на каждом проекте высокое качество разметки, в Data Light существует отдел Контроля качества. Я, Евгений Шилкин, руководитель ОКК, расскажу, что нам позволяет обеспечивать стабильно высокое качество на проектах и какие советы для эффективной валидации мы можем дать.

@k0rsakov 4 окт 2024 в 06:00

Инфраструктура для Data-Engineer ClickHouse

Простой

9 мин

3.3K

Хранение данных * Data Engineering * Big Data * Базы данных * Data Mining *

Туториал

В этой статье я хочу показать как можно использовать ClickHouse в дата-инженерии и как его "пощупать".

Рекомендуется всем, кто ещё не знаком с ClickHouse.

В статье постарался всё кратко и понятно рассказать про ClickHouse.

@antipov_dmitry 3 окт 2024 в 09:03

Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности

4 мин

458

Data Engineering * Data Mining * Big Data * Искусственный интеллект

Мнение

Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео.

В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно.

И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке.

Давайте разбираться.

1 2 ...

33 34

36 37 ...

204 205

Big Data *

Метрологический дефицит в бигдате: что это такое и как с ним бороться

Семь каверзных вопросов от преподавателей школы аналитиков данных МТС

Под капотом GCN

Кейс оптимизации запросов для Greenplum

Как переподписка по CPU в облаке снижает производительность Arenadata DB: результаты, которых не ждёшь

Краткий обзор LLM бенчмарков

Как Лента формирует эффективный ассортимент на основе данных

5 лучших инструментов для разметки данных в 2024 году

Как устроен бенчмарк LLM? Знакомство с оценкой моделей

Кто такой разметчик данных и сколько он зарабатывает? Все, что вам нужно знать о профессии

Данные – это новая нефть

Культурный BI: конференция Visiology и Conteq в Санкт-Петербурге

Lamoda Tech Data Science Meetup #2: материалы встречи

Ближайшие события

Разработка пакетов на языке R (бесплатный видео курс)

Как разметить 3D кубоиды на 2D изображениях в CVAT? Методы геоинформационных систем в разметке данных

Бутстрап в PySpark

Почему так происходит | Telegram Mini App

Контроль качества разметки на проекте: 4 секрета успеха

Инфраструктура для Data-Engineer ClickHouse

Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности

Вклад авторов