Обновить
85.27

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Метрологический дефицит в бигдате: что это такое и как с ним бороться

Время на прочтение6 мин
Охват и читатели2.4K

Добрый день. Сегодня я хотел бы поговорить о том, что вроде бы очевидно и должно быть везде, но когда я читаю статьи презентации, рекламные статьи, научные статьи, выступления на отраслевых конференциях и тексты «войди в айти и стань датасатанистом», я этого не вижу.

Речь о том, что данные, попадающие в машинное обучение, ИИ, цифровых двойников и т. п., не являются тем чем кажутся. Потому что между их изначальным физическим смыслом и числовым выражением внутри модели, стоит череда преобразований.

Но в этот раз речь пойдёт не о цифровом износе и моих многолетних наблюдениях за цифровыми объектами, а об измерительных приборах и ваших многолетних наблюдениях за производственными процессами.

Читать далее

Семь каверзных вопросов от преподавателей школы аналитиков данных МТС

Время на прочтение6 мин
Охват и читатели6.1K

Привет, Хабр! Меня зовут Максим Шаланкин, я вместе со своими коллегами — преподавателями в Школе аналитиков данных от МТС — подготовил семь каверзных вопросов, с которыми могут столкнуться начинающие специалисты в области Data Science, ML и Big Data. Ну что, поехали!

Читать далее

Под капотом GCN

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели1.1K

Здравствуйте! Сегодня мы погружаемся в тему графовых сверточных сетей (GCN) и ключевых принципов, стоящих за ними. Если вам интересно узнать больше, я настоятельно рекомендую перейти на статью на Habr, где вы найдёте подробный анализ и актуальные примеры применения GCN.

Введение

GCN (Graph Convolutional Networks) — это масштабируемый подход к полуконтролируемому обучению, который применяется к данным, представленным в виде графов. Если вы хотите глубже понять, как сверточные нейронные сети (CNN) адаптируются для работы с графовыми структурами, загляните в статью на Habr.

Выбор архитектуры GCN основан на принципе локализованного приближения первого порядка спектральных сверток для графов. Что это значит? Мы рассматриваем только ближайших соседей узла, а спектральная свертка позволяет извлекать информацию с помощью спектра графа. В подробностях вы сможете разобраться, прочитав статью.

Метод

Рассмотрим задачу классификации узлов в графе, где метки доступны лишь для небольшого числа узлов. Графо-ориентированное полу-контрольное обучение предлагает интересные решения для такой задачи. Чтобы лучше понять использование графовой регуляризации и как она работает в функции потерь, обращайтесь к статье.

Не упустите шанс углубиться в эту увлекательную тему и раскрыть все нюансы GCN!

Читать далее

Кейс оптимизации запросов для Greenplum

Время на прочтение9 мин
Охват и читатели3K

Всем привет! Меня зовут Андрей, я работаю дата аналитиком в Data Team продукта Dialog.X5/Insights в X5 Tech. Мы предоставляем аналитику по продажам и покупательскому поведению на данных X5 Group.  Для обработки больших объёмов данных в продукте используется  СУБД (система управления базами данных) Greenplum.

В статье рассмотрим ресурсоёмкую операцию для распределённых систем COUNT(DISTINCT) и два способа оптимизации. Для предварительного погружения в планы запросов можно прочитать вот эту хорошую статью.

Читать далее

Как переподписка по CPU в облаке снижает производительность Arenadata DB: результаты, которых не ждёшь

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели3.2K

Всем привет! Меня зовут Константин Малолетов, я архитектор облачных сервисов в компании Arenadata. Сегодня хочу рассказать, как мы решаем задачу эффективного размещения ресурсоёмких систем, таких как Arenadata DB, в облаке.

В статье рассмотрим несколько сценариев использования вычислительных ресурсов и их влияние на работу ADB, а также поделимся результатами проведённых тестов.

Читать далее

Краткий обзор LLM бенчмарков

Время на прочтение6 мин
Охват и читатели957

Когда мы говорим о бенчмаркинге LLM в какой-то предметной области, то имеем в виду две разные концепции: бенчмарки моделей LLM и бенчмарки систем LLM. Бенчмаркинг моделей LLM заключается в сравнении базовых моделей общего назначения (например, GPT, Mistral, Llama, Gemini, Claude и так далее). Нам не следует вкладывать ресурсы в их сравнение, потому что: 1. Для них существуют публикуемые таблицы лидеров, 2. В использовании этих моделей существует множество нюансов (например, изменчивость модели, промт, сценарий использования, качество данных, конфигурация системы), что снижает полезность обсуждения их высокоуровневых параметров, 3. Важнее точности модели могут быть другие факторы: локальность данных, соответствие требованиям защиты конфиденциальности, поставщик облачных услуг, степень возможности кастомизации (например, fine-tuning или повторного обучения).

Что мы должны обсуждать, так это бенчмаркинг систем LLM. Это осмысленный и важный процесс, при котором мы рассматриваем применение конкретных моделей LLM (вместе с промтом и конфигурацией системы) в наших конкретных сценариях использования. Нам следует курировать датасеты из конкретных предметных областей, задействовать в их разметке и людей, и LLM для создания «золотого» датасета, позволяющего оценивать вносимые нами постоянные улучшения. Можно даже рассмотреть возможность публикации «золотых» датасетов бенчмарков.
Читать дальше →

Как Лента формирует эффективный ассортимент на основе данных

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели2.3K

Привет, Habr!

Меня зовут Катя, я продакт-менеджер BigData в группе компаний «Лента», отвечаю за развитие цифровых продуктов блоков «Ассортимент» и «Ценообразование». В этой статье расскажу про путь к управлению ассортиментом на основе данных и наш флагман – приложение Deli – рабочее место, в котором менеджер анализирует матрицу своих категорий и вносит в нее изменения на основе рекомендаций алгоритма.

Читать далее

5 лучших инструментов для разметки данных в 2024 году

Время на прочтение6 мин
Охват и читатели5.1K

Разметка данных играет ключевую роль в развитии совершенно разных технологий: от автопилотов и голосовых помощников до агро- и тяжелой промышленности. Но сам процесс разметки может быть трудоёмким и занимать много времени.

Чтобы упростить эту задачу, важно выбрать инструменты, которые подходят для вашей задачи и могут сделать работу быстрее и удобнее. В этом руководстве мы разберем самые популярные решения для разметки данных, поделимся опытом команды Data Light и разберём, какой стоит выбрать именно вам.

Читать далее

Как устроен бенчмарк LLM? Знакомство с оценкой моделей

Время на прочтение6 мин
Охват и читатели1.7K

В условиях, когда полным ходом идет (генеративная) революция искусственного интеллекта, каждый день появляются новые большие языковые модели (LLM). Существуют общие модели и усовершенствованные версии этих общих моделей для конкретных целей. В настоящее время на Huggingface размещено около 750 000 различных моделей. Но как выбрать ту, которая подойдет вашим целям?

Найти модель, которая лучше всего подойдет для поставленной задачи, сложно. Также определить, что такое «хорошая производительность» при выполнении некоторых задач, может быть непросто. Существует ряд доступных бенчмарков, которые помогут вам сравнить эти LLM. В этой статье объясняются основы оценки LLM и подробно рассматриваются общие метрики оценки и бенчмарки LLM.

Читать далее

Кто такой разметчик данных и сколько он зарабатывает? Все, что вам нужно знать о профессии

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели15K

Вы когда-нибудь задумывались, как нейросети учатся распознавать лица, управлять автомобилями или рекомендовать фильмы? За всем этим скрывается работа разметчиков данных — специалистов, которые буквально обучают ИИ видеть и понимать мир.

Сколько зарабатывают разметчики, какие навыки им нужны, и стоит ли вам задуматься о работе в этой индустрии? Раскроем все секреты профессии в нашей статье.

Читать далее

Данные – это новая нефть

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели3.6K

Данные – это реально нефть и даже лучше.

Выгода от данных больше чем от нефти.

Нефть заканчивается, а данные никогда не закончатся – это первое. А второе – данные можно перерабатывать и каждый раз получать выгоду.

Читать далее

Культурный BI: конференция Visiology и Conteq в Санкт-Петербурге

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели317

Привет, друзья! Если вы имеете отношение к BI или подготовке отчетности и территориально находитесь в Санкт-Петербурге, этот пост — для вас! Visiology и Conteq организуют 15 октября уникальную по своему формату вечернюю конференцию в культурной столице. На мероприятии можно будет вживую познакомиться с новейшей версией платформы, а также заявить свой кейс на бесплатный пилотный проект. Подробности о том, кому имеет смысл  спланировать свой вечер 15 октября в Санкт-Петербурге вместе с нами, — под катом.

Хочу на BI-тусовку в Питере 15 октября!

Lamoda Tech Data Science Meetup #2: материалы встречи

Время на прочтение2 мин
Охват и читатели721

В Lаmoda Tech мы внедряем ML, чтобы сделать онлайн-шоппинг для миллионов пользователей комфортным, увлекательным и вдохновляющим. 

На нашем втором Data Science митапе мы обсудили подходы к персонализации в поиске, каталоге и других продуктах, рассказали о применении машинного обучения в ценообразовании, а также поговорили о том, как оптимизировать ML-пайплайны и упростить работу дата сайентистов.

Смотреть записи докладов и презентации

Ближайшие события

Разработка пакетов на языке R (бесплатный видео курс)

Уровень сложностиСредний
Время на прочтение2 мин
Охват и читатели969

Разработка R-пакетов - отличный способ улучшить навыки программирования на R и глубже погрузиться в изучение языка. Этот курс шаг за шагом проведет вас через процесс создания собственных пакетов. Первый урок позволит вам написать свой первый пакет. Более того, вы сможете внести свой вклад в развитие языка, делясь своими наработками в виде R-пакетов.

Читать далее

Как разметить 3D кубоиды на 2D изображениях в CVAT? Методы геоинформационных систем в разметке данных

Время на прочтение7 мин
Охват и читатели659

Команда Data Light регулярно встречается с нестандартными задачами, и в прошлом году мы начали работать над одной из них: наш проект неожиданно перерос из привычной разметки LiDAR облаков (изображений со специальных сканеров) в написание скриптов и созданию нестандартных решений для CVAT.

В этой статье я, Алексей Антюшеня, хочу рассказать, как мы нашли это необычное решение, и поделиться методом, который позволит ML специалистам и коллегам по нише решать сложные задачи по 3D разметке. 

Читать далее

Бутстрап в PySpark

Время на прочтение13 мин
Охват и читатели1.8K

Всем привет! Меня зовут Илья Черников, я аналитик больших данных в X5 Tech, сейчас занимаюсь аналитикой и оценкой активностей CVM маркетинга экспресс-доставки “Пятёрочки”.

В статье я расскажу о том, как мы решали вопрос автоматизации оценки эффективности большого количества маркетинговых кампаний с помощью бутстрапа в PySpark. Я опишу различные подходы к реализации бутстрапа с их плюсами и минусами, а также расскажу об итоговом варианте, который мы выбрали для себя.

Читать далее

Почему так происходит | Telegram Mini App

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели4.3K

Почему же так получилось, что «Тапалки» перестали давать хорошие раздачи и стали требовать донаты?

Сейчас вы увидите схему, которую я нарисовал, чтобы наглядно показать, кто дал старт и что за ним последовало. Без этого контекста будет сложно понять последствия.

Понять всю суть

Контроль качества разметки на проекте: 4 секрета успеха

Время на прочтение6 мин
Охват и читатели969

Существует известное правило: “мусор на входе, мусор на выходе”. Все знают, что “чистые”, точные данные повышают качество и корректность работы ИИ-моделей, так что итоговая ценность оправдывает дополнительные усилия и вложения. Намного дешевле компаниям выходит предотвратить проблемы с данными, чем решать их после.

Но как контролировать качество на проектах разметки максимально эффективно? Выстроить такие процессы непросто, но мы считаем, что у нас это получилось.

Для того, чтобы гарантировать на каждом проекте высокое качество разметки, в Data Light существует отдел Контроля качества. Я, Евгений Шилкин, руководитель ОКК, расскажу, что нам позволяет обеспечивать стабильно высокое качество на проектах и какие советы для эффективной валидации мы можем дать.

Читать далее

Инфраструктура для Data-Engineer ClickHouse

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели3.3K

В этой статье я хочу показать как можно использовать ClickHouse в дата-инженерии и как его "пощупать".

Рекомендуется всем, кто ещё не знаком с ClickHouse.

В статье постарался всё кратко и понятно рассказать про ClickHouse.

Читать далее

Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности

Время на прочтение4 мин
Охват и читатели458

Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео.

В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно.

И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке.

Давайте разбираться.

Читать далее

Вклад авторов