Все потоки
Поиск
Написать публикацию
Обновить
19.4

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Почему оценить стоимость датасета не так просто, как кажется на первый взгляд

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров1.8K

Представьте, что вы получили заказ на разметку датасета из 1,000 изображений. Вы берете 20 картинок из сета, проводите тесты и получаете примерную стоимость 1 изображения. В итоге вы оцениваете проект, основываясь на количестве изображений, и устанавливаете цену за каждое. Однако, когда данные приходят, оказывается, что на каждом изображении не один объект к разметке, как было на тестах, а десятки! В итоге вы тратите гораздо больше времени и средств, чем планировали в начале.

Как избежать таких распространенных ошибок и защитить свой бизнес от неожиданных затрат и задержек? Давайте обсудим, какие ошибки чаще всего возникают при оценке проектов по сбору и разметке данных для машинного обучения, и на что важно обращать внимание, чтобы гарантировать корректную оценку ваших проектов. Узнайте больше в статье Романа Фёдорова, эксперта в области подготовки датасетов для машинного обучения.

Читать далее

Семантическая сегментация: самый полный гайд 2024

Время на прочтение10 мин
Количество просмотров4.6K

Что общего между автономными автомобилями, медицинскими диагностическими системами и спутниковыми снимками Земли?

Ответ прост: все они зависят от способности машин «видеть» и понимать окружающий мир. Чтобы компьютер мог распознать объекты на изображении и отличить небо от дороги, человека от автомобиля или лес от здания, необходимо использовать технологии сегментации изображений. Но как именно машины учатся такому зрению и как использовать эту технологию для бизнеса? Давайте поговорим о семантической сегментации.

Читать далее

Как управлять большими командами? 3 совета для менеджера

Время на прочтение3 мин
Количество просмотров3.5K

Когда я начинал свою карьеру в разметке данных, я и представить не мог, что через несколько лет продолжу работать в индустрии и буду управлять целым направлением.

Я прошел путь от разметчика до позиции Head of Moderation & Head of Special Projects в Data Light. Теперь под моим руководством работает 465 человек, параллельно за раз моя команда ведет до 64 проектов.

Сейчас я понимаю, что для успеха в этой сфере критически важны три вещи: постоянное обучение, систематизация и навыки коммуникации. В этой статье я хочу поделиться главными советами для начинающих менеджеров.

Читать далее

Как оценить LLM модель

Время на прочтение13 мин
Количество просмотров2.7K

В одном из прошлых блогов я представил концепцию тестирования LLM. Однако тестирование больших языковых моделей - достаточно сложная тема, которая требует дальнейшего изучения. Существует несколько соображений относительно тестирования моделей машинного обучения и, в частности, LLM, которые необходимо учитывать при разработке и развертывании вашего приложения. В этом блоге я предложу общую структуру, которая будет служить минимальной рекомендацией для тестирования приложений, использующих LLM, включая разговорные агенты, расширенную генерацию поиска и агентов и т. д.

Читать далее

Как мы отбираем и обучаем разметчиков: от первых шагов до реальных проектов

Время на прочтение4 мин
Количество просмотров1.3K

В чем секрет качественных данных и точной разметки? Мы в Data Light знаем: за каждым успешным проектом стоят не только технологии, но и люди — специалисты, отобранные после нескольких этапов тестирований и обученные на настоящих проектах.

Мы знаем: чем лучше подготовлен исполнитель, тем выше итоговое качество работы. Я, Артем Каукалов, руководитель отдела обучения, поделюсь опытом нашей компании — как найти людей, которые помогут вам достичь максимальных результатов, и как правильно выстроить их процесс учебы.

Читать далее

Кто и как управляет разработкой ML-моделей + опыт ПГК

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.7K

Привет, Хабр! Меня зовут Павел Куницын, и я главный специалист по анализу данных и МО в ПГК Диджитал. Согласно различным исследованиям, от 46 до 90% моделей машинного обучения не выходит в прод. Всему виной отсутствие должного контроля за их созданием, а также проблемы менеджмента команд разработки и data science.

Решить эту проблему способен MLOps. С учетом того, что на Хабре есть базовые материалы по теме, расскажу о том, как бизнес и сообщество подходят к стандартизации разработки моделей. Также расскажу про свод рекомендаций для повышения качества ML-систем, который сформулировали мы в ПГК.

Читать далее

Оценка LLM: метрики, фреймворки и лучшие практики

Время на прочтение12 мин
Количество просмотров4K

Дженсен Хуанг в своем выступлении на саммите «Data+AI» сказал: «Генеративный ИИ есть везде, в любой отрасли. Если в вашей отрасли еще нет генеративных ИИ, значит вы просто не обращали внимания на это».

Однако широкое распространение вовсе не означает, что эти модели безупречны. В реальных бизнес-кейсах модели очень часто не достигают цели и нуждаются в доработке. Вот тут-то и приходят на помощь оценки LLM: они помогают убедиться, что модели надежны, точны и соответствуют бизнес-предпочтениям.

В этой статье мы подробно разберем, почему оценка LLM имеет решающее значение, и рассмотрим метрики, фреймворки, инструменты и сложности оценки LLM. Мы также поделимся некоторыми надежными стратегиями, которые мы разработали в ходе работы с нашими клиентами, а также расскажем о лучших практиках.

Читать далее

Разметка изображений: самый полный гайд

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров4.7K

Представьте себе, что от точности разметки изображений зависит успех вашего проекта: будь то способность нейросети распознавать сложные объекты или автоматизация рутинных задач. Но в чем ее специфика, какие виды разметки изображений существуют и какой тип аннотации лучше подходит под ваш проект?

В этой статье мы раскрываем все тонкости процесса, делимся проверенными методами и реальными кейсами от команды Data Light, чтобы помочь вам вывести проекты на новый уровень. Если вы хотите разобраться в разметке изображений и узнать, как избежать подводных камней, эта статья точно будет вам полезна.

Читать далее

Оценка кардинальности полей таблицы

Время на прочтение7 мин
Количество просмотров2.9K

Привет, Хабр! В SQL запросах важно ориентироваться в количестве записей в таблицах и в плане выполнения запроса. Это позволяет, например, уменьшить количество записей при выполнении запроса при помощи группировки GROUP BY. В случае работы над каждым SQL запросом вручную, это можно проверить в среде разработки. Но в случае генерации SQL запросов автоматически появляется задача проверки количества уникальных записей для одного или нескольких полей таблицы, иными словами, кардинальности. В частном случае, при наличии сильных линейных связей между полями таблицы или даже "полей-дубликатов", количество уникальных записей в двух полях практически равно количеству уникальных записей в одном поле, т.е. кардинальность двух линейно зависимых полей таблицы практически равна кардинальности одного поля. В связи с этим актуально применение коэффициентов парной и множественной корреляции при расчете кардинальности нескольких полей. Интересны статистические методы при расчете кардинальности? Добро пожаловать :)

Читать далее

Анализ тональности текста: зачем он нужен и как его использовать? Объясняем за 7 минут

Время на прочтение5 мин
Количество просмотров2.7K

Как компании выявляют эмоции в тысячах отзывов и комментариев? Почему одни маркетинговые кампании становятся невероятным успехом, а другие — провалом?

Анализ тональности текста — мощный инструмент, который помогает бизнесу не только считывать эмоции клиентов, но и на практике улучшать продукт, автоматизировать поддержку и управлять репутацией. Сегодня мы подробно разберем, как анализ тональности работает в реальных кейсах, и покажем, как вы можете внедрить его для достижения своих бизнес-целей.

Читать далее

Инфраструктура для Data-Engineer Apache Iceberg

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров7.6K

В этой статье вы узнаете что такое Apache Iceberg, как его можно использовать и для чего он вообще нужен.

В статье также рассматривается вопрос Data Lake.

Читать далее

Краткий обзор LLM бенчмарков

Время на прочтение6 мин
Количество просмотров1.4K

Когда мы говорим о бенчмаркинге LLM в какой-то предметной области, то имеем в виду две разные концепции: бенчмарки моделей LLM и бенчмарки систем LLM. Бенчмаркинг моделей LLM заключается в сравнении базовых моделей общего назначения (например, GPT, Mistral, Llama, Gemini, Claude и так далее). Нам не следует вкладывать ресурсы в их сравнение, потому что: 1. Для них существуют публикуемые таблицы лидеров, 2. В использовании этих моделей существует множество нюансов (например, изменчивость модели, промт, сценарий использования, качество данных, конфигурация системы), что снижает полезность обсуждения их высокоуровневых параметров, 3. Важнее точности модели могут быть другие факторы: локальность данных, соответствие требованиям защиты конфиденциальности, поставщик облачных услуг, степень возможности кастомизации (например, fine-tuning или повторного обучения).

Что мы должны обсуждать, так это бенчмаркинг систем LLM. Это осмысленный и важный процесс, при котором мы рассматриваем применение конкретных моделей LLM (вместе с промтом и конфигурацией системы) в наших конкретных сценариях использования. Нам следует курировать датасеты из конкретных предметных областей, задействовать в их разметке и людей, и LLM для создания «золотого» датасета, позволяющего оценивать вносимые нами постоянные улучшения. Можно даже рассмотреть возможность публикации «золотых» датасетов бенчмарков.
Читать дальше →

Bukva: алфавит русского жестового языка

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров6.6K

Всем привет!

Недавно мы анонсировали словарь русского жестового языка (РЖЯ), а в этой статье поговорим про задачу распознавания алфавита РЖЯ, именуемого также дактильным алфавитом или дактилем. Предлагаем ознакомиться с нашей работой, в которой мы представим новый датасет Bukva — первый полноценный видеонабор данных для распознавания дактильной азбуки. Он содержит 3757 видеороликов с более чем 101 видео для каждой буквы дактиля, включая не только статические, но и динамические жесты. В статье расскажем, как мы собрали датасет для решения задачи и какие модели обучили в качестве бейзлайнов. Все данные и код открыты и доступны в репозитории команды.

Читать далее

Ближайшие события

Сравнение роста заработных плат ректората МГТУ им. Н.Э. Баумана и остальных сотрудников

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров77K

Я сам работал преподавателем бауманки до 2019 г., потом по совету Медведева ушел в бизнес. Знаю, что среди пользователей Хабра много студентов и преподавателей МГТУ им. Баумана, возможно пост окажется интересным и для контингента других вузов. Пост про анализ данных, но при его создании использовались лишь базовые навыки Data Science. Подобный анализ по своему вузу любой пользователь Excel может провести самостоятельно, в конце статьи есть инструкция.

Читать далее

Как устроен бенчмарк LLM? Знакомство с оценкой моделей

Время на прочтение6 мин
Количество просмотров2.5K

В условиях, когда полным ходом идет (генеративная) революция искусственного интеллекта, каждый день появляются новые большие языковые модели (LLM). Существуют общие модели и усовершенствованные версии этих общих моделей для конкретных целей. В настоящее время на Huggingface размещено около 750 000 различных моделей. Но как выбрать ту, которая подойдет вашим целям?

Найти модель, которая лучше всего подойдет для поставленной задачи, сложно. Также определить, что такое «хорошая производительность» при выполнении некоторых задач, может быть непросто. Существует ряд доступных бенчмарков, которые помогут вам сравнить эти LLM. В этой статье объясняются основы оценки LLM и подробно рассматриваются общие метрики оценки и бенчмарки LLM.

Читать далее

Данные – это новая нефть

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров4.9K

Данные – это реально нефть и даже лучше.

Выгода от данных больше чем от нефти.

Нефть заканчивается, а данные никогда не закончатся – это первое. А второе – данные можно перерабатывать и каждый раз получать выгоду.

Читать далее

Разработка пакетов на языке R (бесплатный видео курс)

Уровень сложностиСредний
Время на прочтение2 мин
Количество просмотров1.5K

Разработка R-пакетов - отличный способ улучшить навыки программирования на R и глубже погрузиться в изучение языка. Этот курс шаг за шагом проведет вас через процесс создания собственных пакетов. Первый урок позволит вам написать свой первый пакет. Более того, вы сможете внести свой вклад в развитие языка, делясь своими наработками в виде R-пакетов.

Читать далее

Kaggle для футболистов: Классификация событий на футбольном поле

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2.7K

Всем привет! В конце 2022 года закончилось соревнование DFL - Bundesliga Data Shootout. Так как мне интересен футбол и в целом спортивная аналитика, то я решил поучаствовать в этом соревновании. Целью данной статьи является описание моего подхода, и я уверен, что многие методы, примененные к этой задаче, могут быть адаптированы для решения других задач в области компьютерного зрения. За подробностями под кат!

Читать далее

Инфраструктура для Data-Engineer ClickHouse

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров5.1K

В этой статье я хочу показать как можно использовать ClickHouse в дата-инженерии и как его "пощупать".

Рекомендуется всем, кто ещё не знаком с ClickHouse.

В статье постарался всё кратко и понятно рассказать про ClickHouse.

Читать далее

Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности

Время на прочтение4 мин
Количество просмотров732

Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео.

В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно.

И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке.

Давайте разбираться.

Читать далее