Обновить
33.63

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Как управлять большими командами? 3 совета для менеджера

Время на прочтение3 мин
Охват и читатели2.6K

Когда я начинал свою карьеру в разметке данных, я и представить не мог, что через несколько лет продолжу работать в индустрии и буду управлять целым направлением.

Я прошел путь от разметчика до позиции Head of Moderation & Head of Special Projects в Data Light. Теперь под моим руководством работает 465 человек, параллельно за раз моя команда ведет до 64 проектов.

Сейчас я понимаю, что для успеха в этой сфере критически важны три вещи: постоянное обучение, систематизация и навыки коммуникации. В этой статье я хочу поделиться главными советами для начинающих менеджеров.

Читать далее

Как оценить LLM модель

Время на прочтение13 мин
Охват и читатели2K

В одном из прошлых блогов я представил концепцию тестирования LLM. Однако тестирование больших языковых моделей - достаточно сложная тема, которая требует дальнейшего изучения. Существует несколько соображений относительно тестирования моделей машинного обучения и, в частности, LLM, которые необходимо учитывать при разработке и развертывании вашего приложения. В этом блоге я предложу общую структуру, которая будет служить минимальной рекомендацией для тестирования приложений, использующих LLM, включая разговорные агенты, расширенную генерацию поиска и агентов и т. д.

Читать далее

Как мы отбираем и обучаем разметчиков: от первых шагов до реальных проектов

Время на прочтение4 мин
Охват и читатели907

В чем секрет качественных данных и точной разметки? Мы в Data Light знаем: за каждым успешным проектом стоят не только технологии, но и люди — специалисты, отобранные после нескольких этапов тестирований и обученные на настоящих проектах.

Мы знаем: чем лучше подготовлен исполнитель, тем выше итоговое качество работы. Я, Артем Каукалов, руководитель отдела обучения, поделюсь опытом нашей компании — как найти людей, которые помогут вам достичь максимальных результатов, и как правильно выстроить их процесс учебы.

Читать далее

Кто и как управляет разработкой ML-моделей + опыт ПГК

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели1.3K

Привет, Хабр! Меня зовут Павел Куницын, и я главный специалист по анализу данных и МО в ПГК Диджитал. Согласно различным исследованиям, от 46 до 90% моделей машинного обучения не выходит в прод. Всему виной отсутствие должного контроля за их созданием, а также проблемы менеджмента команд разработки и data science.

Решить эту проблему способен MLOps. С учетом того, что на Хабре есть базовые материалы по теме, расскажу о том, как бизнес и сообщество подходят к стандартизации разработки моделей. Также расскажу про свод рекомендаций для повышения качества ML-систем, который сформулировали мы в ПГК.

Читать далее

Оценка LLM: метрики, фреймворки и лучшие практики

Время на прочтение12 мин
Охват и читатели2.8K

Дженсен Хуанг в своем выступлении на саммите «Data+AI» сказал: «Генеративный ИИ есть везде, в любой отрасли. Если в вашей отрасли еще нет генеративных ИИ, значит вы просто не обращали внимания на это».

Однако широкое распространение вовсе не означает, что эти модели безупречны. В реальных бизнес-кейсах модели очень часто не достигают цели и нуждаются в доработке. Вот тут-то и приходят на помощь оценки LLM: они помогают убедиться, что модели надежны, точны и соответствуют бизнес-предпочтениям.

В этой статье мы подробно разберем, почему оценка LLM имеет решающее значение, и рассмотрим метрики, фреймворки, инструменты и сложности оценки LLM. Мы также поделимся некоторыми надежными стратегиями, которые мы разработали в ходе работы с нашими клиентами, а также расскажем о лучших практиках.

Читать далее

Разметка изображений: самый полный гайд

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели3.7K

Представьте себе, что от точности разметки изображений зависит успех вашего проекта: будь то способность нейросети распознавать сложные объекты или автоматизация рутинных задач. Но в чем ее специфика, какие виды разметки изображений существуют и какой тип аннотации лучше подходит под ваш проект?

В этой статье мы раскрываем все тонкости процесса, делимся проверенными методами и реальными кейсами от команды Data Light, чтобы помочь вам вывести проекты на новый уровень. Если вы хотите разобраться в разметке изображений и узнать, как избежать подводных камней, эта статья точно будет вам полезна.

Читать далее

Оценка кардинальности полей таблицы

Время на прочтение7 мин
Охват и читатели2.2K

Привет, Хабр! В SQL запросах важно ориентироваться в количестве записей в таблицах и в плане выполнения запроса. Это позволяет, например, уменьшить количество записей при выполнении запроса при помощи группировки GROUP BY. В случае работы над каждым SQL запросом вручную, это можно проверить в среде разработки. Но в случае генерации SQL запросов автоматически появляется задача проверки количества уникальных записей для одного или нескольких полей таблицы, иными словами, кардинальности. В частном случае, при наличии сильных линейных связей между полями таблицы или даже "полей-дубликатов", количество уникальных записей в двух полях практически равно количеству уникальных записей в одном поле, т.е. кардинальность двух линейно зависимых полей таблицы практически равна кардинальности одного поля. В связи с этим актуально применение коэффициентов парной и множественной корреляции при расчете кардинальности нескольких полей. Интересны статистические методы при расчете кардинальности? Добро пожаловать :)

Читать далее

Анализ тональности текста: зачем он нужен и как его использовать? Объясняем за 7 минут

Время на прочтение5 мин
Охват и читатели2K

Как компании выявляют эмоции в тысячах отзывов и комментариев? Почему одни маркетинговые кампании становятся невероятным успехом, а другие — провалом?

Анализ тональности текста — мощный инструмент, который помогает бизнесу не только считывать эмоции клиентов, но и на практике улучшать продукт, автоматизировать поддержку и управлять репутацией. Сегодня мы подробно разберем, как анализ тональности работает в реальных кейсах, и покажем, как вы можете внедрить его для достижения своих бизнес-целей.

Читать далее

Инфраструктура для Data-Engineer Apache Iceberg

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели5.9K

В этой статье вы узнаете что такое Apache Iceberg, как его можно использовать и для чего он вообще нужен.

В статье также рассматривается вопрос Data Lake.

Читать далее

Краткий обзор LLM бенчмарков

Время на прочтение6 мин
Охват и читатели956

Когда мы говорим о бенчмаркинге LLM в какой-то предметной области, то имеем в виду две разные концепции: бенчмарки моделей LLM и бенчмарки систем LLM. Бенчмаркинг моделей LLM заключается в сравнении базовых моделей общего назначения (например, GPT, Mistral, Llama, Gemini, Claude и так далее). Нам не следует вкладывать ресурсы в их сравнение, потому что: 1. Для них существуют публикуемые таблицы лидеров, 2. В использовании этих моделей существует множество нюансов (например, изменчивость модели, промт, сценарий использования, качество данных, конфигурация системы), что снижает полезность обсуждения их высокоуровневых параметров, 3. Важнее точности модели могут быть другие факторы: локальность данных, соответствие требованиям защиты конфиденциальности, поставщик облачных услуг, степень возможности кастомизации (например, fine-tuning или повторного обучения).

Что мы должны обсуждать, так это бенчмаркинг систем LLM. Это осмысленный и важный процесс, при котором мы рассматриваем применение конкретных моделей LLM (вместе с промтом и конфигурацией системы) в наших конкретных сценариях использования. Нам следует курировать датасеты из конкретных предметных областей, задействовать в их разметке и людей, и LLM для создания «золотого» датасета, позволяющего оценивать вносимые нами постоянные улучшения. Можно даже рассмотреть возможность публикации «золотых» датасетов бенчмарков.
Читать дальше →

Bukva: алфавит русского жестового языка

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели4.9K

Всем привет!

Недавно мы анонсировали словарь русского жестового языка (РЖЯ), а в этой статье поговорим про задачу распознавания алфавита РЖЯ, именуемого также дактильным алфавитом или дактилем. Предлагаем ознакомиться с нашей работой, в которой мы представим новый датасет Bukva — первый полноценный видеонабор данных для распознавания дактильной азбуки. Он содержит 3757 видеороликов с более чем 101 видео для каждой буквы дактиля, включая не только статические, но и динамические жесты. В статье расскажем, как мы собрали датасет для решения задачи и какие модели обучили в качестве бейзлайнов. Все данные и код открыты и доступны в репозитории команды.

Читать далее

Сравнение роста заработных плат ректората МГТУ им. Н.Э. Баумана и остальных сотрудников

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели60K

Я сам работал преподавателем бауманки до 2019 г., потом по совету Медведева ушел в бизнес. Знаю, что среди пользователей Хабра много студентов и преподавателей МГТУ им. Баумана, возможно пост окажется интересным и для контингента других вузов. Пост про анализ данных, но при его создании использовались лишь базовые навыки Data Science. Подобный анализ по своему вузу любой пользователь Excel может провести самостоятельно, в конце статьи есть инструкция.

Читать далее

Как устроен бенчмарк LLM? Знакомство с оценкой моделей

Время на прочтение6 мин
Охват и читатели1.7K

В условиях, когда полным ходом идет (генеративная) революция искусственного интеллекта, каждый день появляются новые большие языковые модели (LLM). Существуют общие модели и усовершенствованные версии этих общих моделей для конкретных целей. В настоящее время на Huggingface размещено около 750 000 различных моделей. Но как выбрать ту, которая подойдет вашим целям?

Найти модель, которая лучше всего подойдет для поставленной задачи, сложно. Также определить, что такое «хорошая производительность» при выполнении некоторых задач, может быть непросто. Существует ряд доступных бенчмарков, которые помогут вам сравнить эти LLM. В этой статье объясняются основы оценки LLM и подробно рассматриваются общие метрики оценки и бенчмарки LLM.

Читать далее

Ближайшие события

Данные – это новая нефть

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели3.6K

Данные – это реально нефть и даже лучше.

Выгода от данных больше чем от нефти.

Нефть заканчивается, а данные никогда не закончатся – это первое. А второе – данные можно перерабатывать и каждый раз получать выгоду.

Читать далее

Разработка пакетов на языке R (бесплатный видео курс)

Уровень сложностиСредний
Время на прочтение2 мин
Охват и читатели967

Разработка R-пакетов - отличный способ улучшить навыки программирования на R и глубже погрузиться в изучение языка. Этот курс шаг за шагом проведет вас через процесс создания собственных пакетов. Первый урок позволит вам написать свой первый пакет. Более того, вы сможете внести свой вклад в развитие языка, делясь своими наработками в виде R-пакетов.

Читать далее

Kaggle для футболистов: Классификация событий на футбольном поле

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели2K

Всем привет! В конце 2022 года закончилось соревнование DFL - Bundesliga Data Shootout. Так как мне интересен футбол и в целом спортивная аналитика, то я решил поучаствовать в этом соревновании. Целью данной статьи является описание моего подхода, и я уверен, что многие методы, примененные к этой задаче, могут быть адаптированы для решения других задач в области компьютерного зрения. За подробностями под кат!

Читать далее

Инфраструктура для Data-Engineer ClickHouse

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели3.3K

В этой статье я хочу показать как можно использовать ClickHouse в дата-инженерии и как его "пощупать".

Рекомендуется всем, кто ещё не знаком с ClickHouse.

В статье постарался всё кратко и понятно рассказать про ClickHouse.

Читать далее

Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности

Время на прочтение4 мин
Охват и читатели458

Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео.

В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно.

И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке.

Давайте разбираться.

Читать далее

Поиск дубликатов в клиентском MDM на миллиард записей

Время на прочтение15 мин
Охват и читатели2.6K

Представьте, что вам нужно объединить две базы данных с информацией о клиентах, каждая из которых содержит несколько миллионов записей. В них есть ФИО, паспортные данные, СНИЛС, даты рождения, адреса и другие данные. Ваша задача — найти все похожие записи и не допустить ошибочных объединений. 

Причем данные могут содержать ошибки, опечатки операторов или неверные транскрипции. Для полной сверки каждого с каждым потребуются триллионы операций сравнения. И вишенка на торте — братья-близнецы с редкими, но созвучными именами. Даже оператор может решить, что это дубль, и объединить их записи.

Цена ошибки неверного объединения или дублирования выражается в репутации компании и конкретных суммах на счетах клиентов, к которым могут получить доступ посторонние люди.

В этом посте расскажу о работе нашей системы обработки данных, которую мы применяем и адаптируем под такие сложные случаи.

Читать далее

Как оценить качество LLM модели

Время на прочтение11 мин
Охват и читатели3K

Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей.

Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны:

  • Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга».
  • LLM не всегда правильно излагают факты; это явление называется «галлюцинациями».
  • LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться.

Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с n параметров) лучше LLM Б (с m параметров)? Или сделать вывод, что LLM А надёжнее, чем LLM Б, на основании исчисляемых, обоснованных наблюдений?

Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.
Читать дальше →