Как стать автором
Обновить

Компания Data Light временно не ведёт блог на Хабре

Сначала показывать

Руководство по созданию датасета для машинного обучения

Время на прочтение5 мин
Количество просмотров2.9K

Создание хорошего датасета — это процесс, который требует внимательного планирования и глубокого понимания задачи.

В этом руководстве мы разберем каждый этап подготовки данных (от постановки цели до сбора, очистки и организации информации), рассмотрим частые ошибки и дадим рекомендации, которые помогут сделать ваш датасет максимально полезным.

Читать далее

Как мы размечали более 800 часов аудио: от бытовых диалогов до шумных медицинских записей

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров520

Многим может показаться, что может быть сложного в аудиоразметке? Надел наушники, включил запись — и вперед, переписывай все, что слышишь. Но, как показал этот проект, даже такая на первый взгляд стандартная задача превращается в настоящее испытание, когда дело доходит до сотен часов сложных записей с медицинских устройств и фоновым шумом.

Рассказываем, как нам удалось не только качественно обработать более 800 часов аудио, но и выстроить процесс так, чтобы он оставался эффективным и прозрачным даже в самых сложных условиях.

Читать далее

Группировка объявлений в карточки: как мы разметили 20 000 товаров

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров548

Казалось бы, стандартная задача: взять 20 000 объявлений, определить в них модель товара и сгруппировать по карточкам – легкий проект, который можно закрыть за пару месяцев.

Но на деле все усложняют многоязычные названия, аббревиатуры, субъективные решения аннотаторов и нюансы классификации. Как мы выстроили процесс, чтобы обеспечить точность группировки, как мы валидировали данные и какие решения помогли нам справиться с вызовами? Рассказываем в этой статье.

Читать далее

От африканских саванн до индийских мегаполисов: как мы собрали уникальный датасет для клиента

Время на прочтение3 мин
Количество просмотров552

Казалось бы, стандартная задача: через крауд-платформу собрать фотографии и видео, где люди произносят цифры – легкий проект, который можно закрыть за пару недель.

Но все это вылилось в десятки часов на чистку «мусорных» данных, видео, снятые в полной темноте, случайные TikTok-ролики вместо заданий и ситуации, где инструкции, кажется, читают единицы.

Как мы превратили хаос в структурированный датасет? Какие решения помогли преодолеть барьеры (как культурные, так и технические)? Расскажем в этой статье.

Читать далее

Как выстроить разметку для паноптической сегментации правильно?

Время на прочтение9 мин
Количество просмотров851

Представьте себе задачу, в которой необходимо не просто понять, что изображено на картинке, но и точно определить границы каждого объекта, даже если они частично перекрывают друг друга. Семантическая сегментация отлично справляется с категоризацией пикселей, инстанс-сегментация позволяет различать отдельные объекты одного класса, но что, если нам нужно сразу и то, и другое?

Паноптическая сегментация объединяет оба этих подхода. При нем каждый пиксель получает как классовую принадлежность, так и уникальный ID объекта. Однако ее разметка — одна из самых сложных задач в области компьютерного зрения: аннотаторам приходится учитывать перекрытия, сложные границы объектов и баланс между двумя типами масок.

Как добиться высокой точности в разметке паноптической сегментации? Какие ошибки наиболее критичны при аннотировании? И почему этот метод так важен для беспилотных технологий, медицинской визуализации и AR-приложений? Разбираем подробнее в статье!

Читать далее

Расставим точки над i: как подготовить разметку для задач Keypoint Detection

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров533

Представьте: вы снимаете смартфон с блокировки с помощью Face ID — система мгновенно распознает ваше лицо. Или, занимаясь йогой, открываете фитнес-приложение, которое точно анализирует позы и дает рекомендации. Все эти технологии были бы невозможны без точной аннотации данных, особенно ключевых точек — тех самых маркеров, которые задают основу для работы искусственного интеллекта.

Но создание качественных датасетов для задач Key Points Detection — это совсем не просто. Чтобы помочь вам, в этой статье мы разберем, как работают такие системы, для чего они нужны и какие инструменты лидируют на рынке. Вы узнаете о реальных вызовах, с которыми сталкиваются компании, от вариативности поз и окклюзий до интерпретируемости моделей. А еще мы поделимся практическими рекомендациями для улучшения рабочих процессов и нашими кейсами.

Читать далее

Как организовать модерацию контента? Делимся опытом Data Light

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров361

А вы знали, что 55% бизнесов сталкиваются с убытками из-за мошенничества, вызванного плохим контролем публикаций? А о том, что 88% пользователей доверяют отзывам как личным рекомендациям, и, столкнувшись с фейковым контентом, редко возвращаются на платформу? Только налаженная система модерации способна предотвратить такие ситуации и обеспечить безопасный и качественный контент.

Технологии предлагают автоматические решения для блокировки недопустимого контента, однако не всегда можно полагаться только на них. Почему крупные компании все еще предпочитают ручную или гибридную модерацию?

Вадим Болотов объясняет, как выстроить правила модерации и выбрать оптимальный тип для вашего бизнеса.

Читать далее

AI-тренер и AI-редактор. Полный гайд по профессии

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.2K

Представьте, что искусственный интеллект — это ребенок, который только начинает учиться говорить и понимать окружающий мир, а AI-тренеры, редакторы и асессоры — это учителя и наставники. Они помогают ему разобраться, как правильно отвечать на вопросы, избегать ошибок и становиться полезным помощником для людей.

Но в чем разница между этими специальностями, какие карьерные перспективы для них существуют и какими качествами надо обладать, чтобы эффективно выполнять такую работу? Давайте разбираться.

Читать далее

Какой тип разметки данных требуется для вашего проекта? Полный гид по аннотированию изображений

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров946

Ограничивающие рамки, полигоны, ключевые точки или 3D-кубоиды? Каждый из этих методов разметки подходит для совершенно разных задач машинного обучения.

Хотите узнать, как правильно выбрать инструмент для своего проекта? Мы сравним преимущества и недостатки каждого инструмента и покажем, как аннотирование помогает создать передовые технологии — от беспилотных авто до диагностики в медицине.

Читать далее

8 лучших советов для аутсорсинга разметки данных

Время на прочтение8 мин
Количество просмотров738

Любой проект в области CV начинается с разметки огромных объёмов изображений и видео. И только успешные результаты и качественные данные гарантируют, что модель сможет обучаться корректно.

Но что делать, если внутренняя команда не справляется с объемами, а квалифицированных специалистов найти сложно? Ответ прост: передать задачу профессионалам.

Аутсорсинг разметки данных помогает ускорить процесс и вывести проект на совершенно новый уровень. Однако найти надежного партнера, который станет вашим стратегическим союзником, — задача не из легких.

Как выбрать компанию и выстроить процессы, чтобы сотрудничество получилось продуктивным? В этом материале многолетним опытом Data Light в сфере организации разметки поделятся наши эксперты.

Читать далее

Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.2K

Если вы хотите научить модель машинного зрения разбираться в сортах кукурузы или, скажем, отличать пешеходов от автомобилей, вам нужно подготовить датасет с изображениями, где уже будут размечены пешеходы и початки кукурузы, снятые с разных ракурсов в разное время суток. Когда дело ограничивается злаковыми культурами, для этих целей можно использовать опенсорсное решение, а вот компании, работающие с белковыми формами жизни и их биометрией — например, банки, — за неимением своих датасетов часто обращаются за помощью к другим компаниям. 

Чтобы выяснить, как на практике выглядит такая разработка датасетов на аутсорсе, мы поговорили с Владиславом Барсуковым, руководителем группы речевых и генеративных данных в Data Light. Он поделился своим взглядом на проблемы в сфере разметки биометрических данных и рассказал о подводных камнях, с которыми приходится сталкиваться в ходе подготовки, проверки, обработки и выгрузки датасетов для алгоритмов ML. Бонусом — интересный кейс с разметкой 60 000 фотографий, пол и возраст на которых проверяли сначала нейросетью, а потом — вручную. 

Читать далее

Как добиться успеха в большой компании? 4 ингредиента для идеального карьерного рецепта руководителя

Время на прочтение8 мин
Количество просмотров4.9K

Что делает руководителя по‑настоящему успешным?

После управления двумя отделами в Авито я взялся за создание отдела Контроля качества в Data Light. Результат не заставил себя ждать: всего за несколько месяцев команда из 47 человек вывела метрику экспертизы на уровень 98%.

За это время я определил для себя 4 ключевых принципа, которые помогают добиваться таких успехов, я готов поделиться своей историей и раскрыть их в этой статье.

Читать далее

Как организовать разметку данных для ML? Советы от Data Light

Время на прочтение12 мин
Количество просмотров943

За каждым «умным» решением, которое принимает ИИ, стоят огромные объемы данных, тщательно размеченные и подготовленные для обучения. Но как организовать этот процесс так, чтобы модель работала эффективно? Мы в Data Light считаем, что это искусство, требующее правильного подхода, инструментов и стратегии.

Организация самого процесса разметки зависит от многих факторов: целей проекта, объемов данных, требуемой точности и доступных ресурсов. В этой статье мы рассмотрим основные методики и инструменты для организации разметки данных с нашими экспертами:

Дмитрий Рогальский, Special Projects Group Manager в Data Light

Алексей Корнилов, Moderation Group Manager в Data Light

Читать далее

Саммаризация — Как помочь пользователям находить идеальный товар быстрее

Время на прочтение6 мин
Количество просмотров1.1K

Что, если бы все отзывы могли сокращаться в ясные и четкие выжимки, которые помогли бы пользователям быстрее находить информацию? Эту задачу называют саммаризацией, и как раз над таким проектом мы недавно закончили работать: команда Data Light должна была структурировать данные крупной платформы, чтобы сделать их доступными для автоматической обработки.

В этой статье мы поделимся деталями масштабного проекта по саммаризации, над которым команда работала уже больше года: с какими вызовами столкнулись, какие решения нашли — и что это значит для будущего обработки данных.

Читать далее

Ближайшие события

Введение в синтетические данные для ML: зачем они нужны?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.9K

Генерация документов, лиц и даже симуляция целых атак: как далеко можно зайти в создании и использовании синтетических данных?

В этой статье Артур Казукевич, Data Science Engineer в Data Light, расскажет, почему синтетика становится крупнейшей тенденцией в сфере ML, как такие данные можно использовать и какие ограничения для генерации существуют, а также поделится своим опытом.

Читать далее

Машинное обучение в оценке кредитных рисков: как ML меняет правила игры?

Время на прочтение7 мин
Количество просмотров1.9K

Машинное обучение в оценке кредитных рисков: как ML меняет правила игры?

Современные скоринговые системы — это не просто статистика и математические модели, а мощные инструменты анализа рисков, которые могут определять не только кредитоспособность клиентов, но и выявлять угрозы для бизнеса на ранних стадиях. 

В условиях быстро меняющихся финансовых рынков и растущей неопределенности использование ML в оценке рисков становится решающим фактором для банков и финансовых организаций. ML позволяет выйти за рамки стандартных моделей и анализировать гораздо больше факторов, включая поведение клиента, макроэкономические условия и другие непрямые признаки.

Подходы, о которых пойдет речь в этой статье, будут полезны как специалистам в области data science и нейронных сетей, так и бизнесу, ищущему надежные решения для управления рисками.

Читать далее

Как создать датасет для машинного обучения за 6 шагов

Время на прочтение9 мин
Количество просмотров7.2K

Устали искать идеальный набор данных для обучения ваших моделей машинного обучения? Часто в таких случаях оптимальное решение — это создать его самостоятельно.

Сегодня мы обсудим шесть шагов для создания наборов данных, которые идеально подойдут под ваши задачи, и разберем их на примере датасета, который мы собрали в Data Light.

Читать далее

Как разметить данные для классификации изображений: руководство с примерами

Время на прочтение6 мин
Количество просмотров1.4K

Представьте, что вам нужно научить машину "видеть" и понимать мир вокруг. Нет, не просто распознавать лица или выделять дороги на фотографиях – а по-настоящему разбираться, что изображено на любом снимке, будь то лес, чашка кофе или картина. Классификация изображений – это ключ к машинному зрению. Но как этому научить модель? 

В этой статье мы поговорим о том, как классификация может использоваться в бизнесе, какие этапы подготовки таких данных существуют, а также разберемся, как выполнить аннотацию для этой задачи.

Читать далее

Семантическая сегментация: самый полный гайд 2024

Время на прочтение10 мин
Количество просмотров3.2K

Что общего между автономными автомобилями, медицинскими диагностическими системами и спутниковыми снимками Земли?

Ответ прост: все они зависят от способности машин «видеть» и понимать окружающий мир. Чтобы компьютер мог распознать объекты на изображении и отличить небо от дороги, человека от автомобиля или лес от здания, необходимо использовать технологии сегментации изображений. Но как именно машины учатся такому зрению и как использовать эту технологию для бизнеса? Давайте поговорим о семантической сегментации.

Читать далее

Как управлять большими командами? 3 совета для менеджера

Время на прочтение3 мин
Количество просмотров3.4K

Когда я начинал свою карьеру в разметке данных, я и представить не мог, что через несколько лет продолжу работать в индустрии и буду управлять целым направлением.

Я прошел путь от разметчика до позиции Head of Moderation & Head of Special Projects в Data Light. Теперь под моим руководством работает 465 человек, параллельно за раз моя команда ведет до 64 проектов.

Сейчас я понимаю, что для успеха в этой сфере критически важны три вещи: постоянное обучение, систематизация и навыки коммуникации. В этой статье я хочу поделиться главными советами для начинающих менеджеров.

Читать далее
1