Обновить
93
10.2
Куцев Роман @kucev

Тестируйте и сравнивайте лучшие LLM на LLMarena.ru

Отправить сообщение

ML и консенсус между людьми: берём от обоих подходов лучшее

Время на прочтение5 мин
Количество просмотров1.3K

Введение в категоризацию классификаций


У вас были когда-нибудь проблемы с поиском товара в продуктовом магазине? Например, вы могли искать замороженный картофель фри в отделе замороженных завтраков, но на самом деле он находился в отделе замороженных овощей. Или вы искали соевый соус в отделе азиатской еды, а он находился в отделе приправ.

Одна из самых больших трудностей для розничных магазинов и торговых площадок — создание каталога путём категоризации миллионов продуктов в сложную систему из тысяч категорий, также называемых классификациями (taxonomies). В реальных магазинах подробная категоризация нужна для логичного упорядочивания стеллажей. В эпоху электронной коммерции и цифровых торговых площадок правильная категоризация обеспечивает множество преимуществ, в том числе улучшенные поисковые рекомендации, более подходящие предложения товаров на замену, а также более строгое соблюдение региональных и федеральных требований.

Категоризация классификаций сложна не только из-за существования в мире бесчисленного количества продуктов, образующих глубоко вложенные иерархические категории, но и из-за постоянно меняющейся природы классификаций. Невозможно найти одного специалиста в предметной области, понимающего весь каталог достаточно хорошо для того, чтобы категоризировать каждый отдельный товар, а процесс обучения команды специалистов недостаточно быстр и масштабируем по современным стандартам. Более того, входные данные никогда не идеальны, и из-за отсутствия информации иногда невозможно понять, относится ли продукт к конкретной классификации.
Читать дальше →

Как Scale AI создаёт качественные данные для машинного обучения

Время на прочтение7 мин
Количество просмотров2.2K

Наша компания помогает своим клиентам ускорить разработку их ИИ-приложений. Мы решаем эту задачу при помощи широкого ассортимента продуктов и сервисов, но в статье сосредоточимся на одной услуге: высококачественной разметке данных обучения. Мы разработали процесс быстрой и эффективной поставки улучшающих модели данных, и ниже расскажем об аспектах этого процесса.

Чтобы двигаться быстро, мы уже на ранних этапах пытаемся добиться согласованности с требованиями клиентов. Мы стремимся понять, чего хотят наши клиенты, и для чего им это нужно, чтобы мы могли использовать свою экспертизу в продуктах и опыт работы для разметки их данных с высоким качеством и учётом их задач в области машинного обучения. При проектировании и создании конвейеров аннотирования данных мы активно сотрудничаем и тщательно продумываем все аспекты. Это одна из множества причин, по которым клиенты продолжают выбирать Scale в качестве партнёра для разработки ИИ.
Читать дальше →

Четыре урока о создании инструментов для машинного обучения

Время на прочтение6 мин
Количество просмотров2.3K

Мне хотелось бы поделиться с вами одними из самых удивительных выводов о том, как создавать оснастку для машинного обучения, что необходимо для движения вперёд и почему в будущем ИИ гораздо большую роль будут играть специалисты в предметных областях.

На протяжении прошлого года Humanloop создавала новый вид инструмента для обучения и внедрения моделей natural language processing (NLP). Мы помогали командам юристов, сотрудников службы поддержки, маркетологов и разработчиков ПО быстро обучать способные понимать речь ИИ-модели, а затем мгновенно их использовать. Начали мы с применения активного обучения, чтобы снизить потребность в аннотированных данных, но при этом поняли, что требуется гораздо больше.

На самом деле нам был необходим новый набор инструментов и рабочих процессов, изначально спроектированных для решения сложных задач работы с ИИ. Ниже мы расскажем о том, чему научились.
Читать дальше →

Почему при разработке ИИ главное — это данные

Время на прочтение7 мин
Количество просмотров4.7K

Системы машинного обучения рождаются от союза кода и данных. Код сообщает, как машина должна учиться, а данные обучения включают в себя то, чему нужно учиться. Научные круги в основном занимаются способами улучшения алгоритмов обучения. Однако когда дело доходит до создания практических систем ИИ, набор данных, на котором выполняется обучение, по крайней мере столь же важен для точности, как и выбор алгоритма.

Существует множество инструментов для улучшения моделей машинного обучения, однако чрезвычайно мало способов улучшения набора данных. Наша компания много размышляет над тем, как можно систематически улучшать наборы данных для машинного обучения.
Читать дальше →

Разметка данных для машинного обучения: обзор рынка, методики и компании

Время на прочтение13 мин
Количество просмотров11K
Большая доля data science и машинного обучения зависит от чистых и корректных источников данных, поэтому неудивительно, что скорость роста рынка разметки данных продолжает увеличиваться. В этой статье мы расскажем о многих крупных игроках отрасли, а также об используемых ими методиках, чтобы вы могли иметь возможность выбора наилучшего партнёра в соответствии со своими требованиями.


Рынок разметки данных развивается невиданными ранее темпами. В прошлом году его сегмент сторонних решений достиг более 1 миллиарда долларов; ожидается, что он продолжит стабильное расширение в течение следующих пяти лет, и к 2027 году превзойдёт 7 миллиардов долларов. Наблюдая впечатляющий ежегодный рост на 25-30%, некоторые источники, в том числе и Grand View Research, считают, что к 2028 году рынок будет стоить не менее 8,2 миллиарда.
Читать дальше →

Почему я изменил своё мнение о слабой разметке для ML

Время на прочтение9 мин
Количество просмотров4.7K

Когда чуть больше года назад я впервые услышал о слабой разметке, то поначалу отнёсся к ней скептически. Суть слабой разметки (weak labelling) заключается в том, что можно заменить аннотированные вручную данные на данные, созданные по эвристическим правилам, написанным специалистами в соответствующей области. Мне это показалось совершенно нелогичным. Если можно создать очень хорошую систему на основе правил, то почему бы просто не использовать эту систему? А если правила недостаточно хороши, то разве не будет плохой и модель, обученная на шумных данных? Это казалось мне возвратом в мир конструирования признаков, которому должно было прийти на смену глубокое обучение.

Однако за последний год моё отношение полностью переменилось. Я поработал над множеством NLP-проектов, в которых было задействовано извлечение данных, и намного сильнее углубился в изучение литературы про обучение со слабым контролем. Также я пообщался с руководителями команд ML в таких компаниях, как Apple, где услышал истории о том, как целые системы заменяли за считанные недели — благодаря сочетанию слабого контроля и машинного обучения им удавалось создать обширные наборы данных для языков, ресурсов по которым было мало и которые раньше попросту не обслуживались!

Поскольку теперь я обладаю энтузиазмом новообращённого, мне хочется рассказать о том, что такое слабый контроль, чему я научился и почему, на мой взгляд, в области аннотирования данных он дополняет такие техники, как активное обучение.
Читать дальше →

Методика машинного обучения Human-in-the-Loop

Время на прочтение9 мин
Количество просмотров9K

Human-in-the-loop AI — это технология автоматизации, устраняющая многие проблемы разработки и внедрения машинного обучения.

Большинство проектов создания ИИ завершается провалом. 80% никогда не доберётся до стадии внедрения. Ещё большее количество никогда не вернёт вложенные в них инвестиции. Проблема заключается в том, что разработка ИИ — это процесс экспериментирования, однако при традиционном подходе об этом забывают.

Многие команды разработчиков сегодня начинают применять технологию под названием human-in-the-loop AI (HITL). Технология подразумевает, что можно быстро развернуть работающую модель с меньшим количеством данных и с гарантированно качественными прогнозами. Это похоже на чудо, но в своей статье мы расскажем, что такое HITL и как вы можете использовать эту технологию в собственных проектах разработки ИИ.

Если говорить в общих чертах, при HITL система ИИ и команда людей совместно работают над реализацией задачи.
Читать дальше →

Как создать эффективный план разметки данных?

Время на прочтение6 мин
Количество просмотров2.7K

Введение


Для обучения моделей ML необходимо множество размеченных данных. Хотя это не всегда обязательно, но иногда вам приходится самостоятельно размечать данные для обучения модели. Процесс аннотирования данных в проекте ML — это важная и затратная по времени задача. Для её правильного выполнения вам придётся принимать решения о способе разметки данных, например, о том, на какие классы вы хотите разбивать данные. Именно множество всех этих решений по правильному аннотированию данных мы будем называть планом разметки данных.

К сожалению, хотя это является важной частью успешного обучения ИИ-модели, создание эффективного плана разметки данных — это нечётко заданный и плохо задокументированный процесс. Цель этой статьи — дать вам понимание процесса создания плана разметки. Ради простоты мы рассмотрим только задачу многоклассовой классификации. Каждая задача машинного обучения имеет свою специфику плана разметки, поэтому мы представим в статье только общий подход. В ней мы просуммируем все вопросы, которые вам нужно будет задать себе при создании плана разметки.

Статья будет разбита на две части. Сначала мы рассмотрим процесс принятия решений о плане разметки на основании принципов машинного обучения. Затем мы сосредоточимся на процессе принятия решений на основе экспертизы в аннотировании.
Читать дальше →

Семантическая сегментация 4D сцен с лидаров и прогресс в разработке беспилотных автомобилей

Время на прочтение8 мин
Количество просмотров2.7K

Прежде чем стать достоянием общества, беспилотные автомобили, роботы и автономные системы должны обеспечить высокий уровень восприятия и понимания окружающего их мира. Как же достичь этого уровня? Сегодня мы реализуем его при помощи компьютерного зрения, машинного обучения и множества датчиков. Обычно в качестве таких датчиков используются камеры, радары, сонары и лидары (LiDAR, Light Detection and Ranging).

У каждой компании-разработчика БА (беспилотных автомобилей) есть собственный подход к выбору подходящего датчика, расположению датчиков и использованию общего массива собираемых данных. Лидар, прошедший за последние годы долгий путь развития, становится всё более важным устройством, поскольку играет фундаментальную роль в обеспечении безопасного перемещения БА по дорогам. Несмотря на заявления Илона Маска, отрасль БА в целом убеждена в том, что этот датчик и его возможности — ключ к успеху автономности. И в самом деле, в отличие от камер, датчики-лидары способны хорошо проявлять себя в условиях плохой видимости, например, в плохую погоду, или даже лучше разбираться с тенями и сложным освещением, с которыми камеры испытывают трудности.
Читать дальше →

Зачем вам нужно использовать активное обучение при обучении нейронных сетей

Время на прочтение6 мин
Количество просмотров8.3K

Часто разметка данных оказывается самой серьёзной преградой для машинного обучения — сбор больших объёмов данных, их обработка и разметка для создания достаточно производительной модели могут занимать недели или даже месяцы. Активное обучение позволяет обучать модели машинного обучения на гораздо меньшем количестве размеченных данных. Лучшие компании в сфере ИИ, например, Tesla, уже используют активное обучение. Мы считаем, что и вам тоже оно необходимо.

В этом посте мы расскажем, что такое активное обучение, рассмотрим инструменты для его практического применения и продемонстрируем, как мы сами упрощаем внедрение активного обучения в процесс NLP.
Читать дальше →

Как избавиться от проблем при разметке данных для обучения ML моделей?

Время на прочтение8 мин
Количество просмотров2.2K

Введение


Потребность в аннотировании данных растёт из-за роста популярности машинного обучения. Только люди способны создать эталонную разметку, которая необходима для обучения модели. Работа аннотатора очень неблагодарна, монотонна и иногда сложна. Работа менеджера проекта по аннотированию, руководящего проектом с тысячами, а иногда и с миллионами объектов, тоже может быть тяжёлой. Кроме того, с увеличением объёмов данных проблема становится всё более комплексной.

Аннотирование очень быстро может превратиться в серьёзную преграду. В этой статье мы рассмотрим инструменты и процессы, позволяющие избежать головной боли при работе с проектом разметки данных.
Читать дальше →

Оптимизация разметки данных с помощью активного обучения

Время на прочтение7 мин
Количество просмотров2.2K

Подавляющее большинство инструментов глубокого обучения позволяет нам быстро создавать новые приложения с потрясающей производительностью, от программ компьютерного зрения, классифицирующих сложные объекты по фотографиям, до анализаторов естественного языка при помощи извлечения семантики из текстов. Однако самым серьёзным узким местом всех этих методик является огромное количество данных, необходимое для обучения моделей — обычно сотни тысяч примеров для обучения.

Если вы приступаете к созданию с нуля классификатора изображений, допустим, для распознавания несвежих продуктов на конвейерной ленте, для сбора и ручной разметки всех этих фотографий вам понадобятся недели или месяцы. К счастью, существует множество глубоких нейронных сетей, уже обученных на больших массивах данных фотографий с большим количеством классов. Они позволяют устранить проблему «холодного запуска». Идея, лежащая в основе трансферного обучения заключается в использовании результатов работы этих моделей, фиксирующих высокоуровневую семантику изображений, в качестве входящих данных для новых классификаторов, решающих требуемую задачу. Это значительно уменьшает объём данных, которые нужно аннотировать вручную — с сотен тысяч до тысяч.

Однако аннотирование даже тысяч примеров может быть затратной задачей, особенно если для выполнения задачи по аннотированию требуется навыки специалиста в соответствующей области. В идеале достаточно было бы разметить только несколько сотен задач и позволить конвейеру машинного обучения самообучаться без контроля. Эта задача также называется бюджетированное обучение (budgeted learning): мы выделяем сумму денег на приобретение набора данных обучения для создания модели с нужной производительностью. Ещё одна проблема связана с дрейфом концепции, при котором целевая задача со временем меняется (на линию распознавателя поступают новые продукты) и показатели прогнозирования без вмешательства человека деградируют.
Читать дальше →

Способы обеспечения качества данных для машинного обучения

Время на прочтение15 мин
Количество просмотров11K
Данные — это душа каждой модели машинного обучения. В этой статье мы расскажем о том, почему лучшие команды мира, занимающиеся машинным обучением, тратят больше 80% своего времени на улучшение тренировочных данных.


Точность ИИ-модели напрямую зависит от качества данных для обучения.

Современные глубокие нейронные сети во время обучения оптимизируют миллиарды параметров.

Но если ваши данные плохо размечены, это выльется в миллиарды ошибочно обученных признаков и многие часы потраченного впустую времени.

Мы не хотим, чтобы такое случилось с вами. В своей статье мы представим лучшие советы и хитрости для улучшения качества вашего датасета.
Читать дальше →

Почему 87% проектов data science не добираются до продакшена?

Время на прочтение4 мин
Количество просмотров4.2K

«Если ваши конкуренты применяют ИИ и они нашли способ, позволяющий им ускориться, то они оторвутся от вас очень быстро», — поделилась CTO компании IBM по data science и ИИ Дебора Лефф на сцене Transform 2019.

В другом докладе, «Что вообще такое — работать с ИИ?» Лефф и старший вице-президент Gap по данным и аналитике Крис Чапо углубились в рассуждения о том, почему многие компании по-прежнему зря тратят время или терпят поражение, пытаясь реализовать стратегии работы с ИИ. И всё это несмотря на то, что преимущество, которым обладали крупные компании перед мелкими, теперь исчезло, а парадигма полностью изменилась. Благодаря ИИ быстрые компании обгоняют по эффективности медленные, вне зависимости от их размера. А крошечные безымянные компании отбирают долю рынка у гигантов.

Но если понимание того, что ИИ действительно даёт конкурентное преимущество, есть у всех, то почему до стадии продакшена добирается всего 13% проектов data science, или почти каждый десятый?
Читать дальше →

Пять альтернатив Scale AI

Время на прочтение6 мин
Количество просмотров2.7K
Выбор подходящего инструмента для аннотирования данных — непростая задача, поэтому чтобы принять верное решение, необходимо знать все возможные варианты. В этой статье мы расскажем о лучших, по нашему мнению, альтернативах Scale AI.


Проекты машинного обучения и глубокого обучения стали сегодня мейнстримом.

Однако несмотря на огромные трудозатраты, только некоторым компаниям удалось превратить свои модели в продукты.

Согласно данным Gartner, для более чем 85% ИИ-проектов есть риск обеспечения плохих результатов из-за погрешностей в данных, алгоритмах или заблуждений разработчиков.

В частности, слабым звеном в ML/DL является качество данных, поскольку успех проектов сильно зависит от объёмов высококачественных размеченных данных, которые способна регулярно создавать команда.

Scale AI одним из первых воспользовался возможностью совершенствования и автоматизации управления, аннотирования и интегрирования данных.

Но Scale — не единственный мощный инструмент в области разметки данных для обучения ИИ.
Читать дальше →

Почему за автоматической разметкой данных будущее?

Время на прочтение5 мин
Количество просмотров4.1K

Автоматическая разметка данных — новая функция, о которой сегодня часто говорят. Некоторые даже считают её решением проблемы кропотливого и ресурсоёмкого аннотирования вручную.

Для обработки одного набора данных ручной разметкой (аннотированием) требуются многие часы. Автоматическая разметка данных предоставляет более простой, быстрый и современный способ обработки данных при помощи самого ИИ.
Читать дальше →

Как Hasty использует автоматизацию и быструю обратную связь для обучения моделей ИИ

Время на прочтение5 мин
Количество просмотров1.2K

CEO Hasty Тристан Руиллар (в центре), сооснователи компании Константин Проскудин (слева) и Александр Веннман (справа)

Компьютерное зрение становится всё важнее для различных промышленных сфер, от слежения за строительными работами до реализации умного сканирования штрих-кодов на складах. Однако обучение искусственного интеллекта точному распознаванию изображений может быть медленным и затратным трудом, не гарантирующим результаты. Молодой немецкий стартап Hasty стремится помочь в решении этой задачи, обещая предоставить инструменты нового поколения, способные ускорить весь процесс аннотирования изображений для обучаемой модели.

Основанный в 2019 году в Берлине Hasty заявляет сегодня, что ему удалось получить 3,7 миллиона долларов в первом раунде финансирования, проведённом Shasta Ventures. Эта венчурная фирма из Кремниевой долины провела уже множество значимых выводов: Nest (куплен Google), Eero (куплен Amazon) и Zuora (IPO). Другими участниками раунда стали iRobot Ventures и Coparion.
Читать дальше →

Как размечать данные для машинного обучения

Время на прочтение6 мин
Количество просмотров12K

Искусственный интеллект (ИИ, AI) двигает человечество в будущее, и чтобы иметь конкурентное преимущество, вам нужно быть к нему готовым.


Машинное обучение (МЛ, ML) — подмножество ИИ, позволяющее программным приложениям распознавать паттерны и делать точные прогнозы. Благодаря ML у нас есть беспилотные автомобили, фильтрация спама в электронной почте, распознавание дорожного движения и многое другое.


Для обучения высококачественных моделей ML необходимо предоставить их алгоритму точно размеченные данные.


В этом посте мы расскажем всё, что вам нужно знать о разметке данных, чтобы принимать осознанные решения для своего бизнеса. Пост отвечает на следующие вопросы:


  • Что такое разметка данных?
  • Как она работает?
  • Какие оптимальные практики разметки данных существуют?
  • Как компании размечают свои данные?
  • Нужна ли мне платформа инструментария для разметки данных?
Читать дальше →

Руководство по типам аннотирования изображений

Время на прочтение6 мин
Количество просмотров2.4K

Задаётесь вопросом, какой тип аннотирования изображений лучше всего подойдёт для вашего проекта?


Аннотирование изображений — одна из наших основных специальностей, и мы с радостью поделимся информацией о плюсах и минусах каждого типа: от простых ограничивающих прямоугольников до полномасштабной попиксельной семантической сегментации.


Учтите, что это руководство относится только к типу визуального аннотирования, но на уровне изображений или объектов можно создавать дополнительные метаданные. К ним относятся строки, числа, булевы значения, выбор одного или нескольких вариантов, и т.п. Например, ограничивающий прямоугольник для автомобилей в сцене может содержать такие метки, как цвет, производителя, регистрационный номер и т.д.

Читать дальше →

Аннотирование текста для машинного обучения

Время на прочтение7 мин
Количество просмотров7.1K

Несмотря на масштабный переход к цифровым технологиям, часть наиболее сложных данных по-прежнему хранится в виде текста в статьях или официальных документах. В условиях изобилия публично доступной информации возникают трудности с управлением неструктурированными сырыми данными и их преобразования в понятный для машин вид. С текстом это сделать сложнее, чем с изображениями и видео. Возьмём для примера простое предложение: "They nailed it!". Люди бы поняли его как выражение одобрения, подбадривания или признания заслуг, однако традиционная модель обработки естественного языка (Natural Language Processing, NLP), скорее всего, воспримет только поверхностное понимание слова, упустив смысл. А именно, она бы ассоциировала слово "nail" с забиванием гвоздей молотком. Точные аннотации текста помогают моделям лучше понимать передаваемые им данные, что приводит к безошибочной интерпретации текста.

Читать дальше →

Информация

В рейтинге
709-й
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность