34. Как определить уровень качества, доступный человеку

Предположим, вы работаете над приложением обработки медицинских снимков, которое должно делать автоматическую диагностику рентгеновских снимков. Ошибка обычного человека без медицинского образования, за исключением некоторой базовой подготовки, составляет порядка 15%. Ошибка начинающего доктора около 10%. Опытный доктор ошибается в 5% случаев. Ошибка небольшой команды врачей, изучающих и обсуждающих каждый снимок не превышает 2%. Какую из этих цифр принять за «уровень качества человека»?

В этом случае, я бы принял за уровень качества, доступный человеку 2% и установил бы соответствующее оптимальное значение ошибки. Так же имеет смысл установить 2% в качестве желаемого уровня ошибки для нашей системы, поскольку это значение ошибки соответствует всем трем критериям, описанным в предыдущей главе для систем, которые позволяют сравнивать качество работы алгоритма с качеством выполнения задачи человеком:

Легкость разметки данных: вы можете использовать коллектив врачей для разметки данных с точностью 98% (ошибкой в 2%)
Анализ ошибок с использованием человеческой интуиции: Обсуждая рентгеновские снимки с командой врачей, можно опереться на их интуицию при поиске методов повышения качества
Использование уровня выполнения задачи человеком для установления оптимального уровня ошибки а также для определения достижимого «желаемого уровня ошибки» системы: Целесообразно использовать 2% в качестве оценки оптимального уровня ошибки. Оптимальный уровень ошибки даже может быть меньше 2%, но точно не может быть выше вследствии того, что такой уровень ошибок соответствует качеству диагностики, доступного специалистам и нет никакого смысла устанавливать для автоматической системы в качестве целевого уровня 5% или 10% ошибки, так как мы точно знаем, что достижим заведомо более высокий уровень качества.

Во время разметки данных, вряд ли удасться привлечь целую команду квалифицированных врачей к изучению каждого рентгеновского снимка, поскольку их время дорого стоит. Возможно, разумнее нанять одного начинающего врача для подавляющего большинства снимков и только для самых сложных случаев привлекать опытного доктора или команду специалистов.

Если ваша система в настоящее время имеет ошибку 40%, то не имеет большого значения, используете ли вы начинающего специалиста (ошибка 10%) или опытного врача (ошибка 5%) для разметки данных и для получения идей по улучшению качества работы алгоритма. Но если ошибка вашей системы уже ниже 10%, то человеческий уровень качества, соответствующий 2% ошибок, дает вам уверенность в возможности дальнейшего совершенствования вашей системы.

35. Преодоление уровня качества, доступного человеку

Допустим вы работаете над проблемой распознавания речи и используете выборку аудиоклипов. Предположим в вашем наборе много настолько зашумленных клипов, что даже человек допускает 10% ошибок. Представим, что при этом ваша автоматическая система ошибается только в 8% случаев. Можно ли в этом случае использовать какой-либо из методов, описанных в 33 главе для ускорения дальнейшего прогресса в работе над приложением?

Если можно найти подвыборку, состоящую из примеров, в которых люди существенно превосходят качество системы, то все еще можно использовать описанные выше подходы для ускорения прогресса при разработке системы. Например, предположим, что ваша система много лучше человека распознает речь в зашумленных аудиороликах, но при этом люди все же существенно превосходят ее возможности при распознавании очень быстро произносимых фраз.

Для подвыборки, состоящей из роликов с быстрой речью:

По прежнему можно добывать человеческие расшифровки клипов, которые имеют более высокое качество, чем качество алгоритма
Можно использовать объяснения человека, чтобы понять, что ему помогает правильно распознавать быстро произносимые фразы и чего не хватает системе для решения этой задачи
Можно использовать уровень качества человека на быстро произносимых фразах для задания «желаемого уровня качества системы» в качестве цели работы алгоритма на таких примерах.

В общем случае, до тех пор, пока в тренировочной и валидационной выборках есть примеры, на которых человеку удается достигать более высокого качества решения задачи, чем у алгоритма, описанные методы могут быть полезными. Это верно даже в том случае, когда по всей тренировочной или валидационной выборке среднее качество алгоритма выше, чем качество, доступное человеку.

Есть много важных приложений на базе машинного обучения, в которых алгоритмы превосходят человека. Например, машины умеют лучше предсказывать рейтинги фильмов, время поездки на автомобиле, возврат кредита. В тех случаях, когда людям трудно найти примеры, в которых алгоритм явно ошибается, можно применить только ограниченное количество методов, позволяющих улучшить качество. Следовательно, при работе над системой уже превзошедшей человека, прогресс обычно продвигается медленнее, чем в случаях, когда алгоритмам еще только предстоит достигнуть человеческого уровня.

продолжение

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 34 и 35

34. Как определить уровень качества, доступный человеку

35. Преодоление уровня качества, доступного человеку

Публикации