Comments 5
Например, используем в качестве модели бросание монетки (для предсказания двух возможных исходов). В этом случае доля правильных предсказаний составит 0,5. Но радости от этого — никакой.
Аналогично, если у нас в датасете объектов класса "0" очень мало, скажем, 10%, а объектов класса "1" -- 90% то модель может всегда говорить, что ответ -- "1" и получить долю правильных ответов 0.9. Только задача всё равно не решена.
Возможно, накладные расходы от создания и эксплуатации более точной модели превысят цену ошибки от игнорирования класса «1».
Если Вы играете в преферанс, то знаете, что практически всегда на расклад козырей у противников 4:0 не закладываются:
Во-первых, это достаточно маловероятно, чтобы все четыре козыря были у одного противника, а у другого козырей не было совсем.
Во-вторых, существуют другие факторы, способные нивелировать даже такой неудачный расклад.
В-третьих, это просто экономически не выгодно.
Поэтому новичков учат: 4:0 не бывает. А немного научившись играть, они сами понимают, в каких случаях на это, все-таки, следует закладываться.
Практика показывает, что чаще всего наоборот. Эти мизерные 10% имеют очень серьезные последствия и всё затевалось как раз ради этих 10%. Простой пример -- определение наличия какой-нибудь редкой, но серьезной болезни. Подавляющее большинство тех кто сдаёт анализ здоровы, но цель как раз в том, чтобы отловить одного из многих, кому не повезло. Или другой пример -- поиск банковского мошенничества. Подавляющему большинству клиентов и в голову не придется пытаться обмануть банк. Но все будет кто-то, кто будет это делать. Но хотя таких мошенников единицы, ущерб от их действий может быть огромным.
https://ai-news.ru/2022/07/metod_k_nearest_neighbors_razbor_bez_ispolzovaniya_bibilotek_i_s.html
https://colab.research.google.com/drive/1KunpzfHJqAnf7ThPZcprdRrYi7qRSG5k
А вы сразу в нескольких местах публикуетесь?..
Метод K-Nearest Neighbors. Разбор без использования бибилотек и с использованием бибилиотек