BlackSN Jul 30 2022 at 13:51

Метод K-Nearest Neighbors. Разбор без использования бибилотек и с использованием бибилиотек

11 min

42K

Machine learning*

From sandbox

Comments 5

Pochemuk Jul 30 2022 at 17:32

На самом деле у совершенно бесполезной модели доля правильных предсказаний может быть гораздо выше нуля.

Например, используем в качестве модели бросание монетки (для предсказания двух возможных исходов). В этом случае доля правильных предсказаний составит 0,5. Но радости от этого — никакой.

IvaYan Jul 30 2022 at 17:44

Аналогично, если у нас в датасете объектов класса "0" очень мало, скажем, 10%, а объектов класса "1" -- 90% то модель может всегда говорить, что ответ -- "1" и получить долю правильных ответов 0.9. Только задача всё равно не решена.

Pochemuk Jul 30 2022 at 18:19

Все так, но с некоторым уточнением:

Возможно, накладные расходы от создания и эксплуатации более точной модели превысят цену ошибки от игнорирования класса «1».

Если Вы играете в преферанс, то знаете, что практически всегда на расклад козырей у противников 4:0 не закладываются:

Во-первых, это достаточно маловероятно, чтобы все четыре козыря были у одного противника, а у другого козырей не было совсем.
Во-вторых, существуют другие факторы, способные нивелировать даже такой неудачный расклад.
В-третьих, это просто экономически не выгодно.

Поэтому новичков учат: 4:0 не бывает. А немного научившись играть, они сами понимают, в каких случаях на это, все-таки, следует закладываться.

IvaYan Jul 31 2022 at 10:15

Практика показывает, что чаще всего наоборот. Эти мизерные 10% имеют очень серьезные последствия и всё затевалось как раз ради этих 10%. Простой пример -- определение наличия какой-нибудь редкой, но серьезной болезни. Подавляющее большинство тех кто сдаёт анализ здоровы, но цель как раз в том, чтобы отловить одного из многих, кому не повезло. Или другой пример -- поиск банковского мошенничества. Подавляющему большинству клиентов и в голову не придется пытаться обмануть банк. Но все будет кто-то, кто будет это делать. Но хотя таких мошенников единицы, ущерб от их действий может быть огромным.

Wundarshular Aug 1 2022 at 07:29

https://ai-news.ru/2022/07/metod_k_nearest_neighbors_razbor_bez_ispolzovaniya_bibilotek_i_s.html

https://colab.research.google.com/drive/1KunpzfHJqAnf7ThPZcprdRrYi7qRSG5k

А вы сразу в нескольких местах публикуетесь?..