Комментарии 24
Что-то у Вас не сходится… Какие-то толстые карлики или дети…
Что-то никак не могу въехать в логику попытки предсказывать вес по росту на таких данных, так как вес помимо роста, зависит от множества других факторов, и по сути результат будет просто усредненный по выборке, для данного пола и роста. С таким же успехом можно курс доллара по прогнозу погоды предсказывать.
Если от нефиг делать — то интереснее было бы рассмотреть корреляцию с ИМТ
Интересный у вас подход к выбору модели и её обучения: ну… к-средних где-то там используется для регрессии, поэтому используем его… с какими-то рандомными параметрами обучения.
И не забываем про гениальные результаты: много рандомных точек (без доверительных окрестностей!!!) на плоскости, зачем-то соединённых линиями (чтобы хоть какой-то график был). И 1/3 угаданных весов.
Ради интереса конечно круто, но я бы улучшил это всё 1)ядерной оценкой с какими-нибудь 2)усами или интервалами, 3)обосновал выбор модели или хотя бы построил несколько моделей, 4)построил прямую/дугу регрессии с доверительными областями вместо двух рандомных ломанных и 5) убрал бы бесполезные первые 10 строк датасета.
Средняя женщина какая-то тяжеловатая выходит
То, что описано в посте — не таинственное машинное обучение, а самая что ни на есть мужицкая Математическая Статистика из четвёртого семестра тех. вуза ;)
Непонятно, зачем в самом конце статьи начинать тыкать пальцем в небо и что-то подгонять с k=1,3,5,..., когда можно использовать какой-нибудь крутой алгоритм аппроксимации функции (из курса Численных Методов третьего семестра) с потенциально наименьшей ошибкой. А если предположить, что средние вес и рост на нашей отрезке зависят линейно, то использовать линейную регрессию, приводя функцию к прямой.
Датасет наверное либо старый на несколько десятилетий, либо про подростков — часто вижу вокруг себя людей ростом 185-190, но по графику, мои наблюдения крайне маловероятны.
Ставь лайк, если попал в 99.7% интервала автор хитрец!
Почему не 100%?
Рост. Вес. Три соседа