Comments 9
Бессмысленное занятие. Обучать модель на мусорных данных (то что видите в объявлении. Зачастую 2 похожие квартиры в одном и том же доме выставляются по полуторной разнице). Плясать нужно от реальной суммы сделки. ИМХО, такая инфа есть только у домклик'а.
Либо у аккредитованных компаний, которые выполняют оценку недвижимости для ипотечного кредитования. Как SRG, например. У них такая ML модель была ещё шесть лет назад.
На Kaggle все эти чудо-прайсеры уже на простых бустингах практически не дают ошибок (в пределах 1%)
В решениях, в ноутбуках где "простые бустинги практически не дают ошибок", видно применение внешнего (дополнительного) датасета с реальной ценой недвижки, отсюда и почти 0% ошибка. Пример https://www.kaggle.com/code/nitindantu/100-accurate
В этой сореве без читеринга скор будет где то ~ 10000 - 13000 (MAE)
Я так понимаю, если я указываю данные своей квартиры, то речь о ценах на вторичку? В таком случае, цена моей вторичной квартиры выше, чем актуальная цена на первичку от застройщика (ещё не проданная квартира прям под нами). Если так работают МЛ, то я перестаю переживать о том, что в ближайшее время потеряю работу. Но возникает другой вопрос: если в основе ваших решений лежит avg(price)
, то почему/зачем вы так д№№№чите алгоритмы на собеседованиях?
Смысл "больших данных" в том, что некоторые девиации цены не должны портить общей картины, где в среднем рынок цену справедливо порешал.
а тут применим термин "большие данные"? Ценам в Екб фиолетово на цены в Мск, ценам в Нск фиолетово на цены в Калининграде
в среднем рынок цену справедливо порешал
Я всегда считал, что рынок и есть тот судья, который решает какая цена справедливая, а какая нет. Т.е. рынок априори не может порешать несправедливо
Показывает "среднее по рынку", как и многие другие сервисы, ничего выдающегося. Но это хороший способ собирать данные, по факту пользователи сами базу наполняют
В «Яндекс Недвижимости» появился ML‑калькулятор для расчёта стоимости жилья