Pull to refresh

Comments 10

Впечатляюще!


Даже самому захотелось исследований на свою голову, решил проверить, насколько у них отличаются цены от цен в СПб — взял диаграмму где цена за sqft, прикинул что большинство это 200 (думаю долларов) и, оказывается, это примерно 2000 за метр, что даже дешевле большинства вариантов в СПб.


Жду статью "Как перестать кричать, если вы Data Scientist"

Статья готова :)

  1. Это не СПб - это небольшой город на 600к населения.

  2. Это не город, а пригород в 30км от города.

  3. Цена за площадь в доме всегда относительно ниже квартиры.

  4. При этом стоимость содержания выше. Сколько оно там - не знаю, но думаю, налоги и коммуналка "съедят" немало.

  5. Ну и строительство там совсем другое - климат позволяет делать стены более картонными.

Что-то как-то не очень.

Такая модель может быть как-то использована исключительно этой авторшой и больше никем, ибо у других людей будут другие предпочтения, ну ок, на себя любимого время тратить не жалко, был-бы результат.

Но даже если делать для себя, полученная модель весьма неочень, согласно ей, жить подальше от каких-нибудь парков автору важнее чем жить поближе к работе, или иметь более дешевый дом! Хотя вручную она расставила приоритеты совсем по-другому. В таком случае получается, что отбирая 50 лучших домов, автор на самом деле использовала какие-то другие критерии, которых просто нет в списке. Может ей нравилась отделка на фото, или ухоженность территории, или еще что. Хотя, вероятнее всего она ориентировалась на какую-то определенную территорию, где, например, ее друзья живут, оттого и такая большая важность иметь побольше баров и поменьше парков и относительная неважность как цены, так и времени/растояния от офиса: просто так получилось, что на этой ее любимой территории нет парков, много баров, а расстояние до работы чуть ближе среднего.

Я бы такого датасайнтиста нанимать точно не стал.

Спасибо! Idealista дает смешное апи с ограничениями, fotocasa не видел, буду изучать.

Понял что не так со всеми попытками купить лучшую недооцененную машину или дом.

Для анализа используются статистические методы, но статистика работает только с большим количеством данных, а не с одиночными уникальными случаями. Если вы пытаетесь найти и купить самый выгодный дом, то вы априори имеет дело с выбросами. Которые все стат методы требуют... удалять, а не анализировать.

Если вы покупаете и продаете сотню домов в месяц, то это все выравняется. Но если вам нужен один дом для жизни - то ситуация совсем другая.

Если вы пытаетесь найти и купить самый выгодный дом, то вы априори имеет дело с выбросами.


Это неверное суждение. Выбросы на то и выбросы, что там просто зачастую ошибка в данных — например дополнительный ноль в цене, или объект настолько низкого качества, что кроме как сносу он не подлежит. Либо неверная классификация объекта (частный дом выставлен как квартира) — отсюда абсолютное несоответствие цены объекта его реальным данным.

Вы правы в том плане, что найти и купить выбросы — практически нереальная задача для рядового покупателя. Такие вещи продаются либо по очень хорошим связям большому капиталу (например как транш недвижимости — несколько объектов сразу, со скидкой), либо из рук в руки по льготной цене, например родственник продает детям или внукам недвижимость. Здесь вы вообще не участвуете в гонке за объект — вам закрыт туда доступ.

Поэтому для того, что доступо на публичных сервисах есть смысл фильтровать данные именно так как написано в статье. Потому что те выбросы о которых вы упомянаете — их там не будет изначально.

Для масштабирования к [0,1] есть спец. термин - нормирование. Далее по конспекту, и идет перед корреляцией.

А если вы не Data Scientist, то есть готовые сервисы, которые делают тоже самое.

Sign up to leave a comment.