Обновить
0
0
Вадим Бондаренко@IT_Crow

Пользователь

Отправить сообщение

Экстраполяция на основе простого визуального осмотра данных может привести к неверным выводам и ошибочным прогнозам)
Чтобы разобраться в реальных взаимосвязях между факторами, нужно использовать более точные методы анализа, такие как регрессионный анализ. Важно помнить, что экономические данные всегда подвержены влиянию множества факторов, и если не учитывать все эти нюансы, можно прийти к ошибочным заключениям. Например, процентная ставка может влиять на инфляцию, но не только напрямую — есть ещё другие экономические механизмы. Поэтому, чтобы сделать точные прогнозы, нужно использовать более сложные методы, которые помогут правильно интерпретировать данные и учесть все важные факторы.

Я действительно проводил кластеризацию только по стоимости, с целью выделения ценовых сегментов на рынке недвижимости. Пересечение ценовых диапазонов между сегментами — это нормальное явление, которое может возникать в реальных данных, особенно на таком сложном рынке, как рынок недвижимости, где множество факторов может влиять на цену. Это пересечение показывает, что границы между ценовыми сегментами не всегда могут быть чёткими, и это вполне отражает специфику рынка.

Данные о зарплатах можно собирать из различных источников. Росстат регулярно публикует статистику по средним зарплатам в регионах и отраслях, что полезно для общего анализа. Ещё один способ, это использование API hh.ru, которое позволяет собирать данные о вакансиях, включая зарплатные вилки для разных должностей. Конечно, такой подход потребует больше времени и ресурсов, но результат будет стоить усилий.

А как же без этого?) Уровень зарплат уже в процессе анализа.

Понимаю, почему у вас могло возникнуть такое впечатление — стиль статьи действительно напоминает классическую структуру: задача, методы, результаты, выводы. Но цель была не «пиариться», а поделиться результатами анализа, которые, на мой взгляд, могут быть полезны для понимания структуры цен на рынке недвижимости.

Эта статья была нацелена на демонстрацию результатов исследования, а не на практическую часть с кодом. Моя цель заключалась в том, чтобы показать подход, логику анализа и интерпретацию результатов, сохраняя текст доступным для широкой аудитории.

Если вас интересуют технические детали или примеры кода, я готов поделиться ими отдельно. Возможно, стоит опубликовать дополнительный материал с подробным разбором шагов, включая код и обработку данных. Если это будет интересно читателям, я с удовольствием это сделаю!

Вы правы, площадь — это один из ключевых факторов, влияющих на стоимость недвижимости. Однако задача, поставленная в этом анализе, отличалась от прогнозирования цены.

Моя цель была в том, чтобы выделить ценовые сегменты (кластеры), опираясь только на стоимость. Это позволило выявить основные группы объектов, отражающие структуру рынка. После проведения кластерного анализа я действительно изучал дополнительные переменные (площадь, этаж, район и т.д.) через корреляционный анализ, чтобы лучше понять природу полученных кластеров. Однако результаты этого этапа не вошли в данную статью, чтобы не перегружать её.

Разбиение по площади, которое вы предлагаете, — это интересный подход, особенно если целью было бы углубить сегментацию. Однако в моём случае изначальное разделение только по стоимости было продиктовано желанием исследовать ценовые категории, не привязываясь к другим характеристикам.

Что касается нейронных сетей: согласен, их применение для прогнозирования цены может быть избыточным, если доминирующий фактор, такой как площадь, уже покрывается линейной моделью. Но здесь задача была другой — изучить распределение цен, а не делать предсказания.

Спасибо за ваш комментарий!

Вы правы, метод "локтя" (elbow method) действительно имеет свои ограничения. Он основан на визуальной интерпретации графика, что делает его менее точным по сравнению с другими методами.
Однако в рамках данной задачи он был выбран по нескольким причинам:
Во-первых, простота и наглядность. Метод "локтя" подходит для предварительного анализа, так как его результаты легко интерпретировать даже для аудитории, не знакомой с машинным обучением.
Во-вторых, характер данных. Для сегментации цен на вторичное жильё в Липецке график явно демонстрировал оптимальное число кластеров, что сделало его использование оправданным в этом контексте.

Если у вас есть предложения по альтернативным методам (например, анализ "gap statistics" или использование оценки "Davies-Bouldin index"), буду рад услышать ваше мнение!

Спасибо за ваше внимание к статье и за желание уточнить детали. Однако ваш комментарий, похоже, основывается на недопонимании цели статьи.

Основная задача, описанная в статье, — анализ структуры цен на вторичное жильё в Липецке с помощью кластеризации. Это позволяет выделить ценовые сегменты, которые могут быть полезны как для конечных покупателей, так и для участников рынка недвижимости.

Да, я не ставил задачу ответа на конкретный "бизнес-вопрос" — потому что целью исследования было выявление закономерностей в данных. Такой подход часто используется на этапах предварительного анализа (EDA, exploratory data analysis), чтобы лучше понять структуру и особенности рынка.

Если говорить о применимости результатов, то данный анализ помогает определить, какие ценовые сегменты существуют в городе.

Если у вас есть идеи, как дополнить или расширить анализ, я буду рад услышать их. Однако голословные обвинения вроде "на никакой" только затрудняют конструктивное обсуждение.

Информация

В рейтинге
Не участвует
Откуда
Липецк, Липецкая обл., Россия
Зарегистрирован
Активность

Специализация

Бизнес-аналитик, Аналитик по данным
Git
Python
PostgreSQL
Базы данных
Алгоритмы и структуры данных
Прикладная математика
Большие данные
Математика
Машинное обучение
Математическое моделирование