Information
- Rating
- Does not participate
- Location
- Липецк, Липецкая обл., Россия
- Registered
- Activity
Specialization
Business Analyst, Data Analyst
Git
Python
PostgreSQL
Database
Algorithms and data structures
Applied math
Big data
Maths
Machine learning
Math modeling
Экстраполяция на основе простого визуального осмотра данных может привести к неверным выводам и ошибочным прогнозам)
Чтобы разобраться в реальных взаимосвязях между факторами, нужно использовать более точные методы анализа, такие как регрессионный анализ. Важно помнить, что экономические данные всегда подвержены влиянию множества факторов, и если не учитывать все эти нюансы, можно прийти к ошибочным заключениям. Например, процентная ставка может влиять на инфляцию, но не только напрямую — есть ещё другие экономические механизмы. Поэтому, чтобы сделать точные прогнозы, нужно использовать более сложные методы, которые помогут правильно интерпретировать данные и учесть все важные факторы.
Я действительно проводил кластеризацию только по стоимости, с целью выделения ценовых сегментов на рынке недвижимости. Пересечение ценовых диапазонов между сегментами — это нормальное явление, которое может возникать в реальных данных, особенно на таком сложном рынке, как рынок недвижимости, где множество факторов может влиять на цену. Это пересечение показывает, что границы между ценовыми сегментами не всегда могут быть чёткими, и это вполне отражает специфику рынка.
Данные о зарплатах можно собирать из различных источников. Росстат регулярно публикует статистику по средним зарплатам в регионах и отраслях, что полезно для общего анализа. Ещё один способ, это использование API hh.ru, которое позволяет собирать данные о вакансиях, включая зарплатные вилки для разных должностей. Конечно, такой подход потребует больше времени и ресурсов, но результат будет стоить усилий.
А как же без этого?) Уровень зарплат уже в процессе анализа.
Понимаю, почему у вас могло возникнуть такое впечатление — стиль статьи действительно напоминает классическую структуру: задача, методы, результаты, выводы. Но цель была не «пиариться», а поделиться результатами анализа, которые, на мой взгляд, могут быть полезны для понимания структуры цен на рынке недвижимости.
Эта статья была нацелена на демонстрацию результатов исследования, а не на практическую часть с кодом. Моя цель заключалась в том, чтобы показать подход, логику анализа и интерпретацию результатов, сохраняя текст доступным для широкой аудитории.
Если вас интересуют технические детали или примеры кода, я готов поделиться ими отдельно. Возможно, стоит опубликовать дополнительный материал с подробным разбором шагов, включая код и обработку данных. Если это будет интересно читателям, я с удовольствием это сделаю!
Вы правы, площадь — это один из ключевых факторов, влияющих на стоимость недвижимости. Однако задача, поставленная в этом анализе, отличалась от прогнозирования цены.
Моя цель была в том, чтобы выделить ценовые сегменты (кластеры), опираясь только на стоимость. Это позволило выявить основные группы объектов, отражающие структуру рынка. После проведения кластерного анализа я действительно изучал дополнительные переменные (площадь, этаж, район и т.д.) через корреляционный анализ, чтобы лучше понять природу полученных кластеров. Однако результаты этого этапа не вошли в данную статью, чтобы не перегружать её.
Разбиение по площади, которое вы предлагаете, — это интересный подход, особенно если целью было бы углубить сегментацию. Однако в моём случае изначальное разделение только по стоимости было продиктовано желанием исследовать ценовые категории, не привязываясь к другим характеристикам.
Что касается нейронных сетей: согласен, их применение для прогнозирования цены может быть избыточным, если доминирующий фактор, такой как площадь, уже покрывается линейной моделью. Но здесь задача была другой — изучить распределение цен, а не делать предсказания.
Спасибо за ваш комментарий!
Вы правы, метод "локтя" (elbow method) действительно имеет свои ограничения. Он основан на визуальной интерпретации графика, что делает его менее точным по сравнению с другими методами.
Однако в рамках данной задачи он был выбран по нескольким причинам:
Во-первых, простота и наглядность. Метод "локтя" подходит для предварительного анализа, так как его результаты легко интерпретировать даже для аудитории, не знакомой с машинным обучением.
Во-вторых, характер данных. Для сегментации цен на вторичное жильё в Липецке график явно демонстрировал оптимальное число кластеров, что сделало его использование оправданным в этом контексте.
Если у вас есть предложения по альтернативным методам (например, анализ "gap statistics" или использование оценки "Davies-Bouldin index"), буду рад услышать ваше мнение!
Спасибо за ваше внимание к статье и за желание уточнить детали. Однако ваш комментарий, похоже, основывается на недопонимании цели статьи.
Основная задача, описанная в статье, — анализ структуры цен на вторичное жильё в Липецке с помощью кластеризации. Это позволяет выделить ценовые сегменты, которые могут быть полезны как для конечных покупателей, так и для участников рынка недвижимости.
Да, я не ставил задачу ответа на конкретный "бизнес-вопрос" — потому что целью исследования было выявление закономерностей в данных. Такой подход часто используется на этапах предварительного анализа (EDA, exploratory data analysis), чтобы лучше понять структуру и особенности рынка.
Если говорить о применимости результатов, то данный анализ помогает определить, какие ценовые сегменты существуют в городе.
Если у вас есть идеи, как дополнить или расширить анализ, я буду рад услышать их. Однако голословные обвинения вроде "на никакой" только затрудняют конструктивное обсуждение.