Comments 15
Автор, вам не приходило в голову, что прежде чем решать задачу, её нужно сформулировать? Ответ на какой бизнес-вопрос вы пытались найти? Подозреваю, что на никакой
Может вся статья - это результат этого самого "машинного обучения"?
Спасибо за ваше внимание к статье и за желание уточнить детали. Однако ваш комментарий, похоже, основывается на недопонимании цели статьи.
Основная задача, описанная в статье, — анализ структуры цен на вторичное жильё в Липецке с помощью кластеризации. Это позволяет выделить ценовые сегменты, которые могут быть полезны как для конечных покупателей, так и для участников рынка недвижимости.
Да, я не ставил задачу ответа на конкретный "бизнес-вопрос" — потому что целью исследования было выявление закономерностей в данных. Такой подход часто используется на этапах предварительного анализа (EDA, exploratory data analysis), чтобы лучше понять структуру и особенности рынка.
Если говорить о применимости результатов, то данный анализ помогает определить, какие ценовые сегменты существуют в городе.
Если у вас есть идеи, как дополнить или расширить анализ, я буду рад услышать их. Однако голословные обвинения вроде "на никакой" только затрудняют конструктивное обсуждение.
Если вы пытаетесь найти ценовые сегменты, то смотрите только на цену. Зачем вам другие параметры? Когда вы получили результаты "ценового сегментирования", вас не смутило, что ваши сегменты совершенно негоммогенны по цене? А то, что все сегменты пересекаются по цене не смутило? Какая вообще интерпретация может быть у ваших сегментов?
Я действительно проводил кластеризацию только по стоимости, с целью выделения ценовых сегментов на рынке недвижимости. Пересечение ценовых диапазонов между сегментами — это нормальное явление, которое может возникать в реальных данных, особенно на таком сложном рынке, как рынок недвижимости, где множество факторов может влиять на цену. Это пересечение показывает, что границы между ценовыми сегментами не всегда могут быть чёткими, и это вполне отражает специфику рынка.
Спасибо за ваш комментарий!
Вы правы, метод "локтя" (elbow method) действительно имеет свои ограничения. Он основан на визуальной интерпретации графика, что делает его менее точным по сравнению с другими методами.
Однако в рамках данной задачи он был выбран по нескольким причинам:
Во-первых, простота и наглядность. Метод "локтя" подходит для предварительного анализа, так как его результаты легко интерпретировать даже для аудитории, не знакомой с машинным обучением.
Во-вторых, характер данных. Для сегментации цен на вторичное жильё в Липецке график явно демонстрировал оптимальное число кластеров, что сделало его использование оправданным в этом контексте.
Если у вас есть предложения по альтернативным методам (например, анализ "gap statistics" или использование оценки "Davies-Bouldin index"), буду рад услышать ваше мнение!
Почему вы примеры кода не показали ?
Эта статья была нацелена на демонстрацию результатов исследования, а не на практическую часть с кодом. Моя цель заключалась в том, чтобы показать подход, логику анализа и интерпретацию результатов, сохраняя текст доступным для широкой аудитории.
Если вас интересуют технические детали или примеры кода, я готов поделиться ими отдельно. Возможно, стоит опубликовать дополнительный материал с подробным разбором шагов, включая код и обработку данных. Если это будет интересно читателям, я с удовольствием это сделаю!
Какойто пиар курсовой работы
Понимаю, почему у вас могло возникнуть такое впечатление — стиль статьи действительно напоминает классическую структуру: задача, методы, результаты, выводы. Но цель была не «пиариться», а поделиться результатами анализа, которые, на мой взгляд, могут быть полезны для понимания структуры цен на рынке недвижимости.
Лет 6-8 назад тоже увлекался нейронными сетями для оценки недвижимости и прогнозирования её стоимости на примере г. Барнаула, там модель нейроимитатора сложнее была, т.е. отдельно рассматривались нейронные сети по типу недвижимости, площади, этажу, типу стен, расположению в городе, которые и давали итоговую оценку для новых объектов
Скажу одно, стоимость недвижимости всегда зависит в основном от площади, поэтому целесообразно сначала разбить выборку на кластеры по площади (студии, 1-комнатные, 2-комнатные и т.д.), а потом уже работать с нейронными сетями в каждом кластере
Ну и вообще там уравнение линейной регрессии по площади будет примерно на 90% обеспечивать достоверный расчет, возможно, нет смысла с нейронными сетями вообще возиться
Даже пару скринов нашел...


Вы правы, площадь — это один из ключевых факторов, влияющих на стоимость недвижимости. Однако задача, поставленная в этом анализе, отличалась от прогнозирования цены.
Моя цель была в том, чтобы выделить ценовые сегменты (кластеры), опираясь только на стоимость. Это позволило выявить основные группы объектов, отражающие структуру рынка. После проведения кластерного анализа я действительно изучал дополнительные переменные (площадь, этаж, район и т.д.) через корреляционный анализ, чтобы лучше понять природу полученных кластеров. Однако результаты этого этапа не вошли в данную статью, чтобы не перегружать её.
Разбиение по площади, которое вы предлагаете, — это интересный подход, особенно если целью было бы углубить сегментацию. Однако в моём случае изначальное разделение только по стоимости было продиктовано желанием исследовать ценовые категории, не привязываясь к другим характеристикам.
Что касается нейронных сетей: согласен, их применение для прогнозирования цены может быть избыточным, если доминирующий фактор, такой как площадь, уже покрывается линейной моделью. Но здесь задача была другой — изучить распределение цен, а не делать предсказания.
Или даже посчитать стоимость квадратного метра, а потом уже по этой стоимости кластеризовать.
Применение методов машинного обучения для анализа цен на вторичное жильё в Липецке