Я с Вами концептуально согласен, но есть пара моментов:
На более ранних курсах у них идет математика в разных ипостасях, с которой пока LLM-ки не особо дружат.
Моя же задача не наказать и запретить пользоваться LLM, моя задача - идентифицировать (и наказать) случаи, когда LLM используется не вместе с мозгом, а вместо него; если кто-то из студентом отшлифует свой навык пользования LLM настолько, что сможет выполнять все задания с помощью AI, при этом полностью понимая и осознавая что происходит - да пожалуйста
Спасибо за комментарии и замечания. Я попробовал в черновике начать про идеи - но получалось очень много, и я решил в заметке не писать. Но внушение принято и понято, будем исправляться дальше.
Формально, задачи все-таки разные. Вы, как я понял, говорите про временные ряды. Для них задачи определения скачка, точек излома тренда и т.д. решаются по-другому. Тут все-таки рассматривается не временной ряд, плюс у вас своя практическая специфика. Нельзя знать совсем все методы и приемы во всех областях знания. Поэтому - не бейте пианиста, он играет как умеет.
Добрый день, Виктор. Что касается ностальгии по последней картинке - это результат симбиоза PrintScreen и Point. Насчет же функционального применения - любая область, в которой вам нужно проверить наличие многомерного нормального распределения. Как правило, в предобработке данных, поскольку некоторые методы анализа в качестве условия требуют именно это условие.
В моем условном примере - явный. А, например, в статье, там где модель mod_3, верхняя строчка (соответствующая tau = 0.1) - это модель регрессии для значения, отсекающего 10 % самых низких зарплат, а нижняя строчка (соответствующая tau = 0.9) - это модель регрессии для значения, отсекающего 10 % самых высоких зарплат
В целом, он позволяет моделировать зависимые переменные со сложным / меняющимся распределением. Условно, при х = 10 зависимая переменная распределена нормально, при х = 20 - экспоненциально. Если вас интересуют конкретные примеры, то укажите конкретную отрасль, чтобы говорить более предметно
Вы все правильно понимаете. Метод называется "регрессией", но фактически в нем применяется интерполяция. Или можно назвать это сглаженной непараметрической регрессией - но оставим название на совести авторов.
Я также не буду спорить с тем, что логистическая регрессия дает меньше ошибок - я вам охотно верю
Я просто рассказал о методе, который иногда применяется при решении какого-то класса задач. Иногда он может быть полезным, иногда - нет.
По первому вопросу - да, по мне так, лучше записать общую формулу. По второму вопросу - я говорил конкретно про число столбцов на гистограмме. Обычно результат подгонки зависит от него. Но в любом случае, для вашей задачи, как мне кажется, можно и чуть иной подход попробовать. Посмотрите вот эту статью, метод, описанный в ней, должен работать и для смеси распределений, и должен давать относительно стабильные оценки https://tinyheero.github.io/2016/01/03/gmm-em.html
А если попробовать не разбирать распределения на части, а так и считать, что исходное распределение - сумма цензурированного нормального и экспоненциального? И, ради интереса, а результаты стат. тестов сильно зависят от количества интервалов?
Да. Я не проверял внутренности каждой модели на предмет наличия статистически незначимых переменных, это раз, и не смотрел пока результаты применения других оценщиков, это два, но это частности. На ваш вопрос ответ пока - да.
Моя мысль в выделенной Вами цитате — это то, что сначала придется придется применять какой-то метод для идентификации выбросов, а потом уже «делать кластеризацию».
Это не особо удобно.
А итеративность EM-метода, собственно, очень удобна для решения этой задачи одним методом, одним алгоритмом. Про это и рассказ
С одной стороны, вы правы. Есть возможность перекодировать любую порядковую переменную в числовую и применять обычный метод k-средних, например. С другой стороны, всегда возникают вопросы к схеме перекодировки. То есть, почему именно 0 и 1? А не 0 и 100? Потому что так принято? Такое себе объяснение. К тому же, при перекодировке в 0 и 1 у вас может получиться одно разбиение, а при перекодировке в 0 и 100 — другая. А что делать с переменными, у которых больше чем одно значение? Как тогда им сопоставлять числовые значения и на каком основании?
Кроме того, авторы этого подхода утверждают, что их алгоритм более эффективен (и в вычислительном смысле, и в плане решения задачи), чем метод k-средних в случае перекодировки категориальных переменных в числовые.
Можем посмотреть, кстати — сгенерировать искусственный датасет с уже известными метками классов и попробовать сравнить эффективность подходов
Я с Вами концептуально согласен, но есть пара моментов:
На более ранних курсах у них идет математика в разных ипостасях, с которой пока LLM-ки не особо дружат.
Моя же задача не наказать и запретить пользоваться LLM, моя задача - идентифицировать (и наказать) случаи, когда LLM используется не вместе с мозгом, а вместо него; если кто-то из студентом отшлифует свой навык пользования LLM настолько, что сможет выполнять все задания с помощью AI, при этом полностью понимая и осознавая что происходит - да пожалуйста
Спасибо за замечание! Поправил
Похоже, что да. По крайней мере, для коэффициента корреляции в статье была предложена именно такая процедура.
Спасибо за комментарии и замечания. Я попробовал в черновике начать про идеи - но получалось очень много, и я решил в заметке не писать. Но внушение принято и понято, будем исправляться дальше.
Формально, задачи все-таки разные. Вы, как я понял, говорите про временные ряды. Для них задачи определения скачка, точек излома тренда и т.д. решаются по-другому. Тут все-таки рассматривается не временной ряд, плюс у вас своя практическая специфика. Нельзя знать совсем все методы и приемы во всех областях знания. Поэтому - не бейте пианиста, он играет как умеет.
Он в открытом доступе. Он скачивается и устанавливается в R обычным путем
Добрый день, Виктор. Что касается ностальгии по последней картинке - это результат симбиоза PrintScreen и Point. Насчет же функционального применения - любая область, в которой вам нужно проверить наличие многомерного нормального распределения. Как правило, в предобработке данных, поскольку некоторые методы анализа в качестве условия требуют именно это условие.
В моем условном примере - явный. А, например, в статье, там где модель mod_3, верхняя строчка (соответствующая tau = 0.1) - это модель регрессии для значения, отсекающего 10 % самых низких зарплат, а нижняя строчка (соответствующая tau = 0.9) - это модель регрессии для значения, отсекающего 10 % самых высоких зарплат
В целом, он позволяет моделировать зависимые переменные со сложным / меняющимся распределением. Условно, при х = 10 зависимая переменная распределена нормально, при х = 20 - экспоненциально. Если вас интересуют конкретные примеры, то укажите конкретную отрасль, чтобы говорить более предметно
Вы все правильно понимаете. Метод называется "регрессией", но фактически в нем применяется интерполяция. Или можно назвать это сглаженной непараметрической регрессией - но оставим название на совести авторов.
Я также не буду спорить с тем, что логистическая регрессия дает меньше ошибок - я вам охотно верю
Я просто рассказал о методе, который иногда применяется при решении какого-то класса задач. Иногда он может быть полезным, иногда - нет.
По первому вопросу - да, по мне так, лучше записать общую формулу. По второму вопросу - я говорил конкретно про число столбцов на гистограмме. Обычно результат подгонки зависит от него. Но в любом случае, для вашей задачи, как мне кажется, можно и чуть иной подход попробовать. Посмотрите вот эту статью, метод, описанный в ней, должен работать и для смеси распределений, и должен давать относительно стабильные оценки https://tinyheero.github.io/2016/01/03/gmm-em.html
А если попробовать не разбирать распределения на части, а так и считать, что исходное распределение - сумма цензурированного нормального и экспоненциального? И, ради интереса, а результаты стат. тестов сильно зависят от количества интервалов?
Спасибо на добром слове, Вам тоже успехов.
Да. Я не проверял внутренности каждой модели на предмет наличия статистически незначимых переменных, это раз, и не смотрел пока результаты применения других оценщиков, это два, но это частности. На ваш вопрос ответ пока - да.
Это не особо удобно.
А итеративность EM-метода, собственно, очень удобна для решения этой задачи одним методом, одним алгоритмом. Про это и рассказ
Кроме того, авторы этого подхода утверждают, что их алгоритм более эффективен (и в вычислительном смысле, и в плане решения задачи), чем метод k-средних в случае перекодировки категориальных переменных в числовые.
Можем посмотреть, кстати — сгенерировать искусственный датасет с уже известными метками классов и попробовать сравнить эффективность подходов