Комментарии / Профиль acheremuhin / Хабр

Артем Черемухин @acheremuhin

Пользователь

ПрофильСтатьи19ПостыНовостиКомментарии16

LLM как универсальная «отмычка» студента — настолько ли все хорошо?

acheremuhin 10 апр 2024 в 21:22

Я с Вами концептуально согласен, но есть пара моментов:

На более ранних курсах у них идет математика в разных ипостасях, с которой пока LLM-ки не особо дружат.
Моя же задача не наказать и запретить пользоваться LLM, моя задача - идентифицировать (и наказать) случаи, когда LLM используется не вместе с мозгом, а вместо него; если кто-то из студентом отшлифует свой навык пользования LLM настолько, что сможет выполнять все задания с помощью AI, при этом полностью понимая и осознавая что происходит - да пожалуйста

Посмотреть

Когда надоела путаница или о идее пакета familial

acheremuhin 28 авг 2023 в 07:44

Спасибо за замечание! Поправил

Посмотреть

Новое повсюду или статистические тесты эквивалентности

acheremuhin 25 фев 2023 в 12:48

Похоже, что да. По крайней мере, для коэффициента корреляции в статье была предложена именно такая процедура.

Посмотреть

Вглядываясь в зеркала или еще раз о проблеме гетероскедастичности

acheremuhin 26 июл 2022 в 15:09

Спасибо за комментарии и замечания. Я попробовал в черновике начать про идеи - но получалось очень много, и я решил в заметке не писать. Но внушение принято и понято, будем исправляться дальше.

Посмотреть

Регрессия и функции с неустранимыми разрывами первого рода

acheremuhin 20 фев 2022 в 15:16

Формально, задачи все-таки разные. Вы, как я понял, говорите про временные ряды. Для них задачи определения скачка, точек излома тренда и т.д. решаются по-другому. Тут все-таки рассматривается не временной ряд, плюс у вас своя практическая специфика. Нельзя знать совсем все методы и приемы во всех областях знания. Поэтому - не бейте пианиста, он играет как умеет.

Посмотреть

Регрессия и функции с неустранимыми разрывами первого рода

acheremuhin 19 фев 2022 в 21:02

Он в открытом доступе. Он скачивается и устанавливается в R обычным путем

Посмотреть

Расширяя границы или о задаче проверки гипотезы о нормальности многомерного распределения

acheremuhin 25 дек 2021 в 19:42

Добрый день, Виктор. Что касается ностальгии по последней картинке - это результат симбиоза PrintScreen и Point. Насчет же функционального применения - любая область, в которой вам нужно проверить наличие многомерного нормального распределения. Как правило, в предобработке данных, поскольку некоторые методы анализа в качестве условия требуют именно это условие.

Посмотреть

Взглянем на квантильную регрессию

acheremuhin 8 ноя 2021 в 17:24

В моем условном примере - явный. А, например, в статье, там где модель mod_3, верхняя строчка (соответствующая tau = 0.1) - это модель регрессии для значения, отсекающего 10 % самых низких зарплат, а нижняя строчка (соответствующая tau = 0.9) - это модель регрессии для значения, отсекающего 10 % самых высоких зарплат

Посмотреть

Взглянем на квантильную регрессию

acheremuhin 8 ноя 2021 в 15:38

В целом, он позволяет моделировать зависимые переменные со сложным / меняющимся распределением. Условно, при х = 10 зависимая переменная распределена нормально, при х = 20 - экспоненциально. Если вас интересуют конкретные примеры, то укажите конкретную отрасль, чтобы говорить более предметно

Посмотреть

Скучно, просто и ограниченно — все это изотоническая регрессия

acheremuhin 15 сен 2021 в 12:30

Вы все правильно понимаете. Метод называется "регрессией", но фактически в нем применяется интерполяция. Или можно назвать это сглаженной непараметрической регрессией - но оставим название на совести авторов.

Я также не буду спорить с тем, что логистическая регрессия дает меньше ошибок - я вам охотно верю

Я просто рассказал о методе, который иногда применяется при решении какого-то класса задач. Иногда он может быть полезным, иногда - нет.

Посмотреть

Анализ распределения временных интервалов между покупками на R

acheremuhin 1 сен 2021 в 04:23

По первому вопросу - да, по мне так, лучше записать общую формулу. По второму вопросу - я говорил конкретно про число столбцов на гистограмме. Обычно результат подгонки зависит от него. Но в любом случае, для вашей задачи, как мне кажется, можно и чуть иной подход попробовать. Посмотрите вот эту статью, метод, описанный в ней, должен работать и для смеси распределений, и должен давать относительно стабильные оценки https://tinyheero.github.io/2016/01/03/gmm-em.html

Посмотреть

Анализ распределения временных интервалов между покупками на R

acheremuhin 31 авг 2021 в 20:10

А если попробовать не разбирать распределения на части, а так и считать, что исходное распределение - сумма цензурированного нормального и экспоненциального? И, ради интереса, а результаты стат. тестов сильно зависят от количества интервалов?

Посмотреть

В глубины регрессии или про пакет frm в R

acheremuhin 1 авг 2021 в 22:54

Спасибо на добром слове, Вам тоже успехов.

Посмотреть

Задача всегда проста, если знаешь ответ или к вопросу отбора признаков

acheremuhin 9 июл 2021 в 15:22

Да. Я не проверял внутренности каждой модели на предмет наличия статистически незначимых переменных, это раз, и не смотрел пока результаты применения других оценщиков, это два, но это частности. На ваш вопрос ответ пока - да.

Посмотреть

Модификация EM-алгоритма для решения задачи кластеризации с выбросами

acheremuhin 5 июн 2021 в 21:40

Моя мысль в выделенной Вами цитате — это то, что сначала придется придется применять какой-то метод для идентификации выбросов, а потом уже «делать кластеризацию».
Это не особо удобно.
А итеративность EM-метода, собственно, очень удобна для решения этой задачи одним методом, одним алгоритмом. Про это и рассказ

Посмотреть

Кластеризация смешанных (числовых и категориальных) данных в R

acheremuhin 13 мая 2021 в 07:35

С одной стороны, вы правы. Есть возможность перекодировать любую порядковую переменную в числовую и применять обычный метод k-средних, например. С другой стороны, всегда возникают вопросы к схеме перекодировки. То есть, почему именно 0 и 1? А не 0 и 100? Потому что так принято? Такое себе объяснение. К тому же, при перекодировке в 0 и 1 у вас может получиться одно разбиение, а при перекодировке в 0 и 100 — другая. А что делать с переменными, у которых больше чем одно значение? Как тогда им сопоставлять числовые значения и на каком основании?
Кроме того, авторы этого подхода утверждают, что их алгоритм более эффективен (и в вычислительном смысле, и в плане решения задачи), чем метод k-средних в случае перекодировки категориальных переменных в числовые.
Можем посмотреть, кстати — сгенерировать искусственный датасет с уже известными метками классов и попробовать сравнить эффективность подходов

Посмотреть