Я вам больше скажу. Азбука и арифметика, которые вы проходили в школе - бесполезные вещи. Когда вы пишете код, за вас всё-равно IDE все описки поправит. Да и не на русском же языке код то. А на созвонах вас и так поймут, без правильно расставленных запятых и прочей грамматики. Ну и арифметику давно никто в уме не считает, есть же компьютеры. Так что я считаю, давно пора выкинуть всё это из обучения, да и школу саму отменить. Всё-равно даже те, кто этому всему учились, делают периодически ошибки, а значит ничего это не работает и не нужно вообще.
Задумка интересная. Методика непонятная. Хорошо бы всё-таки формально объяснить, что понималось в данном случае под аллюзией и как считалось. Я не понял из текста. Код, конечно, есть, но я не понял, как в нём сопоставляется "плыть или плыть" и "быть или быть", напримр.
Вот да. Не вижу препятствий использовать LR для TimeSeries задач, если в данные добавлены time-фичи и сделана правильная кросс-валидация без заглядывания в будущее (хоть тот же TimeSeriesSplit из sklearn).
Спасибо за интерес. Меня это морально поддерживает ) Просто, как говорится, "то одно, то другое". То вдохновение кончилось, то здоровье, то свободное время. Черновик то ещё тогда набросал, надо его доработать. Постараюсь взять себя в руки )
Но всё-таки поставщики есть и это не только Россия. США, Франция, кажется. Может и Китай уже умеет и поставляет. Долго, да, ну, много чего нужно заранее планировать.
Ну, электричество - не проблема. Достаточно хотя бы начать опять строить АЭС (а они сейчас гораздо безопаснее, чем когда-то) - и электричества будет завались. Не говоря уже о всяких новомодных способах добывать электричество. Вот редкие металлы и прочие материальные ресурсы - это да. Как бы не пришлось на Луне и Марсе их дальше добывать. Ну, либо начинать синтезировать из других элементов, когда совсем цена в облака улетит и это станет даже и выгодно )
Это обычная ситуация для стартапов и прочего такого прорывного. 9 из 10 стартапов прогорят, но вот этот 10-й, который взлетит, с лихвой окупит вложения инвесторов во все 10 стартапов. Поэтому и вот так.
Если я вас правильно понял, то вот. Вообще там же есть формула на C++, она хитрая какая-то. 0 4 8 16 24 32 40 52 64 76 92 108 128 148 172 200 232 268 308 352 400 456 520 592 672 760 860 972
Надо же, я почему-то думал, что и в Python и в C# происходит банальное удвоение массива, выделенного под список, до каких-то совсем уж больших размеров списка, а потом идёт переход не на удвоение, а где-то на 1.4 увеличивается. Интересно, почему я так думал, надо покопать матчасть. ) Возможно, в C# именно так и происходит, а в Python всё хитрее.
Обработка и очистка будет дальше. Как и логистическая регрессия. Для пробного использования CatBoost никакая особая подготовка данных не нужна, поэтому её не было. CatBoost разбивает признаки на бины и умеет работать с категориальными фичами, поэтому ему ничего из того, что нужно для линейной регрессии, не нужно предварительно делать. И взаимодействие фич между собой он тоже сам подхватывает. Но как-раз от всего этого мне и приходится отказаться, чтобы модель заработала. А в целом ну не знаю, если я получил лучший скор среди всех участников на этой задаче с помощью, как вы говорите, MVP, то чего же тогда можно было добиться с "полным проектом", интересно? )) Матрицу корреляции да, надо бы показать, но у меня пока не получается "объять необъятное". И корреляция не покажет те особенности зависимостей целевой переменной, за которые я в итоге и зацепился, чтобы "вытащить" эту задачу.
О, это отличный поинт. Скорее всего целевая переменная тоже шумная. Я совсем уж опустил детали, в задаче шла речь о том, чтобы показывать нашу ёлочку в телевизоре. В этом случае, конечно, есть некоторые более жёсткие границы "кондиционности" ёлочки, но они всё-равно размытые и шум будет.
Да, могут быть ещё какие-то факторы, которые нам не дали на вход. При работе с "большими данными" всегда есть надежда, что даже если нам дали не все данные, то в тех, которые дали, как-то косвенно есть информация и об отсутствующих данных и модель за это ухватится. Но с вашим примером я действительно не могу придумать, в какой фиче могла бы быть уже учтена подкормка.
Ну, собственно и поэтому всему тоже лучший скор по задаче получается не 1 (максимальное возможное для ROC AUC), а всего лишь 0.67 с копейками. Надо будет дополнить пост. Ох, чую правки никогда не закончатся ))
Я лично подсел на дешёвых китайцев. Мне одинаково удобно пользоваться "обычной" мышкой iMice G-1800 и "вертикальной" Zelotes F-35. Вертикальная мышь специально сделана чуть тяжелее и с широким низом, что уберегает её от опрокидывания. При этом скользит она по коврику легко. Работать предпочитаю вертикальной мышью, хотя разница в ощущениях невелика. Но при использовании вертикальной мышью рука лежит практически в том же положении, как если бы я её просто положил на стол. Рука так меньше напрягается.
Базовые задачи часто решают градиентным бустингом и моделями из scikit‑learn, например XGBoost и CatBoost.
Ну, если XGBoost в каком-то виде таки встроен в scikit‑learn, хотя чаще используется всё же в виде отдельного пакета, то уж CatBoost точно является отдельным пакетом и к scikit‑learn не имеет никакого отношения.
Авторы сравнили линейную регрессию и ARIMA с моделями машинного обучения, например Random Forest и XGBRegressor, и получили более высокую точность у ML‑подходов.
А что, линейная регрессия - это не "ML-подход"? Можно конечно линейную регрессию назвать "статистическим подходом", но я бы лучше сказал про RF и XGB не как про "ML-подходы", а как про "сложные/ансамблевые модели".
По-русски это называется "количественный аналитик". Потому что в оригинале это "quantitative analyst", а не "quantum analyst". В финансах нет ничего "квантового", это не физика. Иногда сокращают до "quant analyst", ну тогда и говорить нужно "квант" и те, кто в теме - поймут о чём речь. А "квантовый аналитик" - это просто искажённая калька с английского.
Обычно это дети с планшетом, на котором они играют или смотрят мультики так, что слышно на пол-салона. Вам очень повезло )
ЗумерыИИ заново открывает Analysis paralysis.Я вам больше скажу. Азбука и арифметика, которые вы проходили в школе - бесполезные вещи. Когда вы пишете код, за вас всё-равно IDE все описки поправит. Да и не на русском же языке код то. А на созвонах вас и так поймут, без правильно расставленных запятых и прочей грамматики. Ну и арифметику давно никто в уме не считает, есть же компьютеры. Так что я считаю, давно пора выкинуть всё это из обучения, да и школу саму отменить. Всё-равно даже те, кто этому всему учились, делают периодически ошибки, а значит ничего это не работает и не нужно вообще.
Задумка интересная. Методика непонятная. Хорошо бы всё-таки формально объяснить, что понималось в данном случае под аллюзией и как считалось. Я не понял из текста. Код, конечно, есть, но я не понял, как в нём сопоставляется "плыть или плыть" и "быть или быть", напримр.
Вот да. Не вижу препятствий использовать LR для TimeSeries задач, если в данные добавлены time-фичи и сделана правильная кросс-валидация без заглядывания в будущее (хоть тот же TimeSeriesSplit из sklearn).
Спасибо за интерес. Меня это морально поддерживает )
Просто, как говорится, "то одно, то другое". То вдохновение кончилось, то здоровье, то свободное время.
Черновик то ещё тогда набросал, надо его доработать. Постараюсь взять себя в руки )
Но всё-таки поставщики есть и это не только Россия. США, Франция, кажется. Может и Китай уже умеет и поставляет. Долго, да, ну, много чего нужно заранее планировать.
Ну, электричество - не проблема. Достаточно хотя бы начать опять строить АЭС (а они сейчас гораздо безопаснее, чем когда-то) - и электричества будет завались. Не говоря уже о всяких новомодных способах добывать электричество. Вот редкие металлы и прочие материальные ресурсы - это да. Как бы не пришлось на Луне и Марсе их дальше добывать. Ну, либо начинать синтезировать из других элементов, когда совсем цена в облака улетит и это станет даже и выгодно )
Понятно. Скайнета не будет, AI убьёт нас другим способом - просто съест все наши ресурсы ))
Это обычная ситуация для стартапов и прочего такого прорывного. 9 из 10 стартапов прогорят, но вот этот 10-й, который взлетит, с лихвой окупит вложения инвесторов во все 10 стартапов. Поэтому и вот так.
Если я вас правильно понял, то вот. Вообще там же есть формула на C++, она хитрая какая-то.
0
4
8
16
24
32
40
52
64
76
92
108
128
148
172
200
232
268
308
352
400
456
520
592
672
760
860
972
Надо же, я почему-то думал, что и в Python и в C# происходит банальное удвоение массива, выделенного под список, до каких-то совсем уж больших размеров списка, а потом идёт переход не на удвоение, а где-то на 1.4 увеличивается. Интересно, почему я так думал, надо покопать матчасть. ) Возможно, в C# именно так и происходит, а в Python всё хитрее.
Обработка и очистка будет дальше. Как и логистическая регрессия. Для пробного использования CatBoost никакая особая подготовка данных не нужна, поэтому её не было. CatBoost разбивает признаки на бины и умеет работать с категориальными фичами, поэтому ему ничего из того, что нужно для линейной регрессии, не нужно предварительно делать. И взаимодействие фич между собой он тоже сам подхватывает. Но как-раз от всего этого мне и приходится отказаться, чтобы модель заработала.
А в целом ну не знаю, если я получил лучший скор среди всех участников на этой задаче с помощью, как вы говорите, MVP, то чего же тогда можно было добиться с "полным проектом", интересно? ))
Матрицу корреляции да, надо бы показать, но у меня пока не получается "объять необъятное". И корреляция не покажет те особенности зависимостей целевой переменной, за которые я в итоге и зацепился, чтобы "вытащить" эту задачу.
О, это отличный поинт. Скорее всего целевая переменная тоже шумная. Я совсем уж опустил детали, в задаче шла речь о том, чтобы показывать нашу ёлочку в телевизоре. В этом случае, конечно, есть некоторые более жёсткие границы "кондиционности" ёлочки, но они всё-равно размытые и шум будет.
Да, могут быть ещё какие-то факторы, которые нам не дали на вход. При работе с "большими данными" всегда есть надежда, что даже если нам дали не все данные, то в тех, которые дали, как-то косвенно есть информация и об отсутствующих данных и модель за это ухватится. Но с вашим примером я действительно не могу придумать, в какой фиче могла бы быть уже учтена подкормка.
Ну, собственно и поэтому всему тоже лучший скор по задаче получается не 1 (максимальное возможное для ROC AUC), а всего лишь 0.67 с копейками. Надо будет дополнить пост. Ох, чую правки никогда не закончатся ))
Да уж. Мне вот MicroProse жалко, что закрылась, например )
Я лично подсел на дешёвых китайцев. Мне одинаково удобно пользоваться "обычной" мышкой iMice G-1800 и "вертикальной" Zelotes F-35. Вертикальная мышь специально сделана чуть тяжелее и с широким низом, что уберегает её от опрокидывания. При этом скользит она по коврику легко. Работать предпочитаю вертикальной мышью, хотя разница в ощущениях невелика. Но при использовании вертикальной мышью рука лежит практически в том же положении, как если бы я её просто положил на стол. Рука так меньше напрягается.
Играл я в Lode Runner на ДВК-3, эх, было время )
Экспертам за проверку домашек какие-то копейки платят, глубоко вникать всё-равно никто не будет, если это не индивидуальный менторинг (
Ну, если XGBoost в каком-то виде таки встроен в scikit‑learn, хотя чаще используется всё же в виде отдельного пакета, то уж CatBoost точно является отдельным пакетом и к scikit‑learn не имеет никакого отношения.
А что, линейная регрессия - это не "ML-подход"? Можно конечно линейную регрессию назвать "статистическим подходом", но я бы лучше сказал про RF и XGB не как про "ML-подходы", а как про "сложные/ансамблевые модели".
По-русски это называется "количественный аналитик".
Потому что в оригинале это "quantitative analyst", а не "quantum analyst".
В финансах нет ничего "квантового", это не физика.
Иногда сокращают до "quant analyst", ну тогда и говорить нужно "квант" и те, кто в теме - поймут о чём речь.
А "квантовый аналитик" - это просто искажённая калька с английского.