«Оверквалифайд» необязательно по требуемым знаниям, возможно по софт скиллам и вашему потенциальному начальнику боязно некомфортно будет с вами работать.
Это нежелательные письма вроде только что пришедшего письма с заголовком «Buy Cheap Meds. Save up to 88%. New 21 products. Deliver to your home.»
Похоже, что анализ взломанности аккаунта у вас работает гораздо лучше, чем спам фильтры.
И какая в итоге точность получилась? Что то подобное еще в эпоху байесовских спам фильтров использовали. Кстати на gmail мне спам не приходит, в отличие от mail.ru.
Посмотрел документацию по OpenCV, очень самобытный пакет, по крайней мере в части ML :) Попробуйте не decision trees, а что то из random forest или xgboost с настройкой под бустинг random forest. Тем более, что у вас переменных много, а данных мало.
Про аномальную функцию разобрался :) Это Logloss или кросс-энтропия. Правда, в оригинальном исполнении с регуляризатором. В регрессии регуляризатором штрафуют большие коэффициенты весов, а здесь мы что штрафуем? Я бы еще понял, если бы он был от -1 до 1, чтобы смещать деление по классам. Но он от 0 до 1, т.е. смещает только в одну сторону.
Низкие значения полученной точности алгоритмов подозрительны. На картинках глазом видны отличия, а алгоритм выдает 55%, такого не может быть.
По количеству данных посмотрел, но вопросов не убавилось) Как вам удалось считать, используя 0.01% от 48 штук? Или для GBT кросс-валидация не использовалась? Но все равно почему не 0.5 или 0.8, почему 0.0001??
Затронутая тема очень интересна, но статья мягко говоря странная. Вроде бы собирались оценивать действия летчиков на этапе посадки, но пишите вы о классификации классов летчиков. Метрика странная, почему не матрица определения классов, точность, полнота, f-мера и т.п.? Количество ошибок по классам само по себе мало о чем говорит.
Параметры GBT меня поразили :) Можете пояснить?:
— Никогда не слышал о такой функции потерь:) Может быть я ее знаю под другим именем?
— Зачем в GBT регуляризация? В принципе можно ее сделать, но у вас еще и классификация, а не регрессия.
— Порция подвыборки это в смысле sabsample? 0.01% от выборки за раз?? А зачем так? Сколько у вас вообще данных?
— Максимальная глубина деревьев 1, при рекомендуемых 6 и обычно используемых 10+. Чем продиктован такой выбор?
— Что такое суррогаты? Вы увеличивали количество данных с помощью synthetic data generation?
И отдельно — всегда интересовало почему не сделают автоматическую посадку? Робот посадит самолет гораздо точнее, быстрее среагирует на порывы ветра и скольжение, быстрее поймет, что посадку надо прерывать и идти на повторную.
Спасибо за статью.
Лучше все таки сразу использовать метрику, оценка на глаз может промахнуться :)
В R после добавления переменной x2*x3 переменные x2 и x3 можно в модели не указывать, т.е. будет y~x1+x2*x3.
Переменная X имеет какой то физический смысл? Из за неравномерного распределения x3 от X, модель с X будет лучше, т.е. y~X+x1+x2*x3
x1 больше похож на шум, надо чистить/преобразовывать или убирать. Т.е. для glm будет лучше y~x2*x3
Почему же, можно использовать. Если загружать уже почищенные и обработанные данные, то достаточно удобно перебирать и сравнивать модели. Хотя громоздкость и негибкость, конечно, убивают.
Забавно, что посмотреть предсказание уже натренированной модели можно только через веб сервис. Результатом эксперимента получается такой black box, который вроде бы выдавал на тесте хороший результат. Крайне забавно, что посмотреть саму модель невозможно.
Визуализация переменных вроде бы удобна, но посмотреть что то кроме того, что оно показывает невозможно. Это не считая того, что если у вас много переменных, то вы их вообще не увидите, показывает только первые 100. Работа со скриптами на R крайне не удобна по сравнению с Rstudio. Разгадка полученной ошибки превращается в увлекательный квест, хелп предельно краток, поиск по форуму выдает пару тройку тем с маловразумительными ответами. Но может быть не те вопросы искал)
Предсказать, кстати, можно только 1 переменную. И забудьте про циклы, их не существует.
Вывод: для исследовательской работы инструмент бесполезен. Что с ним делать новичку тоже не очень представляю. Единственный способ использования — создание веб сервиса.
help RStudio вполне себе удобен, проблема в том, что информации там не так чтобы много. Не уверен, что голый R без packages вообще кто то использует :)
Не работает модель на HuggingFace
боязнонекомфортно будет с вами работать.Новость из будущего?
Похоже, что анализ взломанности аккаунта у вас работает гораздо лучше, чем спам фильтры.
Про аномальную функцию разобрался :) Это Logloss или кросс-энтропия. Правда, в оригинальном исполнении с регуляризатором. В регрессии регуляризатором штрафуют большие коэффициенты весов, а здесь мы что штрафуем? Я бы еще понял, если бы он был от -1 до 1, чтобы смещать деление по классам. Но он от 0 до 1, т.е. смещает только в одну сторону.
Низкие значения полученной точности алгоритмов подозрительны. На картинках глазом видны отличия, а алгоритм выдает 55%, такого не может быть.
Параметры GBT меня поразили :) Можете пояснить?:
— Никогда не слышал о такой функции потерь:) Может быть я ее знаю под другим именем?
— Зачем в GBT регуляризация? В принципе можно ее сделать, но у вас еще и классификация, а не регрессия.
— Порция подвыборки это в смысле sabsample? 0.01% от выборки за раз?? А зачем так? Сколько у вас вообще данных?
— Максимальная глубина деревьев 1, при рекомендуемых 6 и обычно используемых 10+. Чем продиктован такой выбор?
— Что такое суррогаты? Вы увеличивали количество данных с помощью synthetic data generation?
И отдельно — всегда интересовало почему не сделают автоматическую посадку? Робот посадит самолет гораздо точнее, быстрее среагирует на порывы ветра и скольжение, быстрее поймет, что посадку надо прерывать и идти на повторную.
Лучше все таки сразу использовать метрику, оценка на глаз может промахнуться :)
В R после добавления переменной x2*x3 переменные x2 и x3 можно в модели не указывать, т.е. будет y~x1+x2*x3.
Переменная X имеет какой то физический смысл? Из за неравномерного распределения x3 от X, модель с X будет лучше, т.е. y~X+x1+x2*x3
x1 больше похож на шум, надо чистить/преобразовывать или убирать. Т.е. для glm будет лучше y~x2*x3
Забавно, что посмотреть предсказание уже натренированной модели можно только через веб сервис. Результатом эксперимента получается такой black box, который вроде бы выдавал на тесте хороший результат. Крайне забавно, что посмотреть саму модель невозможно.
Визуализация переменных вроде бы удобна, но посмотреть что то кроме того, что оно показывает невозможно. Это не считая того, что если у вас много переменных, то вы их вообще не увидите, показывает только первые 100. Работа со скриптами на R крайне не удобна по сравнению с Rstudio. Разгадка полученной ошибки превращается в увлекательный квест, хелп предельно краток, поиск по форуму выдает пару тройку тем с маловразумительными ответами. Но может быть не те вопросы искал)
Предсказать, кстати, можно только 1 переменную. И забудьте про циклы, их не существует.
Вывод: для исследовательской работы инструмент бесполезен. Что с ним делать новичку тоже не очень представляю. Единственный способ использования — создание веб сервиса.