Comments 21
Такое впечатление, что алгоритмы на основе множества мелких частиц входят в моду. Давайте составим список таких алгоритмов, просто для закладки. Я знаю про:
— random forest (см. статью)
— particle filter
— муравьиный алгоритм
— генетический алгорим можно отнести к этой категории?
— random forest (см. статью)
— particle filter
— муравьиный алгоритм
— генетический алгорим можно отнести к этой категории?
Сначала прочёл заголовок как «Знания предсмертной области бесполезны». Прочёл пол статьи, перечитал заголовок, т.к. что-то явно не сходилось. :)
предсказание будущего миф или реальность?
Хорошая статья, спасибо что перевели. Довольно типичная картина для машинного обучения — классификация или прогнозирование лучше работает когда никто не мешает :).
Похоже я с этим человеком на одной волне — люблю черные ящики.
И сколько делал систем обработки и классификации, практически всегда random forest таки да лучший.
SVM, нейронки, генетика, Байес, все имеет свои границы, но чтобы просто взять и получить работающий результат не заморачиваясь — лучше RF ничего нету.
Уже лет пять его по дефолту первым пробую и больше ничего потом не ищу.
И скорость работы у него отличная и сам отбор атрибутов делает.
А при этом, в первый раз читаю мнение практика, что RF таки да имеет сильное преимущество перед остальными системами.
И сколько делал систем обработки и классификации, практически всегда random forest таки да лучший.
SVM, нейронки, генетика, Байес, все имеет свои границы, но чтобы просто взять и получить работающий результат не заморачиваясь — лучше RF ничего нету.
Уже лет пять его по дефолту первым пробую и больше ничего потом не ищу.
И скорость работы у него отличная и сам отбор атрибутов делает.
А при этом, в первый раз читаю мнение практика, что RF таки да имеет сильное преимущество перед остальными системами.
State of the art подходы к распознанию цифр, например, все так же основываются на нейросетях (см. dropout).
Я еще не пробовал, но мне показалось, что RF подходят к задаче классификации, не для регрессии.
В теории и для регрессии подходят, но на практике — не скажу что так уж хорошо.
Самый идеальный вариант — бинарные классификаторы, на мультиклассе уже качество ниже.
Тут фишка в другом — каждое дерево строит приближенную модель распределения вероятности, и в ансамбле из этого можно вытащить многое.
Так что стоит говорить об использовании RF для создания модели, а дальше уже делать с этой моделью можно что угодно.
Ну и работают они на больших масштабах, если 10 семплов и три атрибута — это не случай RF.
Плюс скорость абсолютно обезбашенная.
У меня практический пример вот прямо сейчас.
SVM — 1000 атрибутов, детекция до 600-1000 сэмплов в минуту на ядро.
RF — 100K атрибутов, детекция 200К семплов за 9 секунд на одном ядре.
Качество детекции одинаковое, но на нестандартных выборках RF чуть стабильнее.
Как бы при такой разнице вопрос вообще не стоит об SVM.
И это даже не BigData, всего-то 100К атрибутов.
Нейронку не пробовал (и не планирую), но не думаю, что нейронка потянет такие скорости.
Чтобы мы не называли нейронкой — это ведь на самом деле группа очень разных методов с общим «брендом».
Собственно вообще не знаю какой технологией можно обеспечить такие скорости при таком качестве.
Самый идеальный вариант — бинарные классификаторы, на мультиклассе уже качество ниже.
Тут фишка в другом — каждое дерево строит приближенную модель распределения вероятности, и в ансамбле из этого можно вытащить многое.
Так что стоит говорить об использовании RF для создания модели, а дальше уже делать с этой моделью можно что угодно.
Ну и работают они на больших масштабах, если 10 семплов и три атрибута — это не случай RF.
Плюс скорость абсолютно обезбашенная.
У меня практический пример вот прямо сейчас.
SVM — 1000 атрибутов, детекция до 600-1000 сэмплов в минуту на ядро.
RF — 100K атрибутов, детекция 200К семплов за 9 секунд на одном ядре.
Качество детекции одинаковое, но на нестандартных выборках RF чуть стабильнее.
Как бы при такой разнице вопрос вообще не стоит об SVM.
И это даже не BigData, всего-то 100К атрибутов.
Нейронку не пробовал (и не планирую), но не думаю, что нейронка потянет такие скорости.
Чтобы мы не называли нейронкой — это ведь на самом деле группа очень разных методов с общим «брендом».
Собственно вообще не знаю какой технологией можно обеспечить такие скорости при таком качестве.
Заголовок сенсационный, статья однобокая.
В качестве контрпримера приведу Netflix Prize. Товарищи потратили уйму денег и не один год, победители сделали ансамбль из сотни индивидуально подогнанных моделей, и из этого всего перформанса Netflix сейчас использует только пару компонентов и то не в полную силу. Потому что оказывается, что уменьшение среднеквадратичного отклонения на 0.01% позволяет выиграть конкурс, но пользователям на это наплевать. Им важнее знать, почему рекомендован вот этот фильм. Чёрный ящик ответа на этот простой вопрос не даёт.
Та ж фигня происходит в финансовой сфере. Каждый год прибегает новый стартап и пытается продать свою революционную модель. Big data, Hadoop, все трёхбуквенные сокращения, зашибись как работает на обучающей выборке. Почему — не знаем, чёрный ящик. Через год оно работать перестаёт, почему — тоже никто не знает. Чёрный ящик же. Причём часто перестаёт работать быстро и с катастрофическими последствиями. Которые никто не ожидал — чёрный ящик же, ничего внутри не видно, как там риски считать.
В качестве контрпримера приведу Netflix Prize. Товарищи потратили уйму денег и не один год, победители сделали ансамбль из сотни индивидуально подогнанных моделей, и из этого всего перформанса Netflix сейчас использует только пару компонентов и то не в полную силу. Потому что оказывается, что уменьшение среднеквадратичного отклонения на 0.01% позволяет выиграть конкурс, но пользователям на это наплевать. Им важнее знать, почему рекомендован вот этот фильм. Чёрный ящик ответа на этот простой вопрос не даёт.
Та ж фигня происходит в финансовой сфере. Каждый год прибегает новый стартап и пытается продать свою революционную модель. Big data, Hadoop, все трёхбуквенные сокращения, зашибись как работает на обучающей выборке. Почему — не знаем, чёрный ящик. Через год оно работать перестаёт, почему — тоже никто не знает. Чёрный ящик же. Причём часто перестаёт работать быстро и с катастрофическими последствиями. Которые никто не ожидал — чёрный ящик же, ничего внутри не видно, как там риски считать.
Netflix отвечает на вопрос рекомендован вот этот фильм? Мне например интересно, почему магазины постоянно рекомендуют не то что мне нужно, но они не дают ответа на этот вопрос? :) Модели нужно регулярно тестировать, в случае если они используются на данных, которые имеют свойство сильно изменятся со временем. Деревья решений, это вполне себе интерпретируемый алгоритм.
Sign up to leave a comment.
Знания предметной области бесполезны. Когда предсказания становятся игрой, эксперты проигрывают