Комментарии 21
Такое впечатление, что алгоритмы на основе множества мелких частиц входят в моду. Давайте составим список таких алгоритмов, просто для закладки. Я знаю про:
— random forest (см. статью)
— particle filter
— муравьиный алгоритм
— генетический алгорим можно отнести к этой категории?
— random forest (см. статью)
— particle filter
— муравьиный алгоритм
— генетический алгорим можно отнести к этой категории?
0
Сначала прочёл заголовок как «Знания предсмертной области бесполезны». Прочёл пол статьи, перечитал заголовок, т.к. что-то явно не сходилось. :)
0
предсказание будущего миф или реальность?
0
Хорошая статья, спасибо что перевели. Довольно типичная картина для машинного обучения — классификация или прогнозирование лучше работает когда никто не мешает :).
+1
Похоже я с этим человеком на одной волне — люблю черные ящики.
И сколько делал систем обработки и классификации, практически всегда random forest таки да лучший.
SVM, нейронки, генетика, Байес, все имеет свои границы, но чтобы просто взять и получить работающий результат не заморачиваясь — лучше RF ничего нету.
Уже лет пять его по дефолту первым пробую и больше ничего потом не ищу.
И скорость работы у него отличная и сам отбор атрибутов делает.
А при этом, в первый раз читаю мнение практика, что RF таки да имеет сильное преимущество перед остальными системами.
И сколько делал систем обработки и классификации, практически всегда random forest таки да лучший.
SVM, нейронки, генетика, Байес, все имеет свои границы, но чтобы просто взять и получить работающий результат не заморачиваясь — лучше RF ничего нету.
Уже лет пять его по дефолту первым пробую и больше ничего потом не ищу.
И скорость работы у него отличная и сам отбор атрибутов делает.
А при этом, в первый раз читаю мнение практика, что RF таки да имеет сильное преимущество перед остальными системами.
0
State of the art подходы к распознанию цифр, например, все так же основываются на нейросетях (см. dropout).
0
Я еще не пробовал, но мне показалось, что RF подходят к задаче классификации, не для регрессии.
0
В теории и для регрессии подходят, но на практике — не скажу что так уж хорошо.
Самый идеальный вариант — бинарные классификаторы, на мультиклассе уже качество ниже.
Тут фишка в другом — каждое дерево строит приближенную модель распределения вероятности, и в ансамбле из этого можно вытащить многое.
Так что стоит говорить об использовании RF для создания модели, а дальше уже делать с этой моделью можно что угодно.
Ну и работают они на больших масштабах, если 10 семплов и три атрибута — это не случай RF.
Плюс скорость абсолютно обезбашенная.
У меня практический пример вот прямо сейчас.
SVM — 1000 атрибутов, детекция до 600-1000 сэмплов в минуту на ядро.
RF — 100K атрибутов, детекция 200К семплов за 9 секунд на одном ядре.
Качество детекции одинаковое, но на нестандартных выборках RF чуть стабильнее.
Как бы при такой разнице вопрос вообще не стоит об SVM.
И это даже не BigData, всего-то 100К атрибутов.
Нейронку не пробовал (и не планирую), но не думаю, что нейронка потянет такие скорости.
Чтобы мы не называли нейронкой — это ведь на самом деле группа очень разных методов с общим «брендом».
Собственно вообще не знаю какой технологией можно обеспечить такие скорости при таком качестве.
Самый идеальный вариант — бинарные классификаторы, на мультиклассе уже качество ниже.
Тут фишка в другом — каждое дерево строит приближенную модель распределения вероятности, и в ансамбле из этого можно вытащить многое.
Так что стоит говорить об использовании RF для создания модели, а дальше уже делать с этой моделью можно что угодно.
Ну и работают они на больших масштабах, если 10 семплов и три атрибута — это не случай RF.
Плюс скорость абсолютно обезбашенная.
У меня практический пример вот прямо сейчас.
SVM — 1000 атрибутов, детекция до 600-1000 сэмплов в минуту на ядро.
RF — 100K атрибутов, детекция 200К семплов за 9 секунд на одном ядре.
Качество детекции одинаковое, но на нестандартных выборках RF чуть стабильнее.
Как бы при такой разнице вопрос вообще не стоит об SVM.
И это даже не BigData, всего-то 100К атрибутов.
Нейронку не пробовал (и не планирую), но не думаю, что нейронка потянет такие скорости.
Чтобы мы не называли нейронкой — это ведь на самом деле группа очень разных методов с общим «брендом».
Собственно вообще не знаю какой технологией можно обеспечить такие скорости при таком качестве.
+3
Заголовок сенсационный, статья однобокая.
В качестве контрпримера приведу Netflix Prize. Товарищи потратили уйму денег и не один год, победители сделали ансамбль из сотни индивидуально подогнанных моделей, и из этого всего перформанса Netflix сейчас использует только пару компонентов и то не в полную силу. Потому что оказывается, что уменьшение среднеквадратичного отклонения на 0.01% позволяет выиграть конкурс, но пользователям на это наплевать. Им важнее знать, почему рекомендован вот этот фильм. Чёрный ящик ответа на этот простой вопрос не даёт.
Та ж фигня происходит в финансовой сфере. Каждый год прибегает новый стартап и пытается продать свою революционную модель. Big data, Hadoop, все трёхбуквенные сокращения, зашибись как работает на обучающей выборке. Почему — не знаем, чёрный ящик. Через год оно работать перестаёт, почему — тоже никто не знает. Чёрный ящик же. Причём часто перестаёт работать быстро и с катастрофическими последствиями. Которые никто не ожидал — чёрный ящик же, ничего внутри не видно, как там риски считать.
В качестве контрпримера приведу Netflix Prize. Товарищи потратили уйму денег и не один год, победители сделали ансамбль из сотни индивидуально подогнанных моделей, и из этого всего перформанса Netflix сейчас использует только пару компонентов и то не в полную силу. Потому что оказывается, что уменьшение среднеквадратичного отклонения на 0.01% позволяет выиграть конкурс, но пользователям на это наплевать. Им важнее знать, почему рекомендован вот этот фильм. Чёрный ящик ответа на этот простой вопрос не даёт.
Та ж фигня происходит в финансовой сфере. Каждый год прибегает новый стартап и пытается продать свою революционную модель. Big data, Hadoop, все трёхбуквенные сокращения, зашибись как работает на обучающей выборке. Почему — не знаем, чёрный ящик. Через год оно работать перестаёт, почему — тоже никто не знает. Чёрный ящик же. Причём часто перестаёт работать быстро и с катастрофическими последствиями. Которые никто не ожидал — чёрный ящик же, ничего внутри не видно, как там риски считать.
+1
Netflix отвечает на вопрос рекомендован вот этот фильм? Мне например интересно, почему магазины постоянно рекомендуют не то что мне нужно, но они не дают ответа на этот вопрос? :) Модели нужно регулярно тестировать, в случае если они используются на данных, которые имеют свойство сильно изменятся со временем. Деревья решений, это вполне себе интерпретируемый алгоритм.
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Знания предметной области бесполезны. Когда предсказания становятся игрой, эксперты проигрывают