sergeypid Jan 22 2013 at 07:03

Знания предметной области бесполезны. Когда предсказания становятся игрой, эксперты проигрывают

4 min

21K

Algorithms*

Translation

+32

Comments 21

sergeypid Jan 22 2013 at 07:44

Такое впечатление, что алгоритмы на основе множества мелких частиц входят в моду. Давайте составим список таких алгоритмов, просто для закладки. Я знаю про:

— random forest (см. статью)
— particle filter
— муравьиный алгоритм
— генетический алгорим можно отнести к этой категории?

cptgav Jan 22 2013 at 08:38

Оценочное суждение: Суровые физики проив. Работал с одним таким. Не доверяет он генетике.

sergeypid Jan 22 2013 at 08:43

Креационист?

cptgav Jan 22 2013 at 08:51

Мой знакомый-то? ФОПФ, физик от бога и советский человек))

sergeypid Jan 22 2013 at 09:06

Мне кажется генетика — закон природы. Физик должен доверять законам природы.

cptgav Jan 22 2013 at 09:27

Только Ландау Лифшиц, Только Хардкор ))
Тут уже полный оффтоп пошел.
Я понимаю Вашу точку зрения).

niksite Jan 23 2013 at 05:28

Я обучался на физика. В своё время, защитил диплом по методам оптимизации с использованием ГА. И я им не доверяю :o)

sergeypid Jan 23 2013 at 07:47

Я иногда и себе не доверяю…

ZlodeiBaal Jan 22 2013 at 09:39

Только Байес, только хардкор!:)

Shirixae Jan 22 2013 at 08:28

Сначала прочёл заголовок как «Знания предсмертной области бесполезны». Прочёл пол статьи, перечитал заголовок, т.к. что-то явно не сходилось. :)

Elsedar Jan 22 2013 at 09:18

Не вы один)

kemsky Jan 22 2013 at 08:31

предсказание будущего миф или реальность?

lightcaster Jan 22 2013 at 10:36

Хорошая статья, спасибо что перевели. Довольно типичная картина для машинного обучения — классификация или прогнозирование лучше работает когда никто не мешает :).

0decca Jan 22 2013 at 16:00

Похоже я с этим человеком на одной волне — люблю черные ящики.

И сколько делал систем обработки и классификации, практически всегда random forest таки да лучший.
SVM, нейронки, генетика, Байес, все имеет свои границы, но чтобы просто взять и получить работающий результат не заморачиваясь — лучше RF ничего нету.
Уже лет пять его по дефолту первым пробую и больше ничего потом не ищу.
И скорость работы у него отличная и сам отбор атрибутов делает.

А при этом, в первый раз читаю мнение практика, что RF таки да имеет сильное преимущество перед остальными системами.

tassadar_ha Jan 22 2013 at 22:19

State of the art подходы к распознанию цифр, например, все так же основываются на нейросетях (см. dropout).

dimview Sep 16 2014 at 22:43

Чем дальше копаться в этой области, тем больше видно взаимосвязей. RandomForest случайным образом выбрасывает независимые переменные при обучении каждого дерева, dropout случайным образом выключает нейроны при обучении сети.

sergeypid Jan 23 2013 at 03:56

Я еще не пробовал, но мне показалось, что RF подходят к задаче классификации, не для регрессии.

0decca Jan 24 2013 at 08:14

В теории и для регрессии подходят, но на практике — не скажу что так уж хорошо.
Самый идеальный вариант — бинарные классификаторы, на мультиклассе уже качество ниже.

Тут фишка в другом — каждое дерево строит приближенную модель распределения вероятности, и в ансамбле из этого можно вытащить многое.
Так что стоит говорить об использовании RF для создания модели, а дальше уже делать с этой моделью можно что угодно.

Ну и работают они на больших масштабах, если 10 семплов и три атрибута — это не случай RF.
Плюс скорость абсолютно обезбашенная.

У меня практический пример вот прямо сейчас.
SVM — 1000 атрибутов, детекция до 600-1000 сэмплов в минуту на ядро.
RF — 100K атрибутов, детекция 200К семплов за 9 секунд на одном ядре.
Качество детекции одинаковое, но на нестандартных выборках RF чуть стабильнее.

Как бы при такой разнице вопрос вообще не стоит об SVM.
И это даже не BigData, всего-то 100К атрибутов.

Нейронку не пробовал (и не планирую), но не думаю, что нейронка потянет такие скорости.
Чтобы мы не называли нейронкой — это ведь на самом деле группа очень разных методов с общим «брендом».

Собственно вообще не знаю какой технологией можно обеспечить такие скорости при таком качестве.

sergeypid Jan 24 2013 at 08:59

Ради таких комментариев и есть смысл переводить чужие итервью. Респект!

dimview Sep 16 2014 at 22:27

Заголовок сенсационный, статья однобокая.

В качестве контрпримера приведу Netflix Prize. Товарищи потратили уйму денег и не один год, победители сделали ансамбль из сотни индивидуально подогнанных моделей, и из этого всего перформанса Netflix сейчас использует только пару компонентов и то не в полную силу. Потому что оказывается, что уменьшение среднеквадратичного отклонения на 0.01% позволяет выиграть конкурс, но пользователям на это наплевать. Им важнее знать, почему рекомендован вот этот фильм. Чёрный ящик ответа на этот простой вопрос не даёт.

Та ж фигня происходит в финансовой сфере. Каждый год прибегает новый стартап и пытается продать свою революционную модель. Big data, Hadoop, все трёхбуквенные сокращения, зашибись как работает на обучающей выборке. Почему — не знаем, чёрный ящик. Через год оно работать перестаёт, почему — тоже никто не знает. Чёрный ящик же. Причём часто перестаёт работать быстро и с катастрофическими последствиями. Которые никто не ожидал — чёрный ящик же, ничего внутри не видно, как там риски считать.

dimka11 Dec 28 2021 at 14:03

Netflix отвечает на вопрос рекомендован вот этот фильм? Мне например интересно, почему магазины постоянно рекомендуют не то что мне нужно, но они не дают ответа на этот вопрос? :) Модели нужно регулярно тестировать, в случае если они используются на данных, которые имеют свойство сильно изменятся со временем. Деревья решений, это вполне себе интерпретируемый алгоритм.