Ну я уже писал немного про него в моей предыдущей статье, но собираюсь немного позже более детально его рассмотреть.
А относительно данного топика — я хотел рассмотреть с точки зрения, как решать такого плана задания.
Я с жмылом зарегестирировался, в комментарии написал, что мол нету у универа мейл адрессов. Все было ок. Так что возможно, просто *@*.ru действительно не сработал, а *@*.com пашет или ещё как-то.
Хорошо, постараюсь на следующей неделе сформулировать свои результаты.
А что за задача? Классификация или регрессия? Если хотите — напишите в ЛС, может смогу что-то посоветовать.
Хм, если я правильно понял, то рекурсивное разделение (Recursive partitioning) это именно тот метод, которым строятся любые деревья принятия решений. Однако в той диссертации какое-то расширение этого метода — я просмотрю, тогда смогу нормально что-то ответить.
Спасибо за ссылки.
Эм… Я с Вами не согласен — я не видел ни одного алгоритма (да что там, я сейчас поискал и не нашел ни одного упоминания) строящего не бинарное дерево принятия решений. Однако, если у Вас есть литература по таким алгоритмам, прошу просветить меня.
Плюс, даже если предположить, что у нас Н-ринчное дерево, его узлы можно в конце концов разбить на бинарные.
Смотрите — набор критериев — это Н-мерое пространство, где каждое наблюдения — это какая-то точка. Тогда условия классификационных деревьев, это не что иное как гиперплоскости, делящие это пространство на два полупространства.
Т.е. условия вида X > 10 просто значит, что мы провели гиперплоскость X = 10, соответственно два наследника этого узла будут содержать первое и второе полученные полупространства.
Согласен, что практика нужна. И я попытаюсь написать ещё статей, с примерами по каждому из алгоритмов. Просто не хочется писать полотно на 10 страниц, которое потом никто не прочтёт. Или разжевывать совсем простые вещи.
Собственно — это была обзорная статья. Цель её была попасть на хабр посмотреть насколько интересна тема.
Конечно, в идее здравое зерно есть. Однако, меня например бы напрягла длинная анкета (а нужно достаточно много параметров набрать) при регистрации — что бы всего лишь проголосовать за колу или пепси. (Хотя меня и «Битва брендов» не заставила пойти проголосовать).
Другой вопрос, что если это будет сервис именно рекомендаций — я оставляю о себе информацию. А мне рекомендует интересные для меня вещи — в этом что-то есть.
Извините, неправильно Вас понял.
Просто в Random Forest, который я использую (и который описан Брейманом), используются нормальные деревья, а не «слабые» классификаторы. Именно поэтому я перечислил те "+" и "-".
Просто «слабые» классификаторы — это основная идея алгоритмов семейства «boosting». Поэтому, если в Weka используется «слабые» классификаторы для Random Forest, то наверно это собственная модификация.
Я посмотрю на этот проект и попробую сделанный там алгортим. Спасибо за ссылку и Ваш комментарий.
Да, Random Forest не всегда удачное решение — собственно плюсы и минусы я описал выше. Из практики скажу, что я например, пользуюсь в основном Gradient Boosting (TreeNet от Salford-Systems) — он даёт намного более устойчивую модель и неплохо справляется с переобучением (особенно, если вовремя остановиться с количеством деревьев).
Однако ансамбли — тоже хорошая техника, но я использовал ее не на слабых классификаторах — а для некоторого количества TreeNet моделей, каждая из которых давала мне хороший результат. Их ансамбль дал результат ещё лучше (проверка велась на валидационных данных, не учавствовавших в обучении).
Ну для деревьев принятия решений есть примеры в картинках :)
А вообще, хочу написать конкретно по каждмоу алгоритму — с описанием данных, результирующией модели и тд и тп.
Или Вы хотите увидеть именно модели для одних данных, что бы сравнить разные методы?
Классификация и регрессия — это прежде всего задачи анализа данных. А ИИ это просто более общая область, которая использует наработки в анализе данных. Вы же не будете предлагать, к примеру, пост чисто по математике перенести в ИИ — даже если там используется эта математика.
А относительно данного топика — я хотел рассмотреть с точки зрения, как решать такого плана задания.
А что за задача? Классификация или регрессия? Если хотите — напишите в ЛС, может смогу что-то посоветовать.
Спасибо за ссылки.
Плюс, даже если предположить, что у нас Н-ринчное дерево, его узлы можно в конце концов разбить на бинарные.
Т.е. условия вида X > 10 просто значит, что мы провели гиперплоскость X = 10, соответственно два наследника этого узла будут содержать первое и второе полученные полупространства.
Собственно — это была обзорная статья. Цель её была
попасть на хабрпосмотреть насколько интересна тема.Другой вопрос, что если это будет сервис именно рекомендаций — я оставляю о себе информацию. А мне рекомендует интересные для меня вещи — в этом что-то есть.
Просто в Random Forest, который я использую (и который описан Брейманом), используются нормальные деревья, а не «слабые» классификаторы. Именно поэтому я перечислил те "+" и "-".
Просто «слабые» классификаторы — это основная идея алгоритмов семейства «boosting». Поэтому, если в Weka используется «слабые» классификаторы для Random Forest, то наверно это собственная модификация.
Я посмотрю на этот проект и попробую сделанный там алгортим. Спасибо за ссылку и Ваш комментарий.
Однако ансамбли — тоже хорошая техника, но я использовал ее не на слабых классификаторах — а для некоторого количества TreeNet моделей, каждая из которых давала мне хороший результат. Их ансамбль дал результат ещё лучше (проверка велась на валидационных данных, не учавствовавших в обучении).
А вообще, хочу написать конкретно по каждмоу алгоритму — с описанием данных, результирующией модели и тд и тп.
Или Вы хотите увидеть именно модели для одних данных, что бы сравнить разные методы?