Pull to refresh

Comments 87

Интересная тема, хороший результат, но напрашивается эксперимент: Предсказатор намекает уход -> игрок «случайно» находит вкусную плюшку, уйдет ли игрок?

Про дедушек интересно было бы почитать.
Про случайности хорошо почитать «Чёрного лебедя» Насима Талеба. Если кратко, то случайности находятся за рамками модели, в то время как предсказатор работает внутри рамок модели.
Я так понимаю что «случайно» не зря в кавычках. Было бы действительно интересно насколько снизится процент ухода при нахождении плюшек.

Но как я понимаю ваш предсказатель не работает в реальном времени, и не сможет так быстро вычислить необходимость плюшки? Не планируете начать анализировать действия игрока в реальном времени?
Анализ в реальном времени для гиперлокального и контекстного геймдизайна — это очень горячая тема, и я над ней давно думаю. Но такая аналитика должна зашиваться на этапе проектирования продукта, а не задолго после релиза. Так что планирую, но когда уже буду делать свои игры :)
С другой стороны, теоретически, можно определить какие плюшки были бы интересны игроку и повысить вероятность их нахождения. На уровне статистики, я думаю, что вы можете создать выборку действий игрока, в случаях когда предсказатор намекал на уход, а игрок находил плюшку (учитывая, что данные берутся по истории действий, это вполне реально) и посмотреть % тех, кто после этого продолжал играть и тех, кто уходил.
Немного не такой подход, но в сторону удержания активно работаем. Будет статистика — опубликую ближе к весне.
Я всегда верил в то, что инструменты статистического анализа, какими бы скучными они не казались, скрывают за собой огромный потенциал применения в совершенно разных сферах жизни. И ваша статья это в очередной раз доказала!
Тема интересна.

А у вас модель для «старичков» уже работает?
Да, работает, но по старичкам пока еще в стадии активного исследования — проверяем гипотезы.
Огромное человеческое спасибо автору! Учусь по специальности «Системный аналитик», но еще ни разу не встречал настолько интересный и показательный пример интеллектуального анализа данных.
Единственное — становится страшновато, так как сам играл в Айон и чувствую себя овечкой в ведомом стаде =)
Пробовал я ваш этот Aion хвалёный. Скачал клиент, зарегал триалку, зашел в игру. Первое впечатление — круто! Всё красиво, технологично, удобно и продумано. Высокоуровневый контент, думалось мне, еще лучше. В-общем, начал играть.

Качнул пару уровней, дошел до ближайшего поселка. И там меня сходу ошарашили боты, стоящие на главной площади и беспрерывно орущие в чат что-то вроде «продам голд за смс». Штук 10 их там стояло, каждый спамил с интервалом в 2-3 секунды. Вам рассказывать дальше, почему я тут же разочаровался и покинул игру навсегда? Это ведь даже не бета была, проект уже твердо стоял на ногах минимум полгода. Такой пофигизм прежде всего демонстрирует отношение к игрокам — если допускаются настолько раздражающие вещи, то о чем-то большем и говорить не стоит.

Я вернулся обратно в WoW, о чем и не жалею. Да, там тоже есть черный рынок, и в чате регулярно появляются предложения купить голд за реал. Но дело не в этом, такое будет в любой ММО. Но всё не настолько нагло.
Борьба с ботами по ряду причин не очень выгодна компании, особенно учитывая то что разработчики системы защиты против ботов (фрост) сами же продавали систему «антифрост», позволяющую этих самых ботов разводить :)
Ну, я, собственно, об этом главным образом и говорил.

Отношение к игрокам следующее — вот вам сервер, вот вам клиент, вот ваша абонплата. Всё есть? Ну и развлекайтесь как хотите, там какие-то квесты, данжи и прочее, кажется, было. Если NCSoft сделает дополнение, переведем, проинсталлим, будет вам еще нямка. Всё остальное не наша забота.
Плюсую.
Мне кажется ещё, что при анализе не учли самый главный фактор, когда игра — гуано. Тогда игрока в ней ничем не удержать.
на данный момент aion является одной из самых высокотехнологичных игр этого жанра… графика, управление, интерфейс (есть конечно ряд просто нереально дибильных ляпов, но куда уж без них)

чего стоят таке сладости как груповые/альянсовые метки, внутри-игровая база квестов и поиска целей, сбор группы, пвп данжи (целый один),… даже обычный клипбоард между игрой и операционной системы оказывается невероятно сложен в других играх (я пробовал много).

У меня есть предположение что развитие и выход Tera online и Blade&Soul придерживаются исключительно чтобы побольше собрать сливок с Aion, а не из-за каких то технических или организационных проблем (не надо говорить что в корее они уже есть… там даже не готов ПвП контент… почти платный альфа тест).
>У меня есть предположение что развитие и выход Tera online и Blade&Soul придерживаются исключительно чтобы побольше собрать сливок с Aion

А не из-за выхода GW2 через полмесяца?
Статья хорошая, но труд автора в целом не очень полезен с точки зрения спасения проекта.

Собственно, я и запускал AION в России (всю тех часть).

Суть проста — AION неинтересен игрокам, и никакие исследования тут не помогут.

Саркисян просто ткнул пальцем в небо и попал не туда ;).

1) Модель платной подписки в России не работает, кроме cовсем уж монстров типа WOW

2) Дикое количество ошибок, сделанных корейцами в коде (тупо — они даже с TCP/IP ухитрялись неправильно работать, в результате чего на «длинных» линках было огромное количество проблем — NOACK и прочее) — даже на качественных линках (но больших расстояниях) постоянные «фризы».

3) Все игроки жалуются что игра просто тупа и однообразна.

Результат — AION фактически провальный проект (CCU поинтбланка уже похоже выше CCU AION, при затратах на последний в десятки миллионов долларов, на первый — максимум сотни тысяч).

Недаром Иннова сейчас пошла в Европу и США именно с «Линейкой» (я этим и занимался проработкой пока -сяны не решили грязно кинуть команду инженеров).
1) Откуда дровишки данные?
Когда Властелина Колец Онлайн перевели на f2p, были недовольны практически все игроки. Фритуплей как бы по умолчанию переводит игру в категорию В, что сразу снижает к ней интерес. Люди готовы и хотят платить за качественный проект. Поинтересуйтесь, сколько людей в России и странах СНГ готовы играть в SWTOR даже при условии того, что он не локализован. Сколько народа играло на старте AoC. Сколько играет в Rift.
Данные сугубо практические.

По поводу сверх-качественных игр — как я и написал, люди платить готовы, но AION никоим образом таковой игрой не является (что в принципе даже сам NCSoft понял).
Когда LOTR перевели на f2p у него доходы выросли (дай б-г памяти) то ли в 2, то ли в 5 раз ;)
именно! третий пункт! игра поражает в начале своей красотой, но потом просто убивает своим однообразием и обилием хомяков(игравшие поймут). это словно проклятие какое то. все хорошие игры убиты донатом или изжили себя. действительно красивые — убоги по сути своей.
По первому пункту — ф2п это ужасно. И со временем даже наши школьники смогут это понять. Фактически, ф2п это признак некачественного проекта, проекта, где разработчики махнули рукой на игру и придумывают не новые квесты, а новые предметы, которые можно подороже продать за реал. Ф2П это просто убийца игрового интереса, причем убивает он интерес и тех кто платит и тех, кто не платит. Я в свое время был и тем и другим.
С моделью Eve Online знакомы? Там вроде как абонентская плата (15$/мес), но «донаторы» могут тайм-коды продавать за игровую валюту. В итоге, утрируя, для «задротов» игра бесплатна (за выходные при прокачке 3-4 месяца было реально нафармить на тайм-код на месяц), а «донаторы» не тратят время фарм игровых ресрусов. Да, бесплатный триал на 2-3 недели позволяет при высоком онлайне и активности накопить на месяц оплаты, плюс есть способы передавать ресурсы от одного триала к другому, а значит «заработать» на тайм-код за несколько триалов (прокачка теряется). Правда, говорят, мыть окна машинам или дворником поработать эффективнее, но если есть выбор, это лучше когда его нет.
не согласен. фтп добавляет в игру классовое неравенство. этот сложнейший социальный элемент из реальной жизни переносится в игру именно так и добавляет игровому плоскому миру объема и жизни. кому нужны все эти однообразные квесты, когда люди приходят играть друг против друга, доказывать окружающим, что он круче?
Это все равно, что вот сейчас в нашей реальности появятся люди с некими сверх-способностями, которые им выданы по меркам нашего мира незаслуженно. Мы, находясь в этом мире, не будем понимать, за что им такие блага. А раз эти блага у них есть, то они просто станут некой кастой супергероев и будут жить своей жизнью.
Плюс ко всему теперь все те, кто жил в этом мире, был полностью погружен в него, теперь узнают, что этот мир на самом деле не настоящий и захотят его покинуть, ведь там где-то есть более настоящий мир, зачем оставаться здесь? Одним словом атмосфера будет нарушена.
Вы, когда встаете утром, не забываете ли протирать глаза? У нас есть такая каста в стране. И не только у нас — в каждой стране она есть.

Есть теория, которая подтверждается изысканиями математиков вроде Мандельброта и упомянутого выше Талеба и которая говорит, что 80% благ находится в распоряжении 20% людей. Они — наши вполне реальные «супергерои», которые живут своими жизнями и играючи влияют на наши. А еще существуют религии, которые говорят, что реальный мир ненастоящий. У этих конфессий есть миллионы последователей.

Что вам не нравится в атмосфере ф2п игр? Люди приходят играть в реальность. И они получают то, за чем приходят. Единственное, что ненастоящее в таких мирах — объекты. Они моделируются машинами. Все остальное — власть, деньги, страсти, эмоции — настоящее не бывает.
Говорю еще раз, только другими словами.

Для того чтобы создать мир (игровой, не важно какой), нужно изолировать его от внешней материи. Нужно пускать в мир только нематериальные вещи — волю, намерение, эмоции. Если в мир будет попадать чужая материя, она просто сотрет этот мир, он сольется со внешним миром. Вместо того, чтобы предложить посетителю пожить в нем он теперь будет предлагать посетителю лишь некие забавные инструменты, которыми можно манипулировать. Вон, как у хоккеистов есть клюшки и шайбы, он предложит подержаться за что-то подобное. Игроки останутся в своем прежнем мире и будут только дергать за рычажки.

Теперь смотрите: я не уверен, так ли вы понимаете суть игры, как и я, но по моему игра это некая возможность полного перерождения. Вы садитесь играть, чтобы родиться заново, чтобы вновь на некоторое время ощутить радость детства, познания, взросления и т.д. А теперь представьте, что вы уже переродились и живете этой новой жизнью, но тут вдруг приходят админы и говорят: все, возвращайтесь обратно к своей старой реальности — теперь на вашу новую жизнь будет полностью влиять ваша старая жизнь. Кем вы там были в старой жизни? Бедняком? Вам нет спасения — вы им и останетесь! Что? Богачом? Ну тогда на что вы жалуетесь — платите и теряйте интерес теперь и к этой реальности! Есть деньги, но не хотите платить? Не вопрос — не платите… но вы же теперь будете знать, что другие платят, верно?
Будда настаивал, что даже когда мы перерождаясь теряем память, эта круговерть перерождений все равно остается для нас адом. Теперь вы и этого лишены. Перерождайтесь со своей старой памятью и вступайте в сражение с извечной скукой. Зачем играть в такие игры, если реальность и без того под рукой? Бессмыслица.

Все, игровой мир никого уже не волнует. История? Конфликты? Атмосфера? Древние расы? Зачем все это нужно, если мы уже не живем в том мире по настоящему, с чистого листа? Это все равно, что придумывать сюжет и предысторию для шахмат. Есть фигурки, вот и двигай ими — чем не игра?

Надеюсь эта аналогия донесла до вас смысл того, что я хотел сказать?
И кстати, я не против классового неравенства — наоборот, это здорово и добавляет интереса. Я против того, чтобы оно переносилось из реала в виртуал. В общем-то об этом я выше и написал.

По поводу модели eve online, она, помоему, имеет право на жизнь до тех пор, пока влияние ее на игровой мир мизерно по сравнению в процессами самого мира.
я прекрасно понял вашу точку зрения еще до прочтения этого развернутого объяснения. понимаете, какая беда: деления «реал/вирутал» не существует. хотя бы потому что и там, и там люди играют в себя любимого и настоящего. то, что вы описываете — прекрасно как идея. примерно так же в теории прекрасны коммунизм и демократия. но все это утопии. ft2, p2p… это всего стратегии монетизации, также как коммунизм и демократия — всего лишь способы организации общества.

в итоге, с точки зрения вашей же идеи, даже вам должно быть все равно, какую из них воплотят в отдельном проекте, потому что есть черный рынок, и вы его не убьете никак. а он, без оглядки на бизнес-модель, и добавляет львиную долю того, что вы хотите «повесить» на f2p
Идея мне нравится, но я вообще не максималист, поэтому достаточно малого — чтобы разработчики создавали свою игру так, чтобы в ней не было реальной валюты. Например, предметов, которые можно купить только за реал. Там ведь чем дальше развивается проект, тем больше создатели уделяют внимания торговле реалом, чем другим аспектам игры. Поэтому игра в каком то смысле часто превращается в некий кемпинг, где туристы снимают домик, вместо того, чтобы его строить из растущего рядом леса или по старинке самим ставить палатку.
пока -сяны не решили грязно кинуть команду инженеров

Кстати как там эта история поживает? А то завязка была, а развязка?
Ситуация достаточно патовая

Дело закрыто против инженеров (или под сукном), -сяны (пока) утихомирились (ибо те деньги что они «сэкономили» они уже потеряли намного больше на всей шумихе).

Против «Инновы» было 5 заседаний (тут уже понятно, что при всех ресурсах что у них есть — пять слушаний это уже весьма не по-детски), на 5-м похоже они смогли договориться с прокурором (потом мне уже рассказали что в местной прокуратуре у них тоже подвязки), мы будем подавать апелляцию.

Что буду делать дальше я? Писать заявки в британские и американские службы на них, ибо как раз они решили выходить на эти рынки, да и не верю я что что-то осознали (просто затихли на время).
Спасибо, мне как заядлому игроку в WoW тема Data Mining в ММОРПГ действительно интересна. Требую продолжения банкета!
P.S. Вы эту фичу на заказ делали?
Про заказ не понял. Нам было интересно научиться датамайнить — сделали :)
То есть пока что делаете всё для себя? Это круто! Я думаю если вы представите ваш подход заинтересованым фирмам, то вас скорее всего озолотят.
В России заинтересованных фирм особо нет :)

А вообще — в октябре я был в Остине на GDC Online, и там руководитель аналитики Blizzard рассказывал про их подходы к сегментации и анализу. Они молодцы, впереди моей команды на два шага минимум.
Ну, это близзы… Рабочее место моей мечты, только в Париж переезжать лень.
А есть возможность посмотреть видео с этого выступления?
Это я знаю. А возможность для не участников посмотреть есть? Запись на видео хостинге, например?
Таких факторов было проверено множество — более 60. Ни один из них не является сколь-нибудь существенным и определяющим уход игрока. Ни один!

Там есть фактор типа «сломал дорогой предмет при переточке»?
Вы упомянули две книги, но точно назвали только одну. А какая вторая? И было интересно узнать какие ресурсы сети были для вас полезными на пути от «с нуля» до рабочей и полезной модели?
UFO landed and left these words here
Ну по сути две книги:

1. «Программируем коллективный разум» Тоби Сегаран — отличная книга для понятия предмета датамайнинга
2. «Microsoft SQL Server 2008: Data Mining. Интеллектуальный анализ данных» Д. Макленнен, Ч. Танг, Б. Криват — это по самому инструменту, как делать
Я бы добавил еще учебник по матстатистике к списку и пару книжек по обработке многомерных данных.

Вместо того чтобы дрючить руками гигабайты данных можно было попробовать прогнать иерархическую кластеризацию или SVM и посмотреть что получится, для начала.

Ну а вообще круто, мне нравятся такие задачки :)
За ссылки спасибо. Книга в очереди на прочтение :)

Чем то кроме продукции MS из софта пользовались? что нить типа R или Weka?
Нет, инструментов MS BI полностью достаточно пока, и я даже удивился насколько они простые и эффективные.
Вопрос у автору: вы пробовали добавлять в анализ гипотезы, не связанные непосредственно с игровым процессом? Фактически, своим исследованием вы еще раз подтвердили, что причина оттока игроков лежит далеко не в самой игре. Собственно, для этого не надо было тратить два месяца и кучу технических ресурсов, достаточно было предложить отдельным личностям в компании почаще смотреться в зеркало.
Труд автора заслуживает уважения, особенно тем что он фактически не понимает реальной цели почему Саркисян попросил его это сделать.

1) Потрачены впустую миллионы долларов (десятки миллионов), + кабальные контрибуции NCSoft'у ежемесячные.

2) Проект провальный (не блещет сама игра + много полу-уголовных личностей в команде / топ-менеджменте + провальная работа с пользователями и массмедиа)

3) Надо искать (срочно) оправдания, желательно с красивыми графиками и большим «базисом».

Далее — из пустого места делаются исследования, которые в результате ничего не дадут (даже если вдруг придумать что-то «мега») — корейцы просто отказываются ради Инновы делать какие-то существенные изменения в коде (мельчайшие вещи можно годами просить изменить).
Спасибо за статью, очень интересно было прочитать на тему data mining.
Тоже хотел спросить на тему «почему уходит игроки», разве разработчики форумы/социалки не хотят почитать? Часть людей пишет (далеко не все конечно), что ушли по какой-либо причине и часто ее подробно описывают, да еще и очень красочно.
Пардон, это был не ответ в коммент, а ответ в топик.
Это никому не интересно.

Мало того, вообще в свое время удалось с трудом отстоять форум «инновы», ибо топам жутко не нравилось что там люди пишут и было принято самое удобное решение — просто закрыть.

Эти ребята не умеют даже на два шага вперед смотреть, они привыкли решать проблемы «здесь и сейчас».

Задача сейчас — найти оправдания провальности проекта, и под это дело подтягивают «научную базу», хотя полчаса нахождения на форумах и так даст все ответы ;)
Не совсем согласен. Автор говорит про отсеивание новичков. Разговор о тех кто уходит после пары-тройки часов игры. Такие игроки вряд ли будут тратить время на «душе-изливание» о причинах ухода, так как они почти и не приходили. Регистрироваться на форумах и досках вряд ли кто то из них будет.
Если люди играют — то на одном из форумов они сидят, да и не надо путать все же теплое и мягкое (хотя это и рядом ;) ) — если игрок ушел с одной игры, он вполне может себе играть в другую (например ушел из AION и вернулся в Линейж, или начал играть в PB)

Это исследование вообще достаточно странное, ввиду того что как раз такой сверхважный факт просто не учитывает (миграция пользователей между проектами даже внутри компании), что сильно портит картину ;)
Кросс-конверсию взяли как один из факторов в первой фазе. И как я понял этот параметр попросту отсеялся, так как алгоритм показал его минорный эффект.
Но это как раз глубоко ошибочно :) Очень много пользователей как раз пробуют тот же Aion и возвращаются к тому что больше нравится.

Иннова (различными методами) скупила достаточно / получила права на достаточно большой объем различных проектов игровых, и внутренняя миграция весьма высока.

Еще раз, все «исследование» — в принципе фикция, ибо причины оттока / миграции совершенно очевидны, а если проводить анализ — то по всем проектам компании одновременно (но у Инновы просто нет технической возможности это сделать) — особенно с учетом наличия lineage2 в портфолио.
Таких факторов было проверено множество — более 60.

Огласите, пожалуйста, весь список.
про предсказание уходов старичков

Очень интересно — эта аналитика гораздо сложнее представленной(до 9 уровня, который можно вкачать за 2.5-3 часа). Где-то год назад я покинул EU Aion Perento, играя в режиме хардкор PvP. Хотелось бы узнать те факторы, которые по вашему мнению могли на меня повлиять.
Для старичков гораздо больше данных и другой подход.

Для новичков мы берем мгновенный срез на сегодня, и этого достаточно. Для старичков — делаем срезы с интервалами 3-7 дней и сравниваем изменения метрик между срезами. И недавно второй метод решили посмотреть — отталкиваться от кластеров и искать «протекающие» кластеры, группы риска — откуда больше всего отток игроков идет.
Расскажите о паре интересных факторов для «старичков». Например, социальные связи, стиль игры(если есть такие), чтобы полная версия аналитики была долгожданной ;)
Сложно анализировать уходы тех, кто перестает активно играть — выполнять квесты, убивать мобов, — но при этом сидит в игре часами. Поскольку непонятно что они делают, то не работают старые метрики активности. Работаем по ращным направлениям, вплоть до подключения чат сервера и анализа активности общения.
Кстати, да, часто захожу в игры лишь чтобы пообщаться. Когда круг общения по разным причинам уменьшается, то бросаю игру.
Привет норм-чантеру из Аетерисов:)
Для ответа на вопрос «почему уходят игроки?» вы делали факторный анализ?
Нет, это пока за пределами моих знаний
Вы сильно сократили бы время на обработку если бы использовали не только модный «data mining», но и классическую матстатистику :)
Купим в офис пару учебников, попробуем!
Я бы в выводы добавил еще, что хорошая система логгирования действий игроков в онлайновом продукте — это альфа-и-омега аналитики. Не зная, что, как и сколько делают ваши юзеры, крайне сложно анализировать факапы.

Дима, спасибо за статью — натолкнуло на несколько мыслей. Как ты считаешь, возможно ли общее решение для таких проблем? Например, middleware, которое на вход берет параметры, а на выходе дает прогнозы? Или игры настолько разные, что привести к общему знаменателю нереально?
Я думаю возможно, но бессмысленно. Как я в конце четко разделил, предсказательные выводы не имеют описательной силы. Да, игрок уходит — но факторы предсказания ничего не могут дать для качественного понимания ситуации. А детальное исследование геймплея глубоко индивидуально, и еще меняется для игры довольно быстро по мере ее развития. По мере построения детальных данных обобщенная активность набирается сама собой, т.е. предсказание является как бы следствием изучения геймплея конкретной игры.
Почему просто не провели дифференциальную статистику между теми кто активно играет и теми кто ушел? Уверен социальные действия играют основную роль.
Судя по последней таблице, получается, что на каждом из первых 7 уровней уходит по 90% игроков. И получается, что до 8 уровня добирается только 1 игрок из 10 миллионов запустивших игру. Я правильно понял эти данные?
Нет. Из застрявших на каждом уровне уйдут 90%, а 10% — пили пиво, уехали на дачу, но будут дальше играть. А активные — они быстро проходят за 10 уровень. Я в начале написал, что на триале мы теряем примерно половину всех новичков.
Застрявшие — это те, которые за один присест не проскочили все 7 уровней?
Не совсем. Из проскочивших за 1 присест неважно сколько на самом деле уровней, 9 уровень — это тоже один долгий вечер. Но есть большАя часть тех, кто играет 2-3 дня прежде чем забросить игру — вот их определять интересно.

Я выкинул из статьи слишком уж техническое описание приема с 9 уровнем — там на самом деле данные были разделены на два потока — тех, кто набрал 9 уровень за 1-2 дня и тех кто за 3-7 дней. Для них были построены принципиально разные модели.
В конце концов, задро^W твинко/мультоводы разнюхают все про «плюшки», научатся имитировать «уходящих» игроков и будут тоннами их (плюшки) фармит.
Кстати, а почему у вас на первом графике смайлик в середине превращается в девочку 9го уровня? :)
Спасибо автору за интересную статью. Мне на самом деле не важно, какие внутренние проблемы испытывает сам проект, почему он провальный/не провальный и какие еще политические нюансы здесь есть (хотя об этом комментариев в топике не меньше половины) — я считаю, что для данной задачи подобные метод анализа пришлись весьма кстати. Похожие методы также применяются в веб-аналитике (имя Авинаша Каушика в статье как бы намекает), за основу берутся данные, полученные например из Google Analytics.
интересная статья, на счет первых уровней тут имхо банально не то, что ожидал игрок! — это так сказать одним высказыванием. Часто реклама одно, а игра совсем не то, что было в рекламе, также трудность без денег на начале этапа или скажем в понимании сразу же грузит. Я лично смотрю жанр и графику — это первые из-за чего я сразу закрою не начав скорее всего играть, может пару действий. Потом юзабилити становится тоже важным и т.д.
По возможности, не могли бы вы поделиться примером «самого лучшего в мире лога» :)
Хочется понять, что такое «каждый чих» и оценить уровень атомарности событий.
Интересно было бы почитать про ваш опыт сегментации и кластеризации игроков.
Супер, отличная статья. Я пытаюсь сделать предикт в другой предметной области, есть общие вопросы, можете рассказать:
1. Сколько у вас было независимых переменных в датасете для decision tree?
2. Как вы измеряли ценность вклада независимых переменных в значение?
3. Как вы оценивали качество дерева?
4. Как вы делили численные переменные на классы? Я пробовал руками, автоматическим дискретизатором, outcome = shit.
5. Использовали ли вы prunning для дерева?
6. Где можно почитать про «сначала факторы и корреляции (Байес), потом их влияние на итог (дерево решений).» не понял, о чем речь :)

Прямо сейчас у меня два исхода: либо чудовищно сложное дерево на сотни листов от 8 независимых переменных, либо десяток узлов с включенным prunning.
1. Вообще фичей пробовали много десятков, в финальную модель вошло что-то около 10, если я правильно помню.
2. Не измерял
3. Когда работал с деревом, то визуально — смотрел на каких сплитах дерево дает сильные ошибки. В SQL Server такая визуализация по умолчанию, очень удобно. А качество в целом — сравнивал с другими моделями, с байесом и нейросетью.
4. Дискретизатор встроен в SQL Server. Число бакетов подбирал руками, это была самая долгая работа.
5. Конечно, есть несколько ограничителей — либо по числу потомков в ветках, либо по complexity (не знаю адекватного перевода). Тут тонкая область — мы пару раз обламывались на переобученных моделях, так что дерево надо перепроверять как другими моделями, так и на выделенных для верификации данных.
6. Имелось ввиду, что чем лучше мы знаем и понимаем данные, тем правильнее можно скомпоновать модель. Например, если некая фича X сильно корреллирует с предсказываемой (а это как раз и есть анализ Байесовской модели), то её очистке, нормализации и дискретизации надо уделять пристальное внимание в первую очередь.
Для визуалов видео от конкурирующей конторы (я к ним отношения не имею, но выступление мне понравилось):
https://www.youtube.com/watch?v=7O1PX6qzntI

я слишком «слаб» для вставки видео или кнопка не работает :)
Only those users with full accounts are able to leave comments. Log in, please.