Pull to refresh
60
0
Александр Петров @asash

Researcher @ University of Glasgow.

Send message
Не знаю насчет сбербанка, но могу сказать за Data-Centric Alliance — с курсов у нас работает 2 человека, еще 2 находятся на рассмотрении. Также знаю что один человек устроился к нашим конкурентам, один в дружественный стартап занимающийся пресональными рекомендациями, а один начал делать свой бизнес связанный с монетизацией технологий работы с данными.
Как уже писали выше, честнее конечно было бы сказать что мы предсказывали не честный социотип, а социотип выявленный анкетой. При этом качество предсказания получилось достаточно высокое, отнюдь не 50/50 (см ROC-кривую).
Вопрос который был поставлен в рамках исследования — может ли таргетирование на предсказанный социотип(хотя бы по каким-то из измерений) быть полезным для рекламных кампаний быть полезным. Полученный ответ говорит что может, безотносительно к качеству начальных данных, и качеству самой MBTI — этого качества оказалось достаточно чтобы зафиксировать 25% повышения CTR%.

Исследования выявления классов заранее(еще до рекламной кампании), выбор других характеристик — все это безусловно интересно и будет делаться, но выходит за рамки приведенного исследования.
Если погрешность слишком большая, то модель получится плохая и на контрольной выборке предсказание не будет кореллировать с действительностью.
Не очень понятно что конкретно мы огрубили и что должны были подать алгоритму сразу?
Раскрывать партнера к сожалению мы не можем, но могу сказать что это один из популярных публичных сервисов определения своей личности. Субъективно тест выглядит адекватным, лично для меня ответы на все вопросы выглядят однозначными.
1) Если уж совсем точно — мы можем предсказывать не «тип личности», а «результат анкетирования на выявления типа личности». Этот результат подтверждается валидацией по контрольной выборке (которая не участвовала в обучении модели). Для оценки использовался ROC-анализ, по каждому из 4-х признаков приведена кривая характерезующая качество.
2) Был дан ответ на вопрос «а может ли влиять признак на CTR». Ответ — да может, на одной из рекламных кампаний по 2-м принакам есть значимое различие. Других выводов сделано не было )
3) Типы определялись по косвенным признакам — результату анкетирования. Разработкой анкеты занимался партнер.
Используемый метод предполагает наличие ошибок данных(как и большинство современных методов машинного обучения).
Гарантия качества каждой конкретной анкеты не требуется, требуется чтобы среди люей отнесенных к определенному классу действительно было больше людей из этого класса.
Способ выявления соответствия — это класcическое машинное обучение(в данном случае Gradient Boosting). Гарантия не дается, мы говорим в терминах вероятностей. То есть примерно так «наша уверенность в том что данный человек является интровертом составляет 70%».

Проверка проводилась кросс-валидацией. Мы заранее отобрали часть пользователей для которых тип личности был выявлен классическим способом(прохождение теста), а затем сравнили показания с выдачей алгоритма.
Я придерживаюсь точки зрения что теория состоятельна до тех пор пока она позволяет решать практические задачи. Например ньютоновская механика не работает для расчетов скоростей планет(нужно учитывать релятивистские эффекты) но вполне подходит для повседневных задач, хотя и является «заведомо ложной». Также и в данном случае-была проверена гипотеза о том что конкретная теория для решения конкретной задачи. Ответ был получен математически строгий — да, подходит. Для большинства теорий существуют границы их применения, и это не делает их «заведомо ложными» там где они работают.
1) Нет, не дает. Но вопрос качества самой MBTI-классификации выходит за рамки данного исследования. Мы математики а не психологи, поэтому взяли самую известную классификацию и проверили годится ли она для чего-либо :)
2) Действительно данное исследование показывает что значимо отличаются бинарные признаки. Про добавить табличку со всеми 16-ю типами подумаем.
Кстати если кто-то подскажет более «правильную» таксономию типов личности и даст ссылку на тесты их выявляющие — для нас это будет очень интересно и мы скажем большое спасибо :)
Собственно нигде и не было сказано что классификация идеальная или что-то такое.
Она как и любая теория имеет свои ограничения, но в каких-то ограничениях-работает. Задачей было проверить укладываются ли клики по баннерам в эти самые ограничения, или для прогнозирования кликов эта теория не применима. Ответ получен статистически значимый — используя разные социотипы получаем разный(статистически значимо разный) результат, значит используя для таргетирования рекламы можно улучшить отклик от рекламной кампании. Таким образом бизнес-задача была решена.
Никто нигде не утверждал что типология идеальна, что она всесторонне позволяет оценить человека, и лично я не согласен с тем что человека можно описать всего 4-мя признаками. Мы думаем какие еще можем выделить полезные признкаки исходя из поведения и для этого в том числе консультируемся с профессиональными психологами.
Не совсем так.
По сути в статье дается ответ на два вопроса.
1) Можем ли мы определить тип личности на основе поведения пользователя(или его интересов если хотите). Ответ — можем с достаточно высокой точностью. Об этом говорят значения метрики качества классификатора (0.77 можно считать хорошим значением для данной задачи).
2) Может ли быть выявленный на основе поведения тип личности быть полезен для таргетирования рекламных компаний. Ответ — можем, по 2-м из 4х измерений на пробной рекламной кампании получили статистически значимое отклонение CTR по противоположным типам личности.

То есть еще раз: зависимости исследовано две(тип личности от поведения/интересов) и CTR от типа личности, а не одна прямая зависимость CTR от поведения.
Актор на каждого юзера создается для того чтобы инкапсулировать в себя всю информацию про этого юзера, чтобы вся нужная информация нужная для обработки была доступна локально.
Сложно сказать. На таком потоке вероятно вылезут какие-то дополнительные ограничения, которые не видно сейчас. Например у меня серьезные подозрения что RabbitMQ пришлось бы заменить на что-то другое.
Storm тоже хорошая система. Пробовал его на предыдущем месте работы, вполне себе работало. В общем вполне можно промышленные системы строить и на нем тоже, тут скорее дело вкуса. Нам понравилась именно идеалогия акторов, которая подходит не только для потоковой обработки данных, но и вообще для широкого класса задач распределенных систем.
Мы были уверены что при помощи akka можно решить бизнес-задачу и умеем ею пользоваться. О спарке слышали(и проверили на собственном опыте) много отзывов насчет его глючности.
— какой у вас роутинг в раббите? (директ, топик, фанаут?)
для этой системы мы не используем routing, все dispatchers читают из одной очереди
— как оно переживает деплой новой версии программного кода?
хорошо переживает :) мы не пробовали запускать несколько нод с разными версиями акки, а наш внутренний протокол мы делаем обратно совместимым
— что происходит в системе, если актор не справляется с обработкой сообщения и падает?
у акки есть механизм supervisors, в самом простейшем случае этот актор будет перезапущен(но есть варианты)

Сегментов на текущий момент около 2000 разных(пользователь одновременно находится в нескольких из них, но не во всех). Если хотите удалиться из сегментов -можете например пройти по этой: exebid.ru/optout.html ссылке.

Information

Rating
Does not participate
Location
Glasgow, Scotland South, Великобритания
Date of birth
Registered
Activity