Как стать автором
Обновить
5
0
Александр Семёнов @semenoffalex

Пользователь

Отправить сообщение
Мы устраивали пробный in-class Kaggle для определения вероятности победы команды на основе одних только пиков, без учёта их порядка (см. мой предыдущий комментарий). Как ни парадоксально, добавление информации о герое (carry/pusher/nucker/и т.д., тип атаки и прочее) только ухудшало точность предсказания вне зависимости от выбранной модели (логрегрессия, XGBoost). Причём данный эффект был обнаружен не только у нас, но и в немногочисленной литературе по теме. С чем он связан мы пока так и не поняли.
В Captain's Draft и Ranked All Pick действительно есть возможность учесть порядок выбора героев, который очевидно оказывает очень большое влияние на успех матча, однако тут возникает проблема комбинаторного характера — количество уникальных игр, где герой А был выбран первым, B — вторым и т.д. равно числу размещений (arrangements) из 112 по 10, т.е. 205368317946676700000. Плюс по каждому из таких размещений нужно иметь статистику в несколько тысяч матчей. Я не уверен, что со времени запуска Доты2 накопилось столько матчей, чтобы можно было использовать машинное обучение для решения данной задачи с учётом порядка выбора героев. А хотелось бы...
Не за что. Все эти книги у меня есть и уже изрядно «замусолены» (даже в PDF), поэтому радею тут я не ради себя =). Я учил/читал их примерно в той последовательности, в которой расположил тут и если бы нужно было выбрать для издания только одну, я бы склонился к R in Nutshell, потому что именно на ней чаще всего заканчивались мои базовые вопросы по работе с языком. Дальше — только StackOverflow.
Сразу скажу, что в данном холиваре я нахожусь на стороне гордых useR'ов, т.к. считаю, что анализ данных (а не программирование) целесообразно изучать и выполнять в языке, который изначально для этих целей создавался, т.е. в R.

Поэтому если вашей задачей является развитие направления обучающей литературы по теме Data Science (а не по программированию), то целесообразнее издавать книги по R. Тем более, если вы сами считаете, что R сложен в изучении (с чем я, кстати, не согласен). Я навскидку знаю только 2 книги по R на русском языке (одна из них переводная), что опять же свидетельствует в пользу издания книг по данному языку.

Вот список достойных, на мой взгляд, книг:
Learning R
R in a Nutshell
R Graphics Cookbook
R Cookbook.
Practical Data Science with R
Это всё, конечно, замечательно, но только к SNA описанные вами задачи имеют весьма опосредованное отношение.
Я бы не стал так полагаться на выводы приведённой вами статьи про 10%, т.к. они были получены на основе мат. моделирования и симуляции и пока не имеют под собой реальных эмпирических данных.
В социальных сетях распределение степеней в большинстве случаев подчиняется степенному закону ("Power Law")
Удачи в борьбе с «тяжёлым хвостом»! =)
Мне кажется, что тут существует опасность того, что на популярные вещи типа (iphone 1/2/3/4/5) алгоритм выдаст вам миллион людей, в то время как по редкому изданию комикса о Человеке-Пауке, радость от обладания которым вы хотите разделить с единомышленниками, — никого.

По крайней мере мой опыт анализа интересов в Vkontakte и интересов/тегов в ЖЖ показывает, что, грубо говоря, 99% пользователей разделяют интересы киноф/фото/музыка/гулять и 0,000001% указывает какие-то узкие тематические интересы из различных областей.
Я это всё к тому, что в последнее время физики/математики/компьютерщики сильно возбудились по поводу «социальных сетей» и начали перекладывать на них модели и алгоритмы из своих областей (зачастую совершенно бездумно), приходя таким образом не к самым корректным выводам. Поэтому называть кластеризацию на графах «обнаружением сообществ» не совсем корректно.
Например, я могу выделить сильносвязные компоненты и предположить, что все люди в таких компонентах относятся к определённым социальным группам — а по информации из профайла я могу понять, что именно их объединяет.

По моему опыту это работает на эгоцентрических сетях Вконтакта и Фейсбука, т.к. они более-менее связаны с офф-лайн знакомствами. В графе френдов ЖЖ ситуация несколько иная, т.к. там контексты «дружбы» сильно различаются.

можно сравнить аккаунт пользователя с аккаунтами его друзей по отдельным факторам, и таким образом определить, насколько значимыми являются выбранные факторы для данного пользователя при выборе круга общения

Это зовётся «гомофилией» — склонностью контактировать с похожими на себя людьми. Однако, тут нужно быть аккуратным с направлением каузальности, ведь существует другой процесс (в западной литературе он зовётся «social contagion», адекватного перевода на русский я еще не нашел), согласно которому близкие люди со временем становятся во многом похожими.
«содержательная интерпретация» таких графов вполне возможна.


Например?
«содержательная интерпретация» таких графов вполне возможна.

Например?
Это благое дело. Если уметь ставить исследовательские задачи, твиттер может быть весьма полезен, т.к. предсказание котировок акций и результатов выборов на основе его данных в последнее время набирают популярность.
Я бы поостерёгся называть задачи, связанные с кластеризацией графов френдов, «выявлением сообществ». Всё-таки сообщества, даже он-лайн, подразумевают постоянство участников, общность их целей/интересов, длительность и регулярность взаимодействий. Членство в сообществах, обладающих для своих участников какой-либо ценностью, требует затрат ресурсов. В контексте Интернета это в первую очередь время и внимание (на чтение/написание постов, комментов, ведение дискуссий и т.д.).

В то же время, для создания «дружбы» в любой он-лайн соцальной сети как правило требуется пара кликов мышью, а поддержание данного типа отношений зачастую и вовсе не требует усилий (вы поздравляете все свои контакты с днём рождения?). Более того, люди вкладывают различные смыслы и цели в контакты в социальных мидиях (поддержание офф-лайн отношений, адресная книга, демонстрация связи с примечательной персоной и т.д.).

Это, как показывает мой опыт и исследования, делает графы, основанные на списках контактов в ЖЖ, Твиттере и прочих сервисах, достаточно сложными (а иногда и вовсе бессмысленными) для содержательной интерпретации.

Математическое моделирование в данном контексте и вовсе отдельная песнь.
Спасибо, очень своевременная статья, т.к в данный момент пытаемся решить похожую задачу.

Скажите, пожалуйста, как именно называется этот алгоритм, чтобы о нём можно было подробнее почитать в книжках, подобных той, что вы указали. Это какая-то модификация ID3?
Книге явно не хватает иллюстрации описанных алгоритмов на примере какой-нибудь эмпирики. Поэтому довольно сложно оценить эвристическую ценность этих алгоритмов и самой книги.
Степени узлов (node degree) в сетях подобного рода распределены экспоненциально (power law), поэтому действительно получится «волосяной комок», который не спасет никакая фильтрация по весу рёбер. Довольно бессмысленное зрелище.
1

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность