Комментарии / Профиль semenoffalex / Хабр

Александр Семёнов@semenoffalex

Пользователь

Подписчики

Уроки участия в хакатоне «Dota Science» в рамках «Data Fest 2»

semenoffalex 11 мар 2016 в 08:45

Мы устраивали пробный in-class Kaggle для определения вероятности победы команды на основе одних только пиков, без учёта их порядка (см. мой предыдущий комментарий). Как ни парадоксально, добавление информации о герое (carry/pusher/nucker/и т.д., тип атаки и прочее) только ухудшало точность предсказания вне зависимости от выбранной модели (логрегрессия, XGBoost). Причём данный эффект был обнаружен не только у нас, но и в немногочисленной литературе по теме. С чем он связан мы пока так и не поняли.

Уроки участия в хакатоне «Dota Science» в рамках «Data Fest 2»

semenoffalex 11 мар 2016 в 08:36

В Captain's Draft и Ranked All Pick действительно есть возможность учесть порядок выбора героев, который очевидно оказывает очень большое влияние на успех матча, однако тут возникает проблема комбинаторного характера — количество уникальных игр, где герой А был выбран первым, B — вторым и т.д. равно числу размещений (arrangements) из 112 по 10, т.е. 205368317946676700000. Плюс по каждому из таких размещений нужно иметь статистику в несколько тысяч матчей. Я не уверен, что со времени запуска Доты2 накопилось столько матчей, чтобы можно было использовать машинное обучение для решения данной задачи с учётом порядка выбора героев. А хотелось бы...

R и Python — достойные соперники?

semenoffalex 24 июл 2015 в 11:04

Не за что. Все эти книги у меня есть и уже изрядно «замусолены» (даже в PDF), поэтому радею тут я не ради себя =). Я учил/читал их примерно в той последовательности, в которой расположил тут и если бы нужно было выбрать для издания только одну, я бы склонился к R in Nutshell, потому что именно на ней чаще всего заканчивались мои базовые вопросы по работе с языком. Дальше — только StackOverflow.

R и Python — достойные соперники?

semenoffalex 24 июл 2015 в 10:47

Сразу скажу, что в данном холиваре я нахожусь на стороне гордых useR'ов, т.к. считаю, что анализ данных (а не программирование) целесообразно изучать и выполнять в языке, который изначально для этих целей создавался, т.е. в R.

Поэтому если вашей задачей является развитие направления обучающей литературы по теме Data Science (а не по программированию), то целесообразнее издавать книги по R. Тем более, если вы сами считаете, что R сложен в изучении (с чем я, кстати, не согласен). Я навскидку знаю только 2 книги по R на русском языке (одна из них переводная), что опять же свидетельствует в пользу издания книг по данному языку.

Вот список достойных, на мой взгляд, книг:
Learning R
R in a Nutshell
R Graphics Cookbook
R Cookbook.
Practical Data Science with R

Прогноз количества лайков у поста. SNA Hackathon 2014

semenoffalex 6 апр 2014 в 15:23

Это всё, конечно, замечательно, но только к SNA описанные вами задачи имеют весьма опосредованное отношение.

Управляемость сложных сетей — перевод статьи Controllability of complex networks

semenoffalex 26 янв 2014 в 12:14

Я бы не стал так полагаться на выводы приведённой вами статьи про 10%, т.к. они были получены на основе мат. моделирования и симуляции и пока не имеют под собой реальных эмпирических данных.

Предопределение развития информационных волн

semenoffalex 17 мая 2013 в 07:37

В социальных сетях распределение степеней в большинстве случаев подчиняется степенному закону ("Power Law")

Как найти девушку через общий топор — Майн объединяет владельцев вещей

semenoffalex 30 окт 2012 в 09:25

Удачи в борьбе с «тяжёлым хвостом»! =)

Как найти девушку через общий топор — Майн объединяет владельцев вещей

semenoffalex 30 окт 2012 в 09:08

Мне кажется, что тут существует опасность того, что на популярные вещи типа (iphone 1/2/3/4/5) алгоритм выдаст вам миллион людей, в то время как по редкому изданию комикса о Человеке-Пауке, радость от обладания которым вы хотите разделить с единомышленниками, — никого.

По крайней мере мой опыт анализа интересов в Vkontakte и интересов/тегов в ЖЖ показывает, что, грубо говоря, 99% пользователей разделяют интересы киноф/фото/музыка/гулять и 0,000001% указывает какие-то узкие тематические интересы из различных областей.

Маленькие секреты больших графов

semenoffalex 25 июл 2012 в 11:51

Я это всё к тому, что в последнее время физики/математики/компьютерщики сильно возбудились по поводу «социальных сетей» и начали перекладывать на них модели и алгоритмы из своих областей (зачастую совершенно бездумно), приходя таким образом не к самым корректным выводам. Поэтому называть кластеризацию на графах «обнаружением сообществ» не совсем корректно.

Маленькие секреты больших графов

semenoffalex 25 июл 2012 в 10:57

Например, я могу выделить сильносвязные компоненты и предположить, что все люди в таких компонентах относятся к определённым социальным группам — а по информации из профайла я могу понять, что именно их объединяет.

По моему опыту это работает на эгоцентрических сетях Вконтакта и Фейсбука, т.к. они более-менее связаны с офф-лайн знакомствами. В графе френдов ЖЖ ситуация несколько иная, т.к. там контексты «дружбы» сильно различаются.

можно сравнить аккаунт пользователя с аккаунтами его друзей по отдельным факторам, и таким образом определить, насколько значимыми являются выбранные факторы для данного пользователя при выборе круга общения

Это зовётся «гомофилией» — склонностью контактировать с похожими на себя людьми. Однако, тут нужно быть аккуратным с направлением каузальности, ведь существует другой процесс (в западной литературе он зовётся «social contagion», адекватного перевода на русский я еще не нашел), согласно которому близкие люди со временем становятся во многом похожими.

Маленькие секреты больших графов

semenoffalex 25 июл 2012 в 09:28

«содержательная интерпретация» таких графов вполне возможна.

Например?

Маленькие секреты больших графов

semenoffalex 25 июл 2012 в 09:27

«содержательная интерпретация» таких графов вполне возможна.

Например?

Библиотека Конгресса продолжает попытки архивировать все твиты за 2006-2012 годы

semenoffalex 25 июл 2012 в 09:16

Это благое дело. Если уметь ставить исследовательские задачи, твиттер может быть весьма полезен, т.к. предсказание котировок акций и результатов выборов на основе его данных в последнее время набирают популярность.

Маленькие секреты больших графов

semenoffalex 25 июл 2012 в 08:13

Я бы поостерёгся называть задачи, связанные с кластеризацией графов френдов, «выявлением сообществ». Всё-таки сообщества, даже он-лайн, подразумевают постоянство участников, общность их целей/интересов, длительность и регулярность взаимодействий. Членство в сообществах, обладающих для своих участников какой-либо ценностью, требует затрат ресурсов. В контексте Интернета это в первую очередь время и внимание (на чтение/написание постов, комментов, ведение дискуссий и т.д.).

В то же время, для создания «дружбы» в любой он-лайн соцальной сети как правило требуется пара кликов мышью, а поддержание данного типа отношений зачастую и вовсе не требует усилий (вы поздравляете все свои контакты с днём рождения?). Более того, люди вкладывают различные смыслы и цели в контакты в социальных мидиях (поддержание офф-лайн отношений, адресная книга, демонстрация связи с примечательной персоной и т.д.).

Это, как показывает мой опыт и исследования, делает графы, основанные на списках контактов в ЖЖ, Твиттере и прочих сервисах, достаточно сложными (а иногда и вовсе бессмысленными) для содержательной интерпретации.

Математическое моделирование в данном контексте и вовсе отдельная песнь.

Точка, точка, запятая: машинное обучение

semenoffalex 27 июн 2012 в 11:57

Спасибо, очень своевременная статья, т.к в данный момент пытаемся решить похожую задачу.

Скажите, пожалуйста, как именно называется этот алгоритм, чтобы о нём можно было подробнее почитать в книжках, подобных той, что вы указали. Это какая-то модификация ID3?

Социальные сети. Модели информационного влияния, управления и противоборства

semenoffalex 31 мая 2012 в 08:11

Книге явно не хватает иллюстрации описанных алгоритмов на примере какой-нибудь эмпирики. Поэтому довольно сложно оценить эвристическую ценность этих алгоритмов и самой книги.

Визуализация «В Контакте»: Скажи мне, кто твой друг?

semenoffalex 31 мая 2012 в 07:32

www.nytimes.com/2011/11/22/technology/between-you-and-me-4-74-degrees.html?_r=1

Визуализация «В Контакте»: Скажи мне, кто твой друг?

semenoffalex 31 мая 2012 в 07:31

www.telegraph.co.uk/technology/facebook/8906693/Facebook-cuts-six-degrees-of-separation-to-four.html

Визуализация «В Контакте»: Скажи мне, кто твой друг?

semenoffalex 31 мая 2012 в 07:26

Степени узлов (node degree) в сетях подобного рода распределены экспоненциально (power law), поэтому действительно получится «волосяной комок», который не спасет никакая фильтрация по весу рёбер. Довольно бессмысленное зрелище.