• Уроки участия в хакатоне «Dota Science» в рамках «Data Fest 2»
    0
    Мы устраивали пробный in-class Kaggle для определения вероятности победы команды на основе одних только пиков, без учёта их порядка (см. мой предыдущий комментарий). Как ни парадоксально, добавление информации о герое (carry/pusher/nucker/и т.д., тип атаки и прочее) только ухудшало точность предсказания вне зависимости от выбранной модели (логрегрессия, XGBoost). Причём данный эффект был обнаружен не только у нас, но и в немногочисленной литературе по теме. С чем он связан мы пока так и не поняли.
  • Уроки участия в хакатоне «Dota Science» в рамках «Data Fest 2»
    0
    В Captain's Draft и Ranked All Pick действительно есть возможность учесть порядок выбора героев, который очевидно оказывает очень большое влияние на успех матча, однако тут возникает проблема комбинаторного характера — количество уникальных игр, где герой А был выбран первым, B — вторым и т.д. равно числу размещений (arrangements) из 112 по 10, т.е. 205368317946676700000. Плюс по каждому из таких размещений нужно иметь статистику в несколько тысяч матчей. Я не уверен, что со времени запуска Доты2 накопилось столько матчей, чтобы можно было использовать машинное обучение для решения данной задачи с учётом порядка выбора героев. А хотелось бы...
  • R и Python — достойные соперники?
    0
    Не за что. Все эти книги у меня есть и уже изрядно «замусолены» (даже в PDF), поэтому радею тут я не ради себя =). Я учил/читал их примерно в той последовательности, в которой расположил тут и если бы нужно было выбрать для издания только одну, я бы склонился к R in Nutshell, потому что именно на ней чаще всего заканчивались мои базовые вопросы по работе с языком. Дальше — только StackOverflow.
  • R и Python — достойные соперники?
    +5
    Сразу скажу, что в данном холиваре я нахожусь на стороне гордых useR'ов, т.к. считаю, что анализ данных (а не программирование) целесообразно изучать и выполнять в языке, который изначально для этих целей создавался, т.е. в R.

    Поэтому если вашей задачей является развитие направления обучающей литературы по теме Data Science (а не по программированию), то целесообразнее издавать книги по R. Тем более, если вы сами считаете, что R сложен в изучении (с чем я, кстати, не согласен). Я навскидку знаю только 2 книги по R на русском языке (одна из них переводная), что опять же свидетельствует в пользу издания книг по данному языку.

    Вот список достойных, на мой взгляд, книг:
    Learning R
    R in a Nutshell
    R Graphics Cookbook
    R Cookbook.
    Practical Data Science with R
  • Прогноз количества лайков у поста. SNA Hackathon 2014
    0
    Это всё, конечно, замечательно, но только к SNA описанные вами задачи имеют весьма опосредованное отношение.
  • Управляемость сложных сетей — перевод статьи Controllability of complex networks
    0
    Я бы не стал так полагаться на выводы приведённой вами статьи про 10%, т.к. они были получены на основе мат. моделирования и симуляции и пока не имеют под собой реальных эмпирических данных.
  • Предопределение развития информационных волн
    0
    В социальных сетях распределение степеней в большинстве случаев подчиняется степенному закону ("Power Law")
  • Как найти девушку через общий топор — Майн объединяет владельцев вещей
    0
    Удачи в борьбе с «тяжёлым хвостом»! =)
  • Как найти девушку через общий топор — Майн объединяет владельцев вещей
    +2
    Мне кажется, что тут существует опасность того, что на популярные вещи типа (iphone 1/2/3/4/5) алгоритм выдаст вам миллион людей, в то время как по редкому изданию комикса о Человеке-Пауке, радость от обладания которым вы хотите разделить с единомышленниками, — никого.

    По крайней мере мой опыт анализа интересов в Vkontakte и интересов/тегов в ЖЖ показывает, что, грубо говоря, 99% пользователей разделяют интересы киноф/фото/музыка/гулять и 0,000001% указывает какие-то узкие тематические интересы из различных областей.
  • Маленькие секреты больших графов
    0
    Я это всё к тому, что в последнее время физики/математики/компьютерщики сильно возбудились по поводу «социальных сетей» и начали перекладывать на них модели и алгоритмы из своих областей (зачастую совершенно бездумно), приходя таким образом не к самым корректным выводам. Поэтому называть кластеризацию на графах «обнаружением сообществ» не совсем корректно.
  • Маленькие секреты больших графов
    0
    Например, я могу выделить сильносвязные компоненты и предположить, что все люди в таких компонентах относятся к определённым социальным группам — а по информации из профайла я могу понять, что именно их объединяет.

    По моему опыту это работает на эгоцентрических сетях Вконтакта и Фейсбука, т.к. они более-менее связаны с офф-лайн знакомствами. В графе френдов ЖЖ ситуация несколько иная, т.к. там контексты «дружбы» сильно различаются.

    можно сравнить аккаунт пользователя с аккаунтами его друзей по отдельным факторам, и таким образом определить, насколько значимыми являются выбранные факторы для данного пользователя при выборе круга общения

    Это зовётся «гомофилией» — склонностью контактировать с похожими на себя людьми. Однако, тут нужно быть аккуратным с направлением каузальности, ведь существует другой процесс (в западной литературе он зовётся «social contagion», адекватного перевода на русский я еще не нашел), согласно которому близкие люди со временем становятся во многом похожими.
  • Маленькие секреты больших графов
    0
    «содержательная интерпретация» таких графов вполне возможна.


    Например?
  • Маленькие секреты больших графов
    0
    «содержательная интерпретация» таких графов вполне возможна.

    Например?
  • Библиотека Конгресса продолжает попытки архивировать все твиты за 2006-2012 годы
    0
    Это благое дело. Если уметь ставить исследовательские задачи, твиттер может быть весьма полезен, т.к. предсказание котировок акций и результатов выборов на основе его данных в последнее время набирают популярность.
  • Маленькие секреты больших графов
    0
    Я бы поостерёгся называть задачи, связанные с кластеризацией графов френдов, «выявлением сообществ». Всё-таки сообщества, даже он-лайн, подразумевают постоянство участников, общность их целей/интересов, длительность и регулярность взаимодействий. Членство в сообществах, обладающих для своих участников какой-либо ценностью, требует затрат ресурсов. В контексте Интернета это в первую очередь время и внимание (на чтение/написание постов, комментов, ведение дискуссий и т.д.).

    В то же время, для создания «дружбы» в любой он-лайн соцальной сети как правило требуется пара кликов мышью, а поддержание данного типа отношений зачастую и вовсе не требует усилий (вы поздравляете все свои контакты с днём рождения?). Более того, люди вкладывают различные смыслы и цели в контакты в социальных мидиях (поддержание офф-лайн отношений, адресная книга, демонстрация связи с примечательной персоной и т.д.).

    Это, как показывает мой опыт и исследования, делает графы, основанные на списках контактов в ЖЖ, Твиттере и прочих сервисах, достаточно сложными (а иногда и вовсе бессмысленными) для содержательной интерпретации.

    Математическое моделирование в данном контексте и вовсе отдельная песнь.
  • Точка, точка, запятая: машинное обучение
    0
    Спасибо, очень своевременная статья, т.к в данный момент пытаемся решить похожую задачу.

    Скажите, пожалуйста, как именно называется этот алгоритм, чтобы о нём можно было подробнее почитать в книжках, подобных той, что вы указали. Это какая-то модификация ID3?
  • Социальные сети. Модели информационного влияния, управления и противоборства
    0
    Книге явно не хватает иллюстрации описанных алгоритмов на примере какой-нибудь эмпирики. Поэтому довольно сложно оценить эвристическую ценность этих алгоритмов и самой книги.
  • Визуализация «В Контакте»: Скажи мне, кто твой друг?
  • Визуализация «В Контакте»: Скажи мне, кто твой друг?
  • Визуализация «В Контакте»: Скажи мне, кто твой друг?
    0
    Степени узлов (node degree) в сетях подобного рода распределены экспоненциально (power law), поэтому действительно получится «волосяной комок», который не спасет никакая фильтрация по весу рёбер. Довольно бессмысленное зрелище.
  • Анализируем Twitter при помощи R
    0
    Дома я поигрался с этим параметром, но всё равно в результатах поиска оказывался какой-то откровенный спам, а не то, что выдаёт сам твиттер на поисковый запрос.

    На работе при запуске вашего скрипта получил следующую ошибку:
    Ошибка в curlPerform(curl = curl, .opts = opts, .encoding = .encoding):
    couldn't connect to host

    Разумею, что из-за фаерволла.
  • Анализируем Twitter при помощи R
    0
    Я, конечно, с R на «Вы», но вот тот факт, что я не смог с помощью функции searchTwitter пакета twitteR найти твиты с нужными мне словами на русском языке, несколько смущает. Притом, что с поиском английских ключевых слов всё работает прекрасно.
  • Сообщество или социальная сеть?
    0
    Мне кажется, русские общины, эквивалентные западным community (с обязательной привязкой к территории) были изничтожены нашей бурной советской историей.


    Но в любом случае, мы можем в русском языке для обозначения тех проблемных сообществ из Южного парка использовать подзабытое слово «общины», ловко отделяя их от более универсального слова «сообщества».


    Согласен по обоим пунктам.

    Кстати говоря, «виртуальное сообщество» и «онлайн сообщество» немного разные вещи.


    Этих определений наплодилась тьма тьмущая. С недавних пор в моде, например, communities of practice. И мне это не очень нравится потому, что вызвано не «содержательными» соображениями несоответствия существующих определений новым реалиям, а, скорее, шкурными интересами гумнонитарных «исследователей», которые кроме нового концепта ничего родить не могут.

    Показательный пример в контексте нашего разговора: «классическая» статья даны бойд про историю и исследования «социальных сетей» (Social Network Sites), в ответ на которую тутже был написан «критический» ответ, смысл которого заключался в том, что правильнее было бы использовать термин «Social NetworkING Sites».

    Поэтому я следую принципу «роза пахнет розой, как её не назови» и концентрируюсь на сути явления, а не множестве его названий.

    Community Influencers Step by Step
    Social Graphs: The Art and the Insights


    Это уже более полезные, хоть и общеизвестные вещи. Мне бы хотелось всё-таки какого-то содержательного наполнения и авторского исследования.
  • Сообщество или социальная сеть?
    0
    Основную проблему в вашем обзоре, насколько я понял, можно описать очень коротко так: Что такое сообщество и как современные технологии коммуникации влияют на них.

    Совершенно верно.

    Я для себя отметил забавную вещь, что оказывается в социологии долгое время были такие ученые, которые не соглашались признавать сообществами те системы человеческих связей, которые поддерживаются с помощью интернета.

    На момент защиты мною диплома (2006 год) фраза «компьютерные сети — это в том числе и социальные сети», с которой всё тот же Барри Вэллман начинал пару своих статей, вызывала весьма неоднозначную реакцию и нуждалась в серьёзных доводах.

    Я сам, видимо, сознательно столкнулся с сообществами именно в интернете. И для меня всегда такие сообщества были куда реальнее и значимее «традиционных» сообществ, привязанных к географическому месту.

    Просто в социологии, откуда я «родом», под сообществом изначально подразумевалось другое. В одной из серий Южного Парка, когда старики стали бунтовать против лишения их водительских прав, во время выступления деда Стэна на заднем фоне мелькнула надпись «Community Center». И лишь в этот момент я понял, о чём идёт речь и почему концепт «виртуальное сообщество» встретил такую серьёзную критику в Штатах. Для них сообщество — это локальное территориальное образование, состоящее из местных жителей, на практике решающих те или иные локальные проблемы. Обратите внимание, в скольких сериях Симпсонов и того же Южного Парка есть сцены общественных собраний, во время которых кто-то предлагает ввести/запретить очередную вещь. И именно об утрате этих сообществ волновался Роберт Патнем в своём бестселлере «Bowling Alone».

    Да, они описывают новое состояние индивида, но из них сложно проектировать новые сообщества или же анализировать существующие.

    Это потому, что речь идёт о разных сообществах. Барри Вэллман всю свою жизнь изучал воздействие Интернета на локальные сообщества, о которых я говорил в предыдущем абзаце. Вас же интересуют он-лайн сообщества, которые, впрочем, тоже не всегда являются тем, что имел в виду Говард Рейнгольд под изобретённым им термином «виртуальное сообщество». Он мне присылал приглашение на одно такое и я вам скажу, что аналога я просто нигде не встречал. Там, насколько я понял, воссоздан дух легендарного коммьюнити Well. Мне сложно описать это в двух словах, но на просторах того же рунета я ни с чем подобным не сталкивался. Максимально близко по духу к этому находятся сообщества объединённые одной локальной сетью, как это когда-то было в межвузовском студенческом городке на Парке Победы в Питере, по которому я писал диплом, где реальные встречи являются неотъемлемой частью коммуникации.

    Из очень простых схем Майкла Ву такие перспективы — как это ни странно — образовываются.

    Ещё бы им не быть простыми, если он обобщает опыт других, рисуя красивые схемки. Вот если бы он описал результаты хоть одного своего исследования, тогда был бы другой разговор.

    Впрочем, мамы всякие нужны…
  • Сообщество или социальная сеть?
    +1
    С другой стороны есть академические ученые (в той же Высшей школе экономики), занимающиеся в том числе и SNA

    Скажу вам по секрету, что там сейчас никто всерьёз SNA не занимается. Мой научный руководитель, Г.В. Градосельская, в последнее время интересуется анализом неструктурированной информации, т.е. текстов. Я же в последнее время дрейфую из академической социологии к прикладному анализу данных. Поэтому мой интерес в первую очередь чисто прикладной — применить те или иные идеи/наработки анализа социальных сетей в тех или иных прикладных задачах. Чем сейчас и занимаюсь.

    Более того, я бы на вашем месте не мечтал об «общем дискурсе» с учёными, т.к. его нету и промеж их самих. Вообще, это довольно специфическая корпорация с такой конкуренцией, что не всякому бизнесу снились.

    Мне лично очень нужна такая среда, в которой можно было бы говорить о сообществах, социальных сетях, социальных сервисах, сервисах сильных взаимодействий, сервисах, расширяющих социальность.

    Пока что для таких целей ничего лучше Хабра/блогосферы вцелом нету.

    Если вам так интересен тот текст — могу выслать, если найду.
  • Сообщество или социальная сеть?
    +1
    Та статья представляет собой по большей части обзор концептов и не содержит собственной эмпирики, поэтому я отнёсся к её публикации спустя рукава. У меня были кое-какие данные ФОМа, которые, при желании, можно попытаться увязать с описываемыми теориями, но руки опять же не дошли. Я подумаю, можно ли её привести в вид, годный для публикации на Хабре.

    Основная практическая задача, которую он при этом решает — это возможность вычисления «влиятельности» людей внутри сети. Т.е. его интересует, каким образом в итоге распространяется информация, и как способы распространения этой информации могут менять мир.

    И в этом он тоже, мягко говоря, не оригинален. Только одно дело постить заметки с цветными картинками в блог, а другое — провести нормальное эмпирическое исследование и опубликовать его в приличном реферируемом журнале.

    Ваш пост про «граф интересов» я вчера уже прокомментировал. В анализе социальных сетей это называется «бимодальными сетями» и исследований по ним полным-полно. Например, мы с коллегами сейчас пишем доклад по трикластеризации пользователей Вконтакте на основе групп и интересов, указанных в их профилях. Т.е. это уже по сути «тримодальные сети». Хотя за математическую составляющую я не ручаюсь.
  • Сообщество или социальная сеть?
    +1
    Прошло время не «сообществ», как таковых, а концепта «сообщество» применительно к изучению социальной реальности. Сам концепт появился, пожалуй, в работах Ф. Тённиса в виде различения «Gemeinschaft» и «Gesellschaft» (общность/общество) и достиг апогея примерно в годах 70-х, когда слово community стало одним из самых популярных в американской социологии. На протяжении всего этого времени акцент делался на границах и различениях одних групп от других. Т.е. сообщества рассматривались как «little black boxes» — замкнутые сущности, определённые через общность/различие признаков и чёткие границы.

    Теперь же, с развитием средств коммуникации и в первую очередь Интернета, более популярным стал концепт «сети» с акцентом не на признаки/границы, а на связи различной степени артикулированности и интенсивности.

    Я пару лет назад закидывал небольшую обзорную статью на эту тему в один из провинциальных ВАКовских журналов, но т.к. дозвониться до редакции было весьма проблематично, её так и не опубликовали.
  • Сообщество или социальная сеть?
    +1
    Вас самого не смущают «откровения» типа:
    «3. У социальных сетей сетевая структура»

    Если вы действительно хотите понять, чем отличаются сообщества и социальные сети (сразу скажу — ничем, это два способа видения одного и того же), то читайте приличную научную литературу. Например «Little Boxes, Glocalization, and Networked Individualism From Little Boxes to Social Networks» Барри Вэллмана (pdf), а не подобных прощелыг.
  • Граф интересов (Interest graph): новый принцип взаимодействия в сети
    +2
    Хваткие люди уже подняли $7,6 млн. долларов на реализацию идеи коллаборативного графа интересов:
    techcrunch.com/2012/02/13/pearltrees-raises-6-7m-boasts-of-collaborative-interest-graph/
  • Какой инструмент вы используете для решения задач data mining?
    0
    Думаю, не мешало бы добавить SPSS и Deductor.
  • Теория шести рукопожатий: еще одно подтверждение
    +4
    Теория 6 рукопожатий всё же ещё далека от того, чтобы стать аксиомой.

    Например, в изначальном эксперименте Стэнли Милгрэма, из 160 отправленных писем обратно дошло лишь 24 (!). 16 из этих 24 пришли от одного человека (!!). Более того, значение «6» было лишь средним, т.е. часть писем дошла быстрее, часть — медленнее (увы, стандартного отклонения не знаю).

    Английская википедия также говорит (правда без ссылки) о том, что в Университете Карнеги-Меллон повторяли этот эксперимент «using popular social networking sites». До конечной цели в этом эксперименте добралось очень малое число запросов. Впрочем, без ссылки на статью судить об этом сложно.

    В настоящее время наиболее активно данным феноменом (особенно его проявлением в социальных медиа) занимается Duncan Watts. В 2003 году он с коллегами повторил классический дизайн эксперимента Милгрэма на электронной почте, отправив 24,163 сообщения 18 целям по всему миру. В результате медианное значение также равнялось 6.

    Кстати, сейчас он в сотрудничестве с Facebook (сам он работает в Yahoo) планирует повторить данный эксперимент на данных самой глобальной «социальной сети» (700 млн. если я не ошибаюсь). Посмотрим, что из этого выйдет.
  • Статистика по профилям пользователей ВКонтакте
    0
    На мой взгляд, эти данные интересны в первую очередь с точки зрения того, какой процент различных атрибутов пользователи держат в открытом доступе. Судя по вашим данным, информации не так уж и много.
  • Статистика по профилям пользователей ВКонтакте
    0
    А что вы, собственно, на этих данных можете там посчитать? Они же все номинальные. Разве что «Сколько Наташ живёт в Краснодаре?».

    Лично я здесь кроме сопряжения городов/полов с вузами/факультетами ничего интересного не вижу.
  • Старт Motivate Clock: “Не думай о секундах свысока”
    0
    Сделайте, пожалуйста, экспорт в *.csv. Для подсчёта различной статистики это действительно важно.
  • Социальный граф хабрасообщества
    0
    Не успел я подумать о том, что было бы интересным построить динамический граф разрастания хабрасообщества на основе данных о том, кто кого пригласил, как наткнулся на этот пост.

    Спасибо, весьма интересно. Не думал, что Хабр так легко парсится.

    Вообще, NetworkX очень хороший пакет для анализа социальных сетей и соответствующих методик. Можно, например, выявить различные «клики» юзеров или «лидеров мнений».

    Другое дело, что тут нужно быть аккуратным с гранью между именно «анализом социальных сетей» и математической теорией графов, т.к. не каждое отношение, будь то гиперссылка или добавление в «друзья» имеет достаточную и одинаковую смысловую нагрузку для всех пользователей.
  • Как предсказывать исход событий с помощью интернета или кто победит в финале Лиги Чемпионов
    +2
    Вы забыли самое важное требование: высказывания людей должны быть независимыми друг от друга. Вот свежее тому подтверждение. А в среде социальных медиа, не заточенных под эту цель специальным образом (в виде, например, сокрытия рейтинга чего-либо от тех, кто ещё не проголосовал), это практически невозможно.
    Хотя я недавно видел научную статью, где на основе анализа 100 000 сообщений твиттера удалось предсказать результаты федеральных выборов в Германии.
  • Кто кого читает в ЖЖ — анализ пересечения аудиторий топовых блоггеров
    +2
    Я участвовал в этом «исследовании». Могу много интересного о нём рассказать.
  • Ваше отношение к социальным сетям?
    0
    У вас опрос составлен некорректно. Все варианты ответа должны быть даны по одному основанию: либо вы спрашиваете о частоте пользования (никогда, иногда, редко и т.д.), либо о степени их привлекательности. Если хотите знать и то и то — задайте два вопроса, а потом пересеките ответы в кросс-таблице.
    Вопрос, сформулированный вами не несёт никакой полезной информации.
    Это я вам как социолог и преподаватель говорю.
  • Теперь ВКонтакте API не только для Flash
    0
    А это позволит создавать приложения наподобие CASOS II для Facebook, которые извлекают список контактов пользователя и позволяют его анализировать/визуализировать?