Pull to refresh

Проблемы обобщения PageRank

Algorithms *
Если на вас ссылается кто-то авторитетный, это поднимает ваш статус больше, чем ссылки («голоса») от многих малоавторитетных источников — такова была первоначальная идея ранжирования сайтов Гуглом. Она нашла свое очевидное продолжение в social network analysis, где формула для PageRank является разновидностью центральностей, т.е. определением того, какой из узлов социального графа является более «центральным» и по какому признаку. Я не специалист в данной тематике; из беглого осмотра по диагонали мне показалось, что social network analysis в интернете применяется в основном для нужд social media marketing, где ранжирование людей не является основной целью. Скорее, цель smm — эффективней продвигать бренды, увеличивать продажи и т. п. Однако ранжирование людей может быть самостоятельной интересной целью. Вот здесь я краткотезисно перечислил эти интересы.
Читать дальше →
Total votes 12: ↑6 and ↓6 0
Views 1.9K
Comments 10

Роль связей в сообществах (Connecting the Community)

Дарудар corporate blog Community management *
Translation
Мы живём в разных онлайн сообществах. Как выглядят эти сообщества? Каково наше место в каждом из них и какую роль мы в них играем?

Диаграмма внизу изображает реальное онлайн сообщество (on-line community, OLC). Каждый узел на диаграмме обозначает человека. А линия между двумя узлами означает, что между двумя людьми в сообществе существует определенная связь. Такая структура в социологии называется социальной сетью.

Большинство онлайн сообществ представляет из себя три социальных кольца: плотно связанное ядро в центре, слабо связанные фрагменты второго кольца, и несвязанные узлы внешнего кольца, называемые также луркерами. В сообществах можно присутствовать на разных уровнях: каждый такой уровень представлен одним из колец. Вы можете входить в ядро одного сообщества и в то же самое время быть луркером в другом.
Читать дальше →
Total votes 22: ↑20 and ↓2 +18
Views 2.8K
Comments 9

Азы социально-сетевого анализа (Social Network Analysis 101)

Дарудар corporate blog Community management *
Translation
От переводчика. Автор этой публикации — Майкл Ву (Michael Wu), ведущий аналитик компании Lithium, специализирующийся в изучении социальных взаимодействий и онлайн-сообществ.


Чтобы понять, что такое «социально-сетевой анализ» (Social Network Analysis, SNA), нужно понимать, что такое «социальная сеть» и что такое «социальный граф». Говоря просто, социально-сетевой анализ — это способ изучения социальных сетей, а социальная сеть — это набор сущностей, между которыми есть определенные отношения. Социальные сети существуют с тех пор, как люди начали бродить по земле. По правде говоря, подобные структуры есть не только у людей, но и у социальных животных (например, у волков, львов, дельфинов, мышей и даже муравьев).

Безусловно, прежде всего нас интересуют такие сущности как люди, и такие отношения между ними как дружба (как на Facebook), совместная работа (как на LinkedIn), родство, общение и некоторые другие социальные взаимодействия. А в контексте SNA мы можем под социальным графом понимать просто визуализацию всего этого (я не собираюсь нагонять скуку формальным определением графа). В таком социальном графе каждая точка (или узел, или вершина) изображает человека, а ребро между двумя точками (людьми) изображает отношения между ними. А так как между людьми существует множество самых разных отношений, точно также существует множество разных социальных графов, изображающих эти отношения. Я покажу это на конкретном примере.
Читать дальше →
Total votes 30: ↑27 and ↓3 +24
Views 16K
Comments 2

Построение графа социальной сети с помощью Drupal и Feeds

CMS *Website development *Drupal *
В одном крупном университете на Юге России я разрабатываю программную платформу автоматизированного построения графа социальной сети при помощи обработки интернет страниц социальных сетей. В данной статье я расскажу, как мы обрабатывали данные, собранные из Живого журнала (Livejournal.com).
Прошел почти год, я думаю, будет интересно узнать, как система применялась для автоматизированного сбора данных в период избирательной кампании в Государственную думу в 2011 году.
Читать дальше →
Total votes 17: ↑10 and ↓7 +3
Views 15K
Comments 13

Startup Weekend Kyiv + Building Social Products at Scale

Ciklum corporate blog
От Идеи до Бизнеса всего за 54 часа!



1-3 марта 2013 года в Киеве, в офисе Ciklum (ул. Амосова, 12) состоится трехдневный бизнес-марафон Startup Weekend.
Startup Weekend — это предпринимательское движение международного масштаба где разработчики, дизайнеры, бизнесмены и вообще все кто заинтересован в создании собственного бизнеса могут протестировать жизнеспособна ли их идея.
К участию в Startup Weekend в качестве экспертов приглашены бизнесмены, которые успешно запустили свое дело. На протяжении викенда, они будут работать с образовавшимися командами за одним столом. A также, поделятся своим опытом, помогут разработать первоначальную стратегию, изучить «портрет пользователя» и укажут на возможные ловушки в которые могут попасть молодые проекты.
Более подробную информацию можно получить на сайте мероприятия ->

В качестве разогрева перед 54-часовым марафоном Startup Weekend Kyiv мы приглашаем Вас на особенный Speakers' Corner в Сиклум. В рамках мероприятия Вы сможете узнать об особенностях масштабирования социального продукта на аудиторию в миллиард человек. 3 ведущих инженера головного офиса Facebook совместно поделятся опытом в рамках доклада – панельной дискуссии под названием «Building Social Products at Scale».
Внимание, доклады и общение будут проходить на английском языке без перевода! Регистрация ->
Читать дальше →
Total votes 5: ↑4 and ↓1 +3
Views 1.6K
Comments 0

Инструменты мониторинга в социальных сетях

DataArt corporate blog
Сегодня можно без труда на пальцах одной руки насчитать две и даже семь сотен социальных сетей. Я думаю мне не нужно убеждать дорогого читателя в том, что это бездонный кладезь информации. Но вот как можно эту самую информацию заполучить, да ещё и в удобоваримом виде?

Для того, чтобы у нас с вами было не как на картинке, предлагаю вашему вниманию обзор наиболее интересных сервисов для монитроинга и взаимодействия с социальными сетями. Если коротко, то ситуация выглядит следующим образом:
Wildfire HootSuite TweetDeck AppData Klout
С чем интегрируется
Google+, Facebook, Linkedin, Pinterest, Twitter, Youtube
Google+, Facebook, Foursquare, Linkedin, Mixi, Myspace, Twitter, Wordpress, App Directory
Facebook, Twitter
Facebook
Facebook, Twitter
Цена
Pro / Enterprise — договорная
Free, Pro — $10/месяц, Enterprise — договорная
Free
Free, Pro — $595/месяц или $5995/год, Enterprise — договорная
Free
Аналитика
          
          
          
          
          
Сравнение брендов
          
          
          
          
          
Постинг по расписанию
          
          
          
          
          
Стриминг сообщений
          
          
          
          
          
Для любопытного же читателя я подготовил более развёрнутое описание всех этих сервисов под катом. Так же там можно найти идеи для сервиса, который мог бы принести радость всем людям на Земле.
Читать большой субъективный обзор с картинками
Total votes 24: ↑22 and ↓2 +20
Views 56K
Comments 23

Поиск наиболее влиятельных объектов подмножества социальной сети

Data Mining *
Sandbox
В современном мире отношения между людьми, кроме социального уровня, заняли еще один — цифровой. С распространением виртуальных социальных сетей появилась тенденция иметь собственную страницу с персональными данными, искать друзей по интересам, создавать группы и пр. На одной IT Talk встрече, проводимой DataArt, я познакомился с человеком, занимавшимся исследованием топологий социальных сетей. В этот день я полностью определился с темой магистерской диссертации, которая представлена заголовком статьи. Дело в том, что количество информации в соцсетях постоянно увеличивается, и бо́льшая часть этой информации представлена в сыром виде. Сама по себе она не представляет интереса. Возникла мысль обработать подобные данные и получить результаты, которые вполне могли бы послужить благому делу.

В данной статье рассматривается поиск наиболее влиятельных объектов. Данная информация может быть полезна как для проведения различных виртуальных маркетинговых акций, так и для выявления пользователей с подозрительно высокой активностью.
Читать дальше →
Total votes 8: ↑6 and ↓2 +4
Views 4.2K
Comments 3

Прогноз количества лайков у поста. SNA Hackathon 2014

DM Labs corporate blog Data Mining *
Что хорошего можно извлечь из социальных сетей? Можно найти себе футбольную команду, басиста в группу, братьев по разуму, жену, сдать/снять квартиру/комнату/виллу на берегу океана. А если подключить анализ данных? Можно найти свое место в обществе. Например, если я слушаю XXX, читаю YYY и пью ZZZ, то нас таких всего 100 на этом шаре. А если я еще буду красить ногти в зеленый, то точно буду единственным и неповторимым?

Можно понять, что нравится людям, что им можно продать, можно делать прогнозы и в сотый раз проверять теорию шести рукопожатий. В области Social Network Analysis существует множество задач, одну из которых мы предлагаем решить на онлайн этапе SNA Hackathon 2014.

Читать дальше →
Total votes 4: ↑4 and ↓0 +4
Views 3.5K
Comments 1

Социальные сети в России, лето 2014: цифры, тренды, прогнозы

PalitrumLab corporate blog
Представляем данные июньского исследования цикла «Социальные сети в России сегодня: цифры, тренды, прогнозы». Это четвертая регулярная публикация актуальных данных о проникновении социальных медиа по регионам России, поло-возрастной структуре авторов сообщений и степени их активности, на этот раз — по итогам первого полугодия 2014 года. Кроме того, впервые в серии исследований публикуются уникальные данные по эмоциональному состоянию пользователей социальных медиа.
image

Читать дальше →
Total votes 19: ↑11 and ↓8 +3
Views 34K
Comments 5

Обзор некоторых MOOC Coursera по компьютерным наукам

Python *Programming *Data Mining *Algorithms *Machine learning *
Sandbox
Скорее всего, если вы зашли на Хабр и читаете эту статью, то хоть раз в жизни да слышали про MOOC-курсы.

Но если все же не слышали, то MOOC (по-русски принято произносить «мук») означает «Massive Open Online Course» — массовый открытый онлайн-курс. Это настоящий феномен в образовании XXI века. Газета «New York Times» назвала даже 2012 год «годом MOOC» в связи с появлением на рынке дистанционного образования 3-х «китов» — Coursera, Udacity и EdX. MOOC-ам посвящено множество статей, кто-то видит в них будущее образования, кто-то, наоборот, угрозу. Пытаются также предсказать «традиционную» и «дистанционную» составляющии обучения будущего.




Однако в этой статье я не буду обсуждать перспективы развития дистанционного образования, а расскажу про свой опыт знакомства с курсами на платформе Coursera. Эти курсы будут полезны студентам, изучающим прикладную математику и информатику, в особенности анализ данных. Многое из того, что мне дали эти курсы, как я потом понял — это знания, которыми должен обладать любой уважающий себя исследователь данных (так я предпочитаю переводить профессию Data Scientist).
Читать дальше →
Total votes 44: ↑31 and ↓13 +18
Views 36K
Comments 21

Социальные сети в России, зима 2014-2015. Цифры, тренды, прогнозы

PalitrumLab corporate blog
Представляем новые данные исследования цикла «Социальные сети в России сегодня: цифры, тренды, прогнозы», за второе полугодие 2014г. Это пятая регулярная публикация актуальных данных о проникновении социальных медиа по регионам России, демографического анализа авторов сообщений и степени их активности, а так же по уровням позитива в различных социальных медиа. Впервые в исследовании представлены данные по социальной сети Instagram.

image
Читать дальше →
Total votes 1: ↑1 and ↓0 +1
Views 34K
Comments 0

О пользе технологий больших данных в повседневной жизни

Одноклассники corporate blog High performance *Data Mining *Big Data *


Среди многих исследователей и разработчиков бытует мнение, что инструменты обработки больших данных в области машинного обучения часто избыточны – всегда можно сделать сэмпл, загнать в память и использовать любимые R, Python и Matlab. Но на практике встречаются задачи, когда даже относительно небольшой объем данных, размером в пару гигабайт, обработать в таком стиле затруднительно – и тут-то и могут помочь те самые технологии «больших данных».

Хорошим наглядным примером такой задачи является задача нашего конкурса SNA Hakathon 2016: дан социальный граф одного миллиона пользователей и их демография. Задача — найти скрытые связи в этом графе. Размер предоставленного графа всего два гигабайта в GZip и, казалось бы, применение технологий больших данных здесь не оправданно, но это только на первый взгляд.

Одной из самых важных «фич» в задаче поиска скрытых связей в социальном графе является количество общих друзей. И в расчетном плане это очень тяжелая «фича» — количество узлов, между которыми существуют пути длины 2, на несколько порядков больше, чем количество прямых связей в графе. В результате при расчете граф «взрывается» и из разрежённой матрицы на два гигабайта превращается в плотную терабайтную матрицу.

Казалось бы, для решение этой задачи впору поднимать небольшой кластер, но спешить не стоит: взяв на вооружение принципы обработки больших данных и соответствующие технологии, задачу можно решить и на обычном ноутбуке. Из принципов мы возьмем «разделяй и властвуй» и «руби хвосты сразу», а в качестве инструмента — Apache Spark.
Читать дальше →
Total votes 18: ↑16 and ↓2 +14
Views 17K
Comments 11

Предсказание связей в социальных сетях: используем точки перехода

Python *Machine learning *
Актуальные исследования в области предсказательного сетевого моделирования используют различные метрики, являющиеся индикаторами образования связей между агентами — однако игнорируют распределение процесса появления новых связей в сети.
В данной статье я расскажу о том, как применить точки перехода (change points) для решения Link Prediction Problem, на примере сети Flickr.


Читать дальше →
Total votes 5: ↑3 and ↓2 +1
Views 3.3K
Comments 0

COVID-19: прогнозируем число больных коронавирусом

Open data *Data visualization *Popular science Biotechnologies
Recovery mode
Коронавирус окончательно захватил весь мир — и выражается это не в том, что им успел переболеть каждый житель планеты. На данный момент эта тема является главной и единственной — как в мировых, так и в российских новостях. В этой статье мы постараемся максимально абстрагироваться от политики и рассуждений о том, запустили ли вирус китайские военные, или же Дональд Трамп. Вместо этого мы посмотрим на проблему с математической точки зрения — а именно, выясним, как можно описать эпидемию одним уравнением, а в конце статьи предскажем итоговое число зараженных COVID-19 — в том числе в России.


Читать дальше →
Total votes 30: ↑13 and ↓17 -4
Views 12K
Comments 10

Amazing Tactics to Improve Your Social Media Marketing Efforts

Internet marketing *Social networks and communities
image

The benefits of a great social media strategy include increased brand awareness, customer loyalty, quality leads, and increased sales.

However, these kinds of results are not easy to achieve.

There’s fierce competition on social media and different ranking algorithms judging the content you post. Social media audiences also choose what content they deem relevant.

You can no longer post content and hope that people will follow your account, engage with your content, and convert. Instead, you need to implement tactics that can help you gain market traction while enhancing your social presence.

Moreover, a good social media app is what can actually bring you fruitful results. You can hire dedicated mobile app developers from reputed mobile app development companies to boost your social media marketing ROI.

In this post, I’ll discuss some of the tactics you can implement to boost your social media marketing efforts.
Read more →
Rating 0
Views 859
Comments 6

Как системы ИИ преображают digital-маркетинг — мнение эксперта и обсуждение проектов

ITMO University corporate blog Machine learning *Research and forecasts in IT *Studying in IT Sales management *

Сотрудники лаборатории машинного обучения Университета ИТМО занимаются не только теорией, но и прикладными проектами. Некоторым из них удается вдохновлять участников научного и профессионального сообщества по всему миру, преображать бизнес и цифровое пространство. Такую работу ведет Media Research Group под руководством профессора Александра Фарсеева. Сегодня он рассказывает об исследованиях и проектах его команды.

Читать далее
Total votes 8: ↑6 and ↓2 +4
Views 2.4K
Comments 0

Detecting attempts of mass influencing via social networks using NLP. Part 1

Python *Data Mining *Twitter API *Big Data *Natural Language Processing *
Tutorial

During the last decades, the world’s population has been developing as an information society, which means that information started to play a substantial end-to-end role in all life aspects and processes. In view of the growing demand for a free flow of information, social networks have become a force to be reckoned with. The ways of war-waging have also changed: instead of conventional weapons, governments now use political warfare, including fake news, a type of propaganda aimed at deliberate disinformation or hoaxes. And the lack of content control mechanisms makes it easy to spread any information as long as people believe in it.  

Based on this premise, I’ve decided to experiment with different NLP approaches and build a classifier that could be used to detect either bots or fake content generated by trolls on Twitter in order to influence people. 

In this first part of the article, I will cover the data collection process, preprocessing, feature extraction, classification itself and the evaluation of the models’ performance. In Part 2, I will dive deeper into the troll problem, conduct exploratory analysis to find patterns in the trolls’ behaviour and define the topics that seemed of great interest to them back in 2016.

Features for analysis

From all possible data to use (like hashtags, account language, tweet text, URLs, external links or references, tweet date and time), I settled upon English tweet text, Russian tweet text and hashtags. Tweet text is the main feature for analysis because it contains almost all essential characteristics that are typical for trolling activities in general, such as abuse, rudeness, external resources references, provocations and bullying. Hashtags were chosen as another source of textual information as they represent the central message of a tweet in one or two words. 

Read more
Total votes 3: ↑3 and ↓0 +3
Views 889
Comments 0

Detecting attempts of mass influencing via social networks using NLP. Part 2

Python *Data Mining *Twitter API *Big Data *Natural Language Processing *
Tutorial

In Part 1 of this article, I built and compared two classifiers to detect trolls on Twitter. You can check it out here.

Now, time has come to look more deeply into the datasets to find some patterns using exploratory data analysis and topic modelling.

EDA

To do just that, I first created a word cloud of the most common words, which you can see below.

Read more
Total votes 3: ↑3 and ↓0 +3
Views 482
Comments 0