Как стать автором
Обновить
5
0
Александр Семёнов @semenoffalex

Пользователь

Отправить сообщение

Анализ Вконтакте на примере книжных предпочтений участников культурных сообществ

Время на прочтение7 мин
Количество просмотров59K

Рис.  3. – Книги каких авторов из рейтинга топ100 читают пользователи Вконтакте

Для всех диаграмм в статье есть интерактивные визуализации: graphgrail.com/gg-client/vk_books.html
К 2014 году потенциал традиционных подходов к развитию аналитики социальных процессов оказался исчерпан в силу нескольких причин, главная из которых – неспособность созданных в рамках данных подходов решений адаптироваться к изменившимся условиям формирования общественных законов. Речь идет об их недостаточной динамичности и неприспособленности для обработки данных, поступающих в больших объемах в режиме времени, близком к реальному. Но самый серьезный удар по классической аналитике нанес взрывной рост объемов неструктурированных данных. [1]
Читать дальше →
Всего голосов 32: ↑23 и ↓9+14
Комментарии71

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года

Время на прочтение6 мин
Количество просмотров35K
Это логическое продолжение статьи "Построение графа социальной сети с помощью Drupal и Feeds"

Я в составе группы занимался собором информации из блогосферы. Задачей было оценить напряженность, активность политических дискуссий в период избирательной кампании выборов в Государственную Думу. Забегая вперед скажу, что исследование позволило выдвинуть гипотезы, которые позже подтвердились. В частности, по результатам, о которых вы прочтете ниже можно понять, кто же будет выходить на площади и выводить за собой людей. И главное, за кем они пойдут.
Читать дальше →
Всего голосов 46: ↑38 и ↓8+30
Комментарии16

Построение графа социальной сети с помощью Drupal и Feeds

Время на прочтение3 мин
Количество просмотров15K
В одном крупном университете на Юге России я разрабатываю программную платформу автоматизированного построения графа социальной сети при помощи обработки интернет страниц социальных сетей. В данной статье я расскажу, как мы обрабатывали данные, собранные из Живого журнала (Livejournal.com).
Прошел почти год, я думаю, будет интересно узнать, как система применялась для автоматизированного сбора данных в период избирательной кампании в Государственную думу в 2011 году.
Читать дальше →
Всего голосов 17: ↑10 и ↓7+3
Комментарии13

Введение в оптимизацию. Имитация отжига

Время на прочтение10 мин
Количество просмотров185K
В этой статье я постараюсь максимально доходчиво рассказать о таком простом, но эффективном методе оптимизации, как имитация отжига (simulated annealing). А чтобы не быть причисленным к далёким от практики любителям теоретизировать, я покажу как применить этот метод для решения задачи коммивояжёра.

Для понимания статьи Вам понадобятся минимальные навыки программирования и владение математикой на уровне 9 класса средней школы. Статья рассчитана на людей не знакомых с методами оптимизации или только делающих первые шаги в этом направлении.

image


Читать дальше →
Всего голосов 148: ↑138 и ↓10+128
Комментарии37

Выбор Шрифтов для Презентаций, Печати и Веба

Время на прочтение5 мин
Количество просмотров73K
Любовь к шрифтам – это болезнь. Скорее всего большинству людей этого не понять – ведь мы живем в стране где вывески и витрины оформлены с такой безграмотностью что порой хочется достать фотоаппарат и сфотографировать это «счастье» да выложить в интернет дабы показать до чего может довести человеческое безразличие. Поэтому человек у которого на столе лежит каталог FontFont и который иногда бурчит что де «неплохо еще вот этот шрифт купить» воспринимается порой как немного «не в себе». Тем не менее, изрядная доля моего времени уходит на то чтобы потеоритизировать на тему того, какие шрифты где уместны, и как выработать свой уникальный стиль для презентаций, веб-типографики и печатной типографики. В этом посте – несколько мыслей насчет того что работает/не работает, и что бы хотелось попробовать.
Читать дальше →
Всего голосов 61: ↑43 и ↓18+25
Комментарии46

Running Lean. Пересказ одной из лучших книг о стартапах

Время на прочтение14 мин
Количество просмотров110K
Cover
Ниже — вольный пересказ книги Running Lean, автор — Ash Maurya. Рейтинг Амазона — 4.8 из 5. Книга, насколько я знаю, на русский язык еще не переведена.

Здесь изложена суть книги в объеме меньшем 1% объема книги, по моей оценке. Все вопросы освещены так, как я их понял, что необязательно совпадает с тем, как их хотел донести автор.

Допускаю, что нарушаю чьи-то права: пересказ лицензии не требует, но иллюстрации взяты из книги. Автору я писал в попытке прояснить этот вопрос, но ответа не получил.

Блог автора кгиги: practicetrumpstheory.com.

Структура пересказа

  • Введение в процесс Running Lean
    • Три важнейших методологии
    • Roadmap
  • Описание процесса Running Lean
    • Составьте «План А»
      • Определите кто клиенты
      • Создайте бизнес-модели
      • Ранжируйте бизнес-модели
    • Протестируйте и измените план
      • Подготовьтесь к проведению экспериментов
      • Категории рисков и четыре фазы тестирования плана
        • Фаза 1. Поймите проблему
        • Фаза 2. Найдите решение
        • Фаза 3. Валидируйте качественно
        • Фаза 4. Верифицируйте количественно
  • Три стадии стартапа
    • Соотношение трех стадий стартапа и четырех фаз тестирования плана
    • Держите правильный фокус
    • Привлекайте финансирование вовремя
    • Масштабируйте правильно
Читать дальше →
Всего голосов 60: ↑58 и ↓2+56
Комментарии14

Microsoft Azure ❤ Big Data

Время на прочтение6 мин
Количество просмотров10K
Около полугода назад я публиковал ретроспективу того, что интересного для исследователей происходит в облаке Microsoft Azure.

Продолжу эту тему, немного сместив акцент в области, которые для меня последние пару лет неизменно остаются наиболее интересными в ИТ: Big Data, машинное обучение и их симбиозом с облачными технологиями.

Ниже обсудим преимущественно октябрьские анонсы сервисов Microsoft Azure, предоставляющих возможность пакетной и real-time обработки больших массивов данных, высокопроизводительный кластер по требованию, широкую поддержку алгоритмов машинного обучения.



Читать дальше →
Всего голосов 22: ↑14 и ↓8+6
Комментарии6

Управляемость сложных сетей — перевод статьи Controllability of complex networks

Время на прочтение21 мин
Количество просмотров11K
Данная статья представляет собой перевод статьи Альберта Барабаши и его соавторов, под названием «Controllability of complex networks». Оригинал которой в формате PDF можно скачать здесь.

Кстати сказать, некоторые считают, что Эйнштейна XXI века будут тоже звать Альберт. А именно Альберт Барабаши.

Для тех, кто уважает чужой труд, напомню, что перевод является авторским, и любое цитирование или упоминание требует указания ссылки на оригинал перевода. Надеюсь, что те, кто не уважают чужой труд, не заморачивают себе голову тем, о чем будет идти речь в статье.

В переводе, жирным шрифтом будут выделены важные заключения и основные понятия, приведенные в статье, выделенные автором перевода. Курсивом будут выделены комментарии автора перевода и ссылки на определения и дополнительную информацию по некоторым понятиям и методам, приведенным в статье.
Читать дальше →
Всего голосов 4: ↑4 и ↓0+4
Комментарии5

Практическое руководство по коллективным действиям

Время на прочтение2 мин
Количество просмотров9.8K
На сайте Polit.Ru вчера появилась книга Александра Борисовича Долгина «Как нам стать договоропригодными, или Практическое руководство по коллективным действиям» (с подзаголовком «Начала экономической теории клубов»); она доступна и для чтения на самóм сайте, и для скачивания в формате PDF.

Автор книги (известный как основатель «Имхонета») подвергает более или менее обоснованной критике как существующие социальные сети и сообщества, так и их противоположность — краудсорсинг и краудфандинг, полагающиеся на добровольное участие отдельных случайных людей. Идеалом же Долгина, насколько я мог судить по тексту его книги, является широкое распространение клубов людей, связанных общими жизненными, коммерческими, политическими, общественными интересами, притом людей осведомлённых о математических и экономических и айтишных механизмах для получения выгоды из объединения и для нахождения таких коллективных решений, которые действительно устраивают большинство. Также автор считает в ряде случаев желательным или даже категорически необходимым полагаться на репутацию людей вместо того, чтобы обращаться к первым встречным. Ещё он рекомендует в сообществах поскорее устанавливать достаточно жёсткие правила и тем устранять издержки анархии.

Сразу скажу, что не все аргументы Долгина представляются мне бесспорными, но книга, как я полагаю, окажется интересною для многих хабрахабровских читателей — вот почему я решил порекомендовать её всем вам.

Пусть название сайта Polit.Ru не заставляет вас заподозрить, что выложенная там книга изобилует политикою. Изо всех рассматриваемых в ней примеров политическими являются, кажется, не более трети, так что она пригодна для хладнокровного прочтения внеполитическим сообществом Хабрахабра. (Увы, их достаточно для того, чтобы понять, что Долгин либерал.)

Читать дальше →
Всего голосов 17: ↑12 и ↓5+7
Комментарии6

ВКонтакте раскрыла свою статистику

Время на прочтение1 мин
Количество просмотров137K
11 сентября сайт vk.com переходит с TNS на LiveInternet и ComScore, а также раскрывает свою статистику посещений, которую можно посмотреть тут. Из этой статистики мне показалось интересным статистика по браузерам, OC и разрешениям экранов.

Читать дальше →
Всего голосов 78: ↑72 и ↓6+66
Комментарии211

«Вконтакте» лидирует по количеству мата

Время на прочтение1 мин
Количество просмотров2.1K
Малоизвестная коммуникационная группа «Византия» провела интересное исследование российской аудитории социальных сетей. В отличие от подобных исследований, здесь социологи сконцентрировались на составлении психологического портрета среднего пользователя Facebook, «Вконтакте», «Одноклассники» и Twitter. Оказалось, что аудитория этих сайтов заметно отличается.

Например, вот один из результатов исследования: количество мата на 1000 слов.

Вконтакте — 17,2 бранных слова на тысячу
«Мой мир» — 16,3
Twitter — 15,5
«Одноклассники» — 15,4
Facebook — 12,8
Читать дальше →
Всего голосов 20: ↑9 и ↓11-2
Комментарии36

Очень быстрый и эффективный способ расслабления глаз

Время на прочтение4 мин
Количество просмотров414K

Предисловие


imageНе знаю, все ли программисты всесторонне любознательные люди, но я всегда пытаюсь получить фундаментальные знания во всех областях, которые могут быть практически полезны. В то время, когда мне в голову пришла эта идея я изучал анатомию и физиологию по журналам «Тело человека. Снаружи и внутри», ну а по работе я занимался стерео-варио фотографиями (для тех кто не знает — были такие советские календарики с ребристой поверхностью, где картинка либо казалась объемной, либо менялась). Так вот, в один из вечеров мне пришла в голову замечательная идея, которую я на протяжении уже 4х лет использую для поддержания своего зрения.
Обещаю, что эффект почувствуете сразу!
Читать дальше →
Всего голосов 246: ↑238 и ↓8+230
Комментарии207

Граф отношений пользователей Google+. Gephi

Время на прочтение5 мин
Количество просмотров10K
После прочтения статьи Gephi как средство визуализации данных я оказался под сильным впечатление от программы Gephi. На тот момент я занимался генерацией логов активности пользователей в Google+. И меня посетила идея, а может быть сделать граф отношении между участниками соц. сети Google+. После нескольких часов поисков пришел к выводу, что подобных вещей еще не сделано для Gephi. Даже в wiki gephi алгоритма формирования графа для Google+ не предложено. И на волне вдохновения быстренько дописал в приложении LoggenCSG модуль выгрузки лога в файл бд sqlite, который умеет импортировать Gephi. Результаты импорта графа в Gephi мне очень понравились.
Косвенные отношения между пользователями через их активности.
Косвенные отношения между пользователями через их активности.

Прямые связи между пользователями через их активности.
Прямые отношения между пользователями через их активности.
Дальше пойдет описание того как самостоятельно построить подобные графы.
Читать дальше →
Всего голосов 52: ↑44 и ↓8+36
Комментарии18

Получаем доступ к методам Вконтакте Api без ведома пользователя

Время на прочтение3 мин
Количество просмотров13K

Вступление


Данная уязвимость была найдена мною порядка двух месяцев назад, или даже больше.
Тогда информация была отправлена разработчикам, и они успешно её фиксанули.
Как мне на тот момент показалось.

Вскоре стало понятно, что они её вовсе не пофиксили, а просто ограничили доступ к сообщениям, на которые я в тот раз обратил внимание разработчиков.

Процесс получения доступа, я постараюсь достаточно подробно описать под катом.
Читать дальше →
Всего голосов 77: ↑72 и ↓5+67
Комментарии20

34 Великолепных примера инфографики, раскрывающих мир социальных медиа

Время на прочтение2 мин
Количество просмотров25K
Оригинальное название: 34 Stunning Infographics To Understand The World Of Social Media


image

Инфографика – это относительно новый способ представления информации в графическом виде. Инфографика не только преподносит информацию в лаконичном неперегруженном формате, но и делает её легкой к пониманию. Инфографика позволяет преподнести большой объем информации в сжатом формате.

В данный момент мы хотим продемонстрировать Вам как инфографика может повысить понимание взаимосвязанность мира социальных медиа и его влияние на интернет-пользователей.

* Инфографика как всегда хороша тем, что прочитав заголовок, сама графика понятна и без знания языка, смотрим!
Приятного просмотра! Материал в самый раз для выходных.

По ссылкам большие варианты и более полные чарты в некоторых случаях

Читать дальше →
Всего голосов 67: ↑42 и ↓25+17
Комментарии29

Google научился индексировать комментарии Facebook

Время на прочтение2 мин
Количество просмотров3.7K
Мэтт Каттс объявил об очередном повышении «интеллекта» Googlebot. На этот раз поисковый бот научился исполнять AJAX/JavaScript для индексации различных типов динамических комментариев. Ещё одна «невидимая» часть веба теперь попадёт в поисковый индекс. В первую очередь это касается комментариев с платформы Facebook Comments, которая установлена на десятках тысяч блогов и сторонних сайтов.

Контент JavaScript-комментариев уже появился в индексе Google. Если искать по имени автора (например, Роберта Скобла), то можно сразу посмотреть, какие комментарии он писал на заданную тему на различных сайтах.
Читать дальше →
Всего голосов 20: ↑13 и ↓7+6
Комментарии6

24-летний студент начал войну против Facebook

Время на прочтение3 мин
Количество просмотров73K


24-летний студент юридического факультета Венского университета Макс Шремс (Max Schrems) вот уже несколько месяцев ведёт неравный бой с компанией Facebook. Всё началось с того, что Макс отправил несколько грамотно составленных запросов и добился-таки, что из калифорнийского офиса ему прислали CD-диск со всеми персональными данными, собранными за три года активности на сайте.

Каждый гражданин может потребовать у Facebook выдачи ему в течение 40 дней всей собранной на него персональной информации. На сайте есть специальная форма для такого запроса. Вам придёт CD с файлом PDF объёмом несколько сотен мегабайт и более 1000 страниц. Макс Шремс получил PDF из более 1200 страниц, вся информация в файле была разбита на 57 категорий (работа, образование, друзья, политические взгляды, хобби, фотографии и т.д.). Как говорит Макс, даже у КГБ не было такого полного досье на граждан.

Но самое удивительное, что среди всего прочего в присланном файле были удалённые сообщения, чат-сессии, имена бывших друзей и другие данные с пометкой deleted:true.
Читать дальше →
Всего голосов 323: ↑296 и ↓27+269
Комментарии246

Граф интересов (Interest graph): новый принцип взаимодействия в сети

Время на прочтение6 мин
Количество просмотров12K
Пару месяцев назад меня очень тронула публикация Идеальная социальная сеть. Автор этой публикации, arilou-campe, обозначил доминирующие принципы, по которым выстраивается большая часть социального взаимодействия в современной сети, а затем он попробовал предположить, на каких принципах будет выстраиваться это взаимодействие в ближайшем будущем.

Я хочу продолжить и уточнить его мысль, озвучить несколько важных и плодотворных, на мой взгляд, концептов («граф интересов» — один из них), вокруг которых сегодня ведётся дискуссия о будущем развитии сети, а также привести в качестве примера несколько проектов (над одним из которых я сам сейчас работаю), уже реализующих на практике новые принципы социального взаимодействия: те самые принципы, которые могут стать доминирующими в самом ближайшем будущем.
Читать дальше →
Всего голосов 56: ↑52 и ↓4+48
Комментарии67

Красивый парсинг email оповещений из банка

Время на прочтение3 мин
Количество просмотров6.2K
Мы продолжаем радовать вас интересными техническими решениями.

Сегодня на очереди email оповещения из банка, которые выглядят примерно так:
Pokupka, SHELL AZS OLGINO 1133, karta *347788, 23.07.11 12:09, 300.25 rub. Dostupno = 421.61 rub
или так
1000.00 RUR было списано с Вашего счета **77876.
Торговая точка: ZAO GAMMAEKSPER
Дата: 12/07/2011
Доступный баланс: 12344.11 RUR


Как вы думаете, как должна выглядеть красивая обработка таких оповещений в сервисе учета личных финансов?
Читать дальше →
Всего голосов 43: ↑32 и ↓11+21
Комментарии34

Статистика LiveJournal Top1000

Время на прочтение7 мин
Количество просмотров2.3K
Что такое блогосфера рунета сегодня. Можете со мной не согласиться, но на мой взгляд 80% того, что люди понимают под словом «блогосфера» — в рунете помещается в Живом Журнале. Да, Яндекс индексирует большое количество блоговых площадок, тут есть и LiveInternet и diary.ru и блоги на mail.ru тоже есть. И много чего еще. Но попробуйте припомнить, когда вы читали что-то интересное, достойное внимания на блоге из LiveInternet? А вообще что-нибудь на блогах mail.ru?

Известное дело, в Живом Журнале бал правят тысячники (а в последнее время уже десятитысячники).
Давайте посмотрим поближе, кто же они такие, топовые блогеры рунета?

На скорую руку я набросал робота, который ходил в профиль к тысяче блогеров, первых по критерию «в друзьях у», согласно рейтингу LiveJournal. Есть еще так называемый рейтинг авторитетности Яндекса, но давайте не будем сегодня о грустном.

Робот собирал личные данные и аккуратно складывал их в общую кучу. Код робота писался на C#, не буду утомлять излишними техническими подробностями, все довольно просто и прямолинейно – зашел на страничку, пропарсил ее на вхождение нужных переменных, сохранил, перешел к следующей.
И так 1000 раз.

Вот код функции, который получает на вход URL адрес страницы, и выдает на выходе HTML страницы в виде string. Теперь ее можно парсить обычными строковыми функциями, или пременить RegExp-ы.

  private string GetPageByURL(string strURL)
  {
    try
    {
      // used to build entire input
      StringBuilder sb = new StringBuilder();

      // used on each read operation
      byte[] buf = new byte[8192];

      // prepare the web page we will be asking for
      HttpWebRequest request = (HttpWebRequest)
        WebRequest.Create(strURL);

      // execute the request
      HttpWebResponse response = (HttpWebResponse)
        request.GetResponse();

      // we will read data via the response stream
      Stream resStream = response.GetResponseStream();

      string tempString = null;
      int count = 0;

      do
      {
        // fill the buffer with data
        count = resStream.Read(buf, 0, buf.Length);

        // make sure we read some data
        if (count != 0)
        {          
          // translate from bytes to ASCII text
          tempString = Encoding.GetEncoding("UTF-8").GetString(buf, 0, count);          

          // continue building the string
          sb.Append(tempString);
        }
      }
      while (count > 0); // any more data to read?

      return sb.ToString();
    }
    catch (Exception ex)
    {
      return "";
    }
  }


* This source code was highlighted with Source Code Highlighter.


Теперь в цикле ходим по страницам:
www.livejournal.com/ratings/users/?page=1

www.livejournal.com/ratings/users/?page=50

выкачиваем их с помощью вышеуказанной функции, потом бегаем по ним как по стрингам и собираем в ArrayList имена юзеров и их «в друзьях у».

Получаем список из 1000 человек. Потом проходим по нему в цикле, и заходим на страницы http://[имя пользователя].livejournal.com/profile и парсим их на вхождения остальных переменных.

После чего все пишем в базу, файл, или просто выплеваем на страницу, а оттуда копипастим ручками в Excel.

А для того, чтобы LiveJournal на моего робота не обижался – поставил существенную задержку между заходами, а то они очень уж строго предупреждают – будете ходить к нам своими роботами и не вытирать ноги – забаним. Поэтому весь процесс занял больше суток – написание робота, тестирование, работа, форматирование результатов. Согласен, на php можно было управиться кодом в полтора экрана и 2 часа на все про все, но мне .NET все-же привычнее.

Получилась вот такая табличка.

Таблица и немножко графиков-чартов под катом
Всего голосов 9: ↑5 и ↓4+1
Комментарии8

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность