belk Jul 11 2011 at 08:43

Статистика по профилям пользователей ВКонтакте

6 min

102K

VK API *

+263

237

Comments 237

link0ln Jul 11 2011 at 08:51

Анна (Аня, Анюта, Анютка, Анечка, Anna, Настюша)… Нстюша?? O_o

belk Jul 11 2011 at 08:57

Поправил.

DnV Jul 11 2011 at 09:40

Alex и Алекс тоже скорее к Алексеям, чем к Александрам относится.

DenisO Jul 11 2011 at 10:01

Извечный вопрос интернета: «Алекс» — Алексей или Александр? :)

aleksandr_lis Jul 11 2011 at 10:22

Для кого извечный, а для кого и давно решённый.

HoochieMen Jul 11 2011 at 12:59

Поделитесь решением)

aleksandr_lis Jul 11 2011 at 13:11

Меня зовут Александр или Саша. К этому и я и все окружающие давно привыкли. Есть пара друзей Алексеев, которых все называют Алекс или Лёша, и к этому окружающие давно привыкли.

Ну и с новыми людьми, Александра я никогда не назову Алексом а Алексея Сашей например. Для меня это и есть решение.

HoochieMen Jul 11 2011 at 13:25

Ну в принципе я так же.
но бывает когда подписываешься в письме «Алекс». (Меня Алексей зовут)

а в ответ: «Хорошо, Саш… „)

aleksandr_lis Jul 11 2011 at 13:39

Ну тут да, всех в своих взглядах не убедишь. Есть пара человек, которые постоянно в переписке меня Алексом называют, каждый раз аккуратно поправляю, к сожалению безрезультатно.

HoochieMen Jul 11 2011 at 13:40

Но всё же назвать Александра Алексом это не тоже самое что названить Алексея Сашей, согласитесь)

HoochieMen Jul 11 2011 at 13:52

*назвать

aleksandr_lis Jul 11 2011 at 13:55

Соглашусь, жаль что это мало что изменит и наши имена будут продолжать путать.

HoochieMen Jul 11 2011 at 13:56

Да, согласен. главное чтобы те с кем чаще общаешься быстрей привыкали)

1nSaneRu Jul 11 2011 at 16:15

Я сам Алексей, но никогда себя Алексом не назову, только Alexey. По мне так Alex — Александр.
А вот что больше раздражает, что на картах и т.д. пишут Aleksey!

Colobock Jul 11 2011 at 16:37

На картах, обычно, в анкете спрашивают, как писать.

1nSaneRu Jul 11 2011 at 17:05

В Банке Москвы в анкете был такой пункт. В СберБанке — сами пишут, как хотят. Еще в 3-4 тоже сами писали…

А вот какие проблемы были у парня на почте, чтобы получить посылку, когда я в его заказе указал Alexander Alexashin… теперь всегда только Aleksander Aleksashin. А то бабульки всякие бывают на почте…

whm Jul 11 2011 at 19:13

подумаешь… мои Ilia или Ilya бабульки, в большинстве случаев, читают как «Юлия». решается простым «nigga please» выражением лица и/или отсылкой к стандартам транслитерации.

angel7 Jul 12 2011 at 04:01

У меня две сберовские карты, там тоже прикольная система — на одной карте фамилия сформирована по одному правилу транслитерации, а на другой — по другому!
Разница в выдаче — 6 месяцев.

HoochieMen Jul 11 2011 at 16:55

Даа, это бывает тоже. реально бесит. помню в союзбанке заказывал. написал в анкете alexey. карта пришла — aleksey.

zelenin Jul 22 2011 at 18:00

да, потому что нет в русском языке буквы x, а k и s есть.

Ayahuaska Jul 11 2011 at 21:29

А я вот не соглашусь. Потому как акромя русского языка есть ещё например, английский, где Alex — сокращение от Alexander.

aleks1k Jul 12 2011 at 19:57

Alexey тоже сокращается в Alex, или Aleksey -> Aleks.

stalkerxxl Jul 12 2011 at 03:40

в интЫрнете Алекс — это Exler =)

Alexcr Jul 11 2011 at 10:26

Алекс больше к Александрам :) я пример :)

HoochieMen Jul 11 2011 at 12:59

Опровергаю. Алекс больше к Алексеям. Я пример :))

YaakovTooth Jul 11 2011 at 16:54

Ну и я, чо уж тут. С фидо срач ещё идёт. ;)

AlexeyK Jul 12 2011 at 17:51

погнали!

Holy_Cheater Jul 11 2011 at 21:20

Ну если в международном смысле рассматривать, Alex — сокращенное от Alexander. Хотя я использую Alexander, чтоб не перепутали.

alexxxst Jul 11 2011 at 10:45

Я — Алексей :)

homm Jul 11 2011 at 11:24

А почему по нику Александр? :)

alexxxst Jul 11 2011 at 11:31

Алекс — НЕ Александр… откуда такое повелось? :)

alexxxst Jul 11 2011 at 11:32

Вот, википедия вещает: Алекс — сокращённый вариант имени Александр и, иногда, Алексей. Такое сокращение наиболее распространено в Северной Америке и Европе.

turich Jul 11 2011 at 19:38

Немцы, к примеру, Аелксами называют Александров. Наверно, ввиду того, что Алексеев у них меньше =)

sashaeve Jul 11 2011 at 19:30

А я вот не могу понять, почему некоторые считают Алекса Алексеем? Алекс — это для буржуев, чтобы не писать Aleksandr или Alexand. А с учетом того, что в английском варианте никаких Алексеев нет, то сразу становится понятным, кто такой Алекс.

DepenD Jul 12 2011 at 09:31

Ну вот я например, когда в другой стране, говорю, что я Алекс, т.к. это удобнее для иностранного произношения.

Alexsmt Jul 11 2011 at 14:25

А я Александр. Даже ники немного схожи :)

ooprizrakoo Jul 11 2011 at 21:37

Александры выиграют битву за «Алексов» потому, что Александров по статистике больше в два раза, соответственно можно вывести корреляцию что из трёх Алексов два будут Александрами. Нам, Алексеям, остается только партизанить в этой войне :-)

DnV Jul 12 2011 at 15:59

Александров и Алексеев естественно примерно поровну, а то, что у автора статьи получалась такая разница как раз и говорит о том, что он отнёс большую часть Alexов и Алексов не к тому имени.

ooprizrakoo Jul 12 2011 at 18:33

По статистике имен в России, Александры все равно выигрывают у нас (Алексеев) в полтора-два раза :(

Mezya Jul 11 2011 at 12:07

Ксюша и Оксана вроде как одно и то же.

belk Jul 11 2011 at 12:13

Вики говорит, что нет.

romx Jul 11 2011 at 12:22

А Ксения тогда, по вашему, кто?

Mezya Jul 11 2011 at 12:24

Оксана это украинская разговорная форма имени Ксения.

UFO landed and left these words here

Mezya Jul 11 2011 at 12:39

Ну, раз автор объединил украинские написания имён, то и Ксюшу с Оксаной можно было бы.

MonkAlbino Jul 12 2011 at 01:46

Да, только вот для паспортных столов Оксана и Ксения разные имена.

UFO landed and left these words here

glassoff Jul 11 2011 at 09:51

Сашка, Саня, Александр Родионович Бородач)

Digital_evil Jul 11 2011 at 13:23

а меня больше порадовали фамилии. Большая часть фамилий — производная от того кто твой отец:
Иван — (чей сын?) Иванов
Алексей — Алексеев
Поп — Попов
и тд.

Вечело смотреть на фамилию Козлов в этом списке. Наверное старинных женщин тоже часто бросали…

Colobock Jul 11 2011 at 13:28

Орлов, Соколов, Баранов, Бобров, Коршунов… прямо индейские традиции…

Libra_by Jul 12 2011 at 07:20

> Большая часть фамилий — производная от того кто твой отец

Недавно читал в одной статье про коллективизацию, что многих крестьян записывали в паспорт подобным методом.

nervousnerd Jul 12 2011 at 08:24

в исландской традиции, да и вообще скандинавской ещё интереснее — там сразу указывается сын ты или дочь, например, отец Андерс, ты будешь Андерссон, если сын или Андерсдоттир если дочь :)

orloffkirill Jul 12 2011 at 11:49

Т.е. Бьорк Гудмундсдоттир — это как, Гудмундова дочь?

nervousnerd Jul 12 2011 at 11:59

именно
у исландцев фамилий в нашем понимании нет, они «обновляются» с каждым поколением

uzverkms Jul 11 2011 at 14:38

Зато может быть Нюша или Нюра =)

roman_tik Jul 11 2011 at 14:54

Нюша — это, простите, кто? Розовая свинья из Смешариков?

uzverkms Jul 11 2011 at 14:57

Всего лишь одна из форм имени Анна ru.wikipedia.org/wiki/%D0%90%D0%BD%D0%BD%D0%B0_(%D0%B8%D0%BC%D1%8F)

UFO landed and left these words here

belk Jul 11 2011 at 09:06

Какая тут может быть монетизация? Да, на домашнем компьютере лежат все ответы сервера в JSON, каждый профиль содержит id, имя, фамилию, ник, пол, дату рождения, город, страну, таймзону, ссылки на текущую аватарку, телефоны, университет, факультет и рейтинг. Собственно, почти вся информация есть в посте.

Colobock Jul 11 2011 at 11:38

Базу продать, деньги — пропить.

ruskar Jul 14 2011 at 09:19

Всё равно базу можно с пользой использовать: эдакий «кэш запроса к API». Т.е. если надо получить социальные данные пользователя своего сайта, который авторизовался через Вконтакте, то можно сначала получить их из этой базы, а потом уже для надёжности «прочекать» дополнительным запросом к API.

quard Jul 11 2011 at 09:18

Хм, а разве стандартные запросы к АПИ без авторизации пользователя позволяют всегда доставать данные по телефону и нек. другим полям?

+ еще настройки приватности ни как не учитываются.

статистика по наличию телефона явно не верна, сейчас почти всех принудительно заставляют привязывать аккаунты к номеру. А то что вы не можете инфу получить эту, это уже другой вопрос

belk Jul 11 2011 at 09:19

Само собой, что под «не указан» попадают ещё и случаи, когда поле скрыто от всех пользователей.

de1337ed Jul 11 2011 at 09:20

Браво
Это настолько масштабно, что даже сразу в голове не укладыватеся)

Davidov Jul 11 2011 at 09:24

А откуда пики на первых числах месяца?

belk Jul 11 2011 at 09:25

Думаю, по тем же причинам, что и на первом января: люди не хотят указывать реальное число.

overbeat Jul 11 2011 at 09:39

На мой взгляд помимо этой таблицы нужно было сделать еще одну, приведенную, где количество родившихся первого числа примерно уравнять с другими числами. Получим неправильную статистику по первым числам, но зато более детально увидим реальное распределение, ибо сейчас гистограмма плоская из-за пика 1 января.

de1337ed Jul 11 2011 at 09:27

Наверное, при регистрации фейков, чтобы не париться укзывают первое число

Devgru Jul 11 2011 at 11:05

Обратите внимание на рождённых в конце февраля :)

Kolonist Jul 11 2011 at 13:31

Ну это и логично. 29 февраля не каждый год бывает, так что таких должно быть в 4 раза меньше. А если учесть, что родители могли попросить не указывать 29 февраля в качестве даты рождения, то таких будет еще меньше.

Devgru Jul 11 2011 at 14:15

Ну да, верно. А ещё, раньше ВК можно было задать 30/31 февраля.

AusTiN Jul 12 2011 at 13:57

> А если учесть, что родители могли попросить не указывать 29 февраля в качестве даты рождения
зачем?!!!

Skaurus Jul 14 2011 at 10:51

чтобы у ребенка не был ДР раз в четыре года, очевидно)

dug Jul 11 2011 at 15:02

особенно первого апреля

UFO landed and left these words here

nikita2206 Jul 11 2011 at 10:14

Еще возраст можно определять по по году окончания школы

Halt Jul 11 2011 at 14:50

Это однозначно :)

— Тебе сколько лет?
— 20!!!
— А в каком классе?
— 9!

roman_tik Jul 11 2011 at 15:00

Ник: katty-love
Имя: Катя
Фамилия: <скрыто>
Год рождения: <скрыто>
e-mail: pupkina1989@mail.ru

Mendel Jul 11 2011 at 21:40

Я скрытые поля восстанавливаю через поиск.
Выставляю известную мне информацию в фильтр, чтобы однофамильцев и т.п. было как можно меньше.
Когда колво выходит разумным, я добавляю другие параметры, включая возраст. Методом половинного деления возраст определяется быстро.
Аналогично семейное положение достается…
В массах пропарсить будет сложновато, но в единичных случаях ручками легко можно много чего выкопать :)

Ogra Jul 11 2011 at 09:37

Многие из тех, кто скрывают возраст, не скрывают год выпуска из школы/вуза, так что определить возраст не проблема.

Bright Jul 11 2011 at 10:22

Примерно определить. В школу можно пойти в 6 или 7 лет. А ещё можно проскочить через 4-й класс.
Итого ошибка — 2 года.

Ogra Jul 11 2011 at 10:23

Да, конечно. Но это не такая уж и большая ошибка ;)

Colobock Jul 11 2011 at 11:43

Я в шестом не был, например. Из пятого в седьмой.

Fesor Jul 11 2011 at 12:35

А мой друг при этом еще и в 5 лет в школу пошел… Так что ему только исплнилось 18, и он уже на третьем курсе

AusTiN Jul 12 2011 at 13:58

у меня такая же ситуация, в 4.5 пошел в школу и сейчас закончил третьий курс)

UFO landed and left these words here

tonyawer Jul 11 2011 at 09:29

Познавательно. Спасибо за гайд.
Удивил пиковый возраст. Я думал, что Вконтакте «старше». А выходит, что большинство пользователей 1985-1989 г.р.

ps Распространенное мнение, что Вконтакте сугубо питерская социальная сеть не нашло подтверждения.

VolCh Jul 11 2011 at 09:39

А я думал, что вконтакте младше. Людей 20-25 лет «школотой» как-то не назовёшь.

ChemAli Jul 11 2011 at 10:41

«Школота» не характеризуется лишь возрастом. Скорее — типом мышления.

Xpeh Jul 11 2011 at 10:56

Пренебрежительное обозначение социальной группы не характеризуется лишь свойствами, определяющими принадлежность к этой социальной группе. Скорее — исключительно негативными свойствами, обычно ей присущими по мнению автора высказывания.

Сколько раз я слышал этот аргумент от людей, называющих евреев жидами и гомосексуалов пидарасами! Используйте какое-нибудь другое слово, если хотите быть правильно понятыми приличными людьми.

UFO landed and left these words here

Xpeh Jul 11 2011 at 09:40

Это «распространённое мнение» распространено сугубо среди питерских?

UFO landed and left these words here

gaiver Jul 11 2011 at 09:29

Думаю, что точность данных соизмерима с нашей переписью населения.

nikita2206 Jul 11 2011 at 10:29

Наверное поточнее будет)

orionll Jul 17 2011 at 17:14

На самом деле, неплохо было бы оценить погрешность всех «измерений». Думаю, это вполне реально сделать. Просто числа типа 196474 меня как физика немножко выводят из себя (:

Guedda Jul 11 2011 at 09:30

Действительно интересная статистическая информация.

atomlib Jul 11 2011 at 09:32

Филиал вуза считался за отдельный вуз или входил в его множество?

belk Jul 11 2011 at 09:35

Считались уникальные названия ВУЗов.

atomlib Jul 11 2011 at 09:39

Не понял. Выходит, вы только головное отделение ЮУрГУ учли?

belk Jul 11 2011 at 09:42

Скорее всего, так и есть.

atomlib Jul 11 2011 at 09:45

«А или Бэ?» — «Да» Вы не отвечаете на мой ответ.

belk Jul 11 2011 at 09:48

Мне неизвестно, как ЮУрГУ числится в базе ВКонтакте: всё под одним названием, или каждый филиал отдельно. Если всё вместе, то филиалы учтены, в обратном случае нет.

atomlib Jul 11 2011 at 09:55

Скорее всего под разным, потому как вуз в их базе может быть расположен только в одном городе. Таким образом у них описано несколько вузов, из-за чего статистика по ЮУрГУ сразу кажется неправдоподобной.

vintel Jul 11 2011 at 09:32

А можно такое же сравнение пользователей Одноклассников и ФБ? В одноклассниках, наверное, средний возраст 40+ и провинция доминирует, а в ФБ только жители «продвинутых гАродов».

Sanovskiy Jul 11 2011 at 09:32

Самое время продать данные в Роскомстат или аналогичную контору :)

ivanoFF Jul 11 2011 at 09:49

Да чего тут продавать, тем более подобные базы даже выкладывались, например, вот: kaimi.ru/2011/01/%d0%b1%d0%b0%d0%b7%d0%b0-%d0%b2%d0%ba%d0%be%d0%bd%d1%82%d0%b0%d0%ba%d1%82%d0%b5/

Примерно та же информация, правда более старая.

Sanovskiy Jul 11 2011 at 11:05

Так, собственно, деньги надо делать на актуальности информации.

belk Jul 11 2011 at 09:34

Интересно, что ВКонтакте не отреагировал на 40 запросов к API в секунду в течение 18 дней с одного IP.

sskalmykov Jul 11 2011 at 09:41

Неудивительно. Особенно яростные пользователи вконтакте умудряются делать более 50 без всяких API.

ComodoHacker Jul 12 2011 at 21:05

Надо сделать приложение «Измерь свой RPS!»

alist Jul 11 2011 at 09:35

Больше всего удивило, что Андреи популярнее Алексеев и Дмитриев, а также относительная непопулярность Маш и Миш.

foregen Jul 11 2011 at 10:06

В разные годы разная популярность имен. Возраст распределен неравномерно, поэтому здесь может быть искажение за счет тех, кто родился 20-25 лет назад.

IIIEB4YK Jul 11 2011 at 20:52

Блин, я тот самый Андрей, рождённый 20-25 лет назад.
Искажаю статистику. Дорого.

overbeat Jul 11 2011 at 09:35

Запарсить весь контакт — это круто. Интересно было посмотреть на распределение возрастов и статистику по именам-фамилиям.

Но большая часть приведенной статистики, на мой взгляд — абсолютно бесполезна. Например наличие того или иного параметра в анкете, какие из этой информации можно делать выводы? Я бы их вообще убрал и разгрузил статью.

Интересно было бы посмотреть на более глубокий анализ, например, взаимосвязь возраста (или пола) и:
— количества друзей
— активности
— количества фотографий
— интересов.

Конечно, если эти данные тоже запарсены.

belk Jul 11 2011 at 09:40

habrahabr.ru/blogs/statistics/123856/#comment_4068710
Для запроса недостающих данных и более глубокого анализа нужен более толстый канал и много дискового пространства.

overbeat Jul 11 2011 at 10:18

Понимаю, тогда вопросов нет.

Zames Jul 11 2011 at 09:41

Весьма интересные средние показатели!

Kreker Jul 12 2011 at 08:38

Весьма интересный средненький коммент!

Zames Jul 15 2011 at 14:12

Между средним и средненьким весьма глубокая и, не побоюсь этого слова, статистическая разница.

schoolptor Jul 11 2011 at 09:42

Давно хотелось бы проверить «правило 6 рукопожатий», тем более, что сейчас у большинства активных пользователей открыты списки друзей.
Ну или хотя бы скрипт, который по введёному id возвращал бы количество (в идеале — список) его знакомых 1..6 уровня.

kefirr Jul 11 2011 at 10:18

Я занимаюсь именно этой задачей, см мой коммент ниже habrahabr.ru/blogs/statistics/123856/#comment_4068967

antanubis Jul 11 2011 at 10:20

vkontakte.ru/fchain можно тут проверить, вроде не плохо ищет.

schoolptor Jul 11 2011 at 10:33

Да, ищет неплохо, но хотелось бы полный список, а не до конкретного человека.

Ayahuaska Jul 11 2011 at 23:38

Обалдеть как тесен ~~мир~~ вконтакт.

UFO landed and left these words here

schoolptor Jul 11 2011 at 10:32

У меня более 200 друзей вконтакте и каждого я знаю лично.
Там же не только близкие друзья, атм еще и друзья по школе, детским лагерям, университетам, службе и прочее.

UFO landed and left these words here

Teodorix Jul 11 2011 at 12:02

Канал самопродвижения, особенно для «яфотографов».

Bright Jul 11 2011 at 10:42

На мой взгляд, число в районе 200-300 — ещё вполне реально (особенное, если человек более-менее активный или, например, просто приходилось переезжать в другой город).

Сейчас проверял vkontakte.ru/fchain, исключая из поиска людей с количеством друзей более 400 — цепочки всё равно находятся.

Colobock Jul 11 2011 at 11:49

Вот так и девальвировалось понятие «друг».
Возможно, я — олдфаг или просто асоциальная личность, но друзей, в моем понимании этого слова, у меня двое.

Teodorix Jul 11 2011 at 12:03

Слово олдфаг выдает не-олдфага :)

Colobock Jul 11 2011 at 12:06

Понятие относительное. Для многих, здесь присутствующих, я могу показаться зеленым юнцом, а некоторым — оказаться папой.

Teodorix Jul 11 2011 at 12:09

Точно так же, как относительно понятие «друг» :)

Colobock Jul 11 2011 at 12:16

Лично для меня, понятие «друг» однозначно.
Нельзя быть немножко другом кому-то. Можно либо им являться, либо не являться. В русском языке полно слов с близким значением: приятель, знакомый, товарищ…
Возможно, моё представление ошибочно…

tibalt Jul 11 2011 at 14:24

в социальных сетях можешь заменить это слово на френда)

Zames Jul 15 2011 at 14:28

Круги в этом смысле намного более точное определение.

Потому как в жизни у меня друзей по одной руке можно пересчитать.

uzverkms Jul 11 2011 at 15:01

Тогда вам в гуглоплюс :)

Colobock Jul 11 2011 at 15:04

Там фигурируют friends? Эмоционально нейтральнее.

uzverkms Jul 11 2011 at 15:08

Там вы сами вольны распределять пользователей по Кругам: Друзья, Семья, Знакомые. Записи или видеоконференции можно ограничивать конкретным кругом.
Хитрость ещё в том, что в G+ более легкомысленное добавление «друзей». Во вконтакте надо принять предложение, а в G+ надо всего лишь перетащить пользователя в соответствующий круг.
Но заменов Vk этот сервис пока что вряд ли является. Сыроват )

Colobock Jul 11 2011 at 15:40

Если честно, меня не интересуют социальные сети, как таковые — общения мне хватает и так: личного, телефонного. Мне ни разу в жизни не понадобилось уведомлять сразу весь узкий круг людей, с которыми я постоянно общаюсь, о каком-либо событии. Таким образом, я не вижу смысла держать аккаунт в любой соц-сети, независимо от используемой терминологии. Да, Вконтакте я зарегистрирован, с минимальным необходимым набором данных — вдруг кого-то из тех людей, связь с которыми я потерял, захотят меня найти (может быть, я буду даже рад этому), но последний раз я заходил пару месяцев назад — уведомления приходят на почту, а общаюсь я в реале.
Пару дней назад была здесь статья, в комментариях к которой разгорелось обсуждение поведения и мотивов различных типов людей — «иррационалов» и «рационалов». Так вот я — «рационал», похоже.

Bright Jul 11 2011 at 16:37

Ну, друзья в социальной сети — совсем не то же самое, что и друзья в жизни. С эти, думаю, никто спорить не будет.

frog Jul 11 2011 at 20:07

Оно не девальвировалось — это просто ВКонтакт перевёл friend как «друг». Есть и другой вариант перевода — «знакомый», «коллега». Мне кажется, что создатели фейсбука не имели ввиду дружбу в нашем понимании этого слова.

UFO landed and left these words here

anycolor Jul 12 2011 at 05:39

я думаю что нет смысла с друзьями общаться через социальные сети. Друзьями в прямом смысле этого слова )

Colobock Jul 12 2011 at 09:34

Так я живьем и общаюсь. Соц-сетью вообще не пользуюсь.

torbasow Jul 12 2011 at 10:36

Это второе наше с Вами совпадение. Первое было выше, насчёт перескакивания через 6-й класс. Тут уж и в профиль не гляди, ровесник.

Colobock Jul 12 2011 at 15:04

Глянул, все таки, в профиль. Разница ровно в полгода, даже день совпадает.

HID Jul 11 2011 at 12:08

Не вижу ничего некорректного в цифре 1000 или 2000.
У меня в районе 350 и постоянно растёт, среди них не видел лично человек 5 только наверное. Знаю людей с кол-ом друзей более 1000, и они всех видели лично и могут имя каждого вспомнить.

Teodorix Jul 11 2011 at 12:09

Все-таки число активных социальных связей не превышает 200 :) Число Данбара.

HID Jul 11 2011 at 12:23

По-моему мнению очень сомнительно применять тут число Данбара.

В любом случае число Данбара это единовременный срез. А список друзей ВК — множество людей с которыми когда-либо персекался (и при необходимости можно пересечься еще).

Teodorix Jul 11 2011 at 19:16

Вот о том и речь, что это не активные социальные связи, в список личных контактов.

tox Jul 11 2011 at 09:51

Pacman!
Простите, не удержался.

alexey_lahtadir Jul 11 2011 at 09:54

А такой вопросик. Когда пользователь говорит что данные нужно скрывать от всех кроме друзей — эти данные все-равно через API доступны?

belk Jul 11 2011 at 10:36

Нет, через API отдаётся только то, что видно всем. А если делать запросы от имени какого-то пользователя, то покажется то, что доступно ему.

densilvio Jul 11 2011 at 10:00

Как много людей родилось 1го апреля :)

Tairesh Oct 16 2013 at 09:08

В роддоме Октябрьского района Екатеринбурга в 1993-ем году, всего один, насколько я знаю.

hioma Oct 17 2013 at 10:41

образцовый комментарий =) спасибо, что держите нас в курсе даже по прошествии более двух лет после обсуждения этой темы

Tairesh Oct 17 2013 at 11:19

Ох, буквально вчера кого-то некропостером называл.

naryl Jul 11 2011 at 10:05

Иванов Иван Иванович отменяется. Всем срочно менять имена на Иванов Александр Александрович или Иванова Екатерина Александровна.

kefirr Jul 11 2011 at 10:17

Круто, серьёзный подход!

Когда открыли списки друзей, у меня появились подобные идеи, но больше с уклоном в анализ социального графа. Я даже начал писать тулзу (скриншот:

), но погода сейчас не очень способствует кодингу, так что двигается медленно. Вместо API использую вызов к vk.com/al_friends.php?act=load_friends_silent&al=1&gid=0&id={1} — возвращает список друзей по id в json.

Первая цель — проверка «теории рукопожатий», а дальше тоже думал какую-нибудь статистику интересную собрать.

schoolptor Jul 11 2011 at 10:30

Здорово! Надеюсь увидеть на хабре ваш топик, когда доделаете!

mr_avi Jul 11 2011 at 11:02

Недавно спарсил социальный граф хабрахабра, тоже была идея сделать что-то подобное, с поиском возможных друзей и т.п.

UFO landed and left these words here

f1neman Jul 11 2011 at 13:20

Как дипломатические связи в Civilization =)

antonsnowy Jul 11 2011 at 14:38

Интересный запрос — он показывает не только список друзей, но их доступность онлайн.

kefirr Jul 11 2011 at 15:34

Да, этот запрос выполняется, когда заходишь на страницу друзей (своих или чужих) и скроллишь вниз — он подгружает весь список. Фиддлером выловил. Чтобы получить друзей через API — нужна авторизация, как-то там муторно всё. А здесь я просто использую WebClient, которому подсовываю единственный cookie со своим remixsid, и дело в шляпе.

Serzhenko Jul 12 2011 at 08:34

vk.com/app1769723

pxx Jul 11 2011 at 10:31

Неодижанно, что распределение дней рождения примерно равномерное по году. Я думал, что больше всего летом, дальше весна-осень, и меньше всего зимой.

iNadya Jul 11 2011 at 10:35

Спасибо за информацию!
А вот сколько я видела гламурных девочек из урюпинска, которые ставят себе ВУЗ МГУ…

Albom Jul 11 2011 at 10:39

> Ожидаемо, что лидирует 1 января, а также наблюдаются скачки 1 числа каждого месяца.
Я об этом писал примерно год назад:
albom85.livejournal.com/22118.html

pyJIoH Jul 11 2011 at 11:05

Замечательно, ждем срез по религиям и интересам )

killest Jul 11 2011 at 12:10

killsan.livejournal.com/385699.html

craw Jul 11 2011 at 11:20

«Иванов, Кузнецов, Смирнов» пришли на смену классическим «Иванов, Петров, Сидоров».

ShouldNotSeeMe Jul 11 2011 at 11:27

Интересно, если, например, сделать так: выложить всю отпарсенную информацию на другой хост, прикрутить продвинутый поиск, сортировку и т.п. и повесить кучу рекламы. Будет ли тогда Дуров и компания предпринимать какие-то меры для обнаружения и наказания создателя такого сайта?

vasilisc Jul 11 2011 at 11:40

пипец просто, всякий берёт и через API получает всю инфу.
понятно, что социальные сети созданы не для приватности, но не в таком же виде…
одно дело доступ для правохранительных служб, а другое доступ простым смертным…
я правильно понял… через веб-браузер шиш тебе заход на страницу, а через API можно?

Colobock Jul 11 2011 at 11:55

Нет, неправильно поняли. С помощью API можно получить только ту информацию, которая и так доступна пользователям в браузере.

gasya Jul 11 2011 at 11:43

По моим личным наблюдениям очень значительная часть школьников указывают МГУ как ВУЗ. Видимо «так круче».

Кажется отсюда такой высокий процент МГУ'шников =)

Teodorix Jul 11 2011 at 12:00

Не круче, а «я мечтаю туда поступить». Как правило, указывают предположительный год окончания ВУЗА, так что отсеять таких легко.

turich Jul 11 2011 at 19:50

Ну, МГУ (им М.В. Ломоносова!) достаточно большой ВУЗ. Я как-то что-то про 40 000 студентов слышал, так что вполне-вполне возможно.

Но я не отрицпю и вашу версию =)

Curious_Vik Jul 12 2011 at 09:09

Закончил в прошлом году СПбАФТУ. Глянул в поиск и с удивлением обнаружил, что вместе со мной выпустились 156 человек, тогда как на всего на потоке училось меньше 50 студентов :-/

Clouded Jul 12 2011 at 22:10

Может быть были еще заочники / вечерники? + потоки специалистов все еще выпускаются вместе с потоками бакалавров.

Curious_Vik Jul 13 2011 at 06:07

Точно нет. У нас очень специфический ВУЗ. Обучение проводится только по магистерской программе, заочников и вечерников нет вовсе. Весь выпуск я знаю лично. Даже если бы и были заочники, то не в 3 же раза больше обычных студентов.
В общем, это не секрет, что очень много людей указывают в профиле ложную информацию о ВУЗах, лишь бы название было поумней. Кто-то не хочет указывать своё единственное убогое ПТУ, кому-то стыдно, что никакого института не осилил, кто-то спамер и т.д. Так что приведённая здесь статистика по ВУЗам не говорит абсолютно ни о чём.

inheaven Jul 11 2011 at 11:52

Да уж что, может скопировать всю базу? сколько потребуется ресурсов?

Colobock Jul 11 2011 at 12:00

Если не выкачивать фото-видео-аудио-аватарки — не так и много. Не думаю, что 130 миллионов записей займет больше полусотни тер.

ShouldNotSeeMe Jul 12 2011 at 05:18

Гораздо меньше, раз в 10, если хранить данные в MySQL.

Colobock Jul 12 2011 at 10:04

Да, пожалуй… там же один текст сплошной получится.

spycom Jul 11 2011 at 11:55

подобный пост уже не первый)
может объеденим усилия и замутим всю эту красоту в виде приложения?
могу предложить жирный канал для сбора статистики!

kefirr Jul 12 2011 at 07:36

А что за приложение вам видится? Какие функции? Я выше писал, что делаю нечто такое потихоньку. Интересно было бы услышать идеи.

Вообще тут две задачи — выкачать данные и проанализировать их. Надо, наверное, отдельную тулзу, которая выкачает максимальное количество информации (включая списки друзей). Коллективным усилием можно будет весь каталог за небольшое время стянуть, если каждый на себя по несколько тысяч возьмёт. Вопрос — как хранить? В какой-либо бд? Или лучше в csv, для универсальности?

И отдельный тул для анализа статистики, связей социального графа, и др.

caganer Jul 11 2011 at 12:37

Класс!=) Отличный пост!

kabachok Jul 11 2011 at 12:53

Давай ТОП смых редких фамилий :)

HoochieMen Jul 11 2011 at 13:02

Серега ТочныеРепликиШвейцарскийЧасовПокупамСрочно!!!? :)

jiexaspb Jul 11 2011 at 14:04

так а сколько в итоге живых пользователей в абсолютных числах?

belk Jul 11 2011 at 14:43

Чуть больше 28 миллионов.

tibalt Jul 11 2011 at 14:39

имхо, зря типичную катю иванову в мгу записал, там ведь всего 2% учатся (в том числе и в мечтах)

antonsnowy Jul 11 2011 at 14:47

Илья, а какую БД вы использовали? Это же было desktop приложение, как я понял.

belk Jul 11 2011 at 17:07

Никакой БД, всё в текстовых файлах.

Cooluck Jul 11 2011 at 15:20

Спасибо автору за столь интересное исследование.
А можно попросить сегмент базы, только пользователей из Украины?

belk Jul 11 2011 at 17:08

Хорошо, ночью выложу.

Cooluck Jul 11 2011 at 19:39

спасибо, жду.

belk Jul 12 2011 at 01:12

Вот, как и обещал.

Cooluck Jul 12 2011 at 05:44

еще раз спасибо!

independence777 Jul 11 2011 at 15:58

вроде не писали.
насчёт расстояния между пользователями, кстати, есть такое приложение:

Цепочка друзей — теория шести рукопожатий
vkontakte.ru/app2153400

AlienZzzz Jul 11 2011 at 18:20

Да, на месте вконтакта я бы закрыл это )))) уж больно много можно вычислить.

Colobock Jul 11 2011 at 18:33

Не администрация Вконтакта вкладывает личные данные пользователей. Это дело рук самих пользователей, а автор топика использовал доступную всем информацию, только собрал её и систематизировал.

mr_smith Jul 11 2011 at 18:42

альтернативная перепись населения =) автор молодец!

Riamella Jul 11 2011 at 19:15

черт возьми, а я ведь действительно родилась 1 января и в МГУ училась )
посредственность! :)

кстати, было бы забавно реальную Катю Иванову 1988 года рождения из МГУ найти

P.S. а, нет, нашла, не забавно ))))

Violin Jul 14 2011 at 11:05

У меня родственница — Катя Иванова, закончила МГУ, но родилась в 197… (каком-то) году :) В контакте ее нет.

MrTiM Jul 12 2011 at 02:13

Всероссийская перепись хомячков 2011

romign Jul 12 2011 at 02:39

Блин. В каждом графике увидел себя… У меня паранойя :)

AusTiN Jul 12 2011 at 14:04

Воооон тот пиксель, да? )

ComodoHacker Jul 12 2011 at 21:12

Глянцевый ноутбук, угадал?

ertaquo Jul 12 2011 at 07:57

У кого год не указан, у тех все равно его узнать довольно просто. Надо всего лишь сделать поиск по указанным в профиле данным (имя, фамилия, город, ВУЗ) и указать в параметрах поиска интервал, когда предположительно человек родился. А дальше — игра в «угадай число». Ставим разные интервалы и через несколько попыток узнаем-таки год рождения.

andrey_promo Jul 12 2011 at 08:41

Сильно врет статистика фамилий.
в исследовании: Григорьев 36 063 0,13% (м и ж объединены)
вводим в поиск вконтакте: «григорьева» 61 879, «григорьев» 54 765, итого явно больше.

belk Jul 12 2011 at 10:44

Статистика только по активным пользователям же. Какой вам смысл от анализа профилей фейков и спамеров?

conockrad Jul 12 2011 at 08:45

«И меня посчитали»

skynoname Jul 12 2011 at 09:43

«Поскольку статистика по всем учётным записям, включая забросивших профиль два года назад и спамеров, мало кого интересует, было решено получить список всех активных пользователей.»

Эммм, а спамеры не могут быть активными? ) Многие практически всегда онлайн )

belk Jul 12 2011 at 10:45

Со спамерами ВКонтакте довольно успешно борется, у меня уже порядка года не было спама. Поэтому многие из них как раз оффлайн.

foxgray Jul 12 2011 at 10:47

Видимо в статитстике по вузам есть ошибка/опечатка. Если МГУ с 120 тысячами составляет 2,4 процента, то 50 тысяч МГУ вряд ли могут быть 0,18%.

belk Jul 12 2011 at 12:33

Спасибо за внимательность, поправил. Видимо, изначально процент МГУшников считался от тех, кто указал университет, а процент остальных — от всех активных пользователей.

m08pvv Jul 12 2011 at 15:30

А сколько реальных людей (за вычетом ботов, спамеров, анкет проституток и прочей фигни, которые тоже появляются онлайн и могли быть посчитаны)?

belk Jul 12 2011 at 17:58

У меня не было такого количества свободного времени, чтобы вручную смотреть и фильтровать все профили :)

Sandtod Jul 12 2011 at 17:21

Думаю, что резкое преобладание Ивановых связано также с фэйковыми аккаунтами или нежеланием указывать реальную фамилию.

Neofant Jul 12 2011 at 19:49

Иванов, Петров в первой пятерке. Надеялся увидеть Сидорова тоже, но нет.

Кстати, орфопроверка Chrome не признает фамилию «Петров», но не ругается на «Петрова» :)

hioma Jul 12 2011 at 19:53

О да, контакт очень вкусен в плане статистики и социальных графов. Сам интересовался в своё время, но писал обычный PHP-парсер, потом graphviz'ом рисовал. Вопрос в том, что делать с получившейся картинкой. Ещё в то время, когда друзья закрыты были, аккаунт с 250-ю друзьями образовывал множество друзей друзей мощностью в 30000 человек, из которых примерно треть имели минимум двух общих. Могу уверить на личном опыте, что визуально оценивать графы с количеством людей более трёх тысяч — ой как затруднительно. Но, тем не менее, забавно находить цепочки друзей, о которых, естественно, даже не догадывался.

Мне лично очень интерено, какие численные данные можно получить из математического анализа графа. Ну, кроме числа шесть, конечно.

Если кому интересно, могу показать, как выглядят такие графы. Вот небольших размеров, ну и побольше (этот без аватарок, инет галим).

ComodoHacker Jul 12 2011 at 21:17

Что-то не то с распределением по странам. Взять к примеру Казахстан: как я ни считал, таблица с диаграммой не бъется.

ComodoHacker Jul 12 2011 at 21:28

Торрент с базой в виде таблицы, поля разделены табуляциями, размер — 25ГБ

А пожать нормально можно? 7zip например.

belk Jul 12 2011 at 21:50

Я посмотрю, что можно сделать (сейчас у меня нетбук и узкий аплоад).

belk Jul 12 2011 at 23:24

Обновил пост, забирайте.

Aleksey Jul 15 2011 at 08:02

* А что за поля в этом csv файле? Некоторые поля это похоже просто id и догадаться сложно без имен столбцов.
* Есть ли у вас словари для столбцов с id?

belk Jul 15 2011 at 11:15

Поля в том же порядке, что и запрашивались с сервера (uid, first_name, last_name, nickname, sex, bdate, city, country, timezone, photo, photo_medium, photo_big, photo_rec, contacts, home_phone, mobile_phone, education, university, university_name, faculty, faculty_name, graduation, rate, counters).
Есть словари для городов и стран. Обновил топик.

Rusan Jul 13 2011 at 04:54

Про активных — у ФБ есть отличный показатель — MAU — month active users — посчитать бы его для VK было бы очень сравнительно :).

Valeratal Jul 13 2011 at 10:21

Какой простор для социо-демографического исследования
Будем чем загрузить SPSS :)

semenoffalex Oct 28 2011 at 12:43

А что вы, собственно, на этих данных можете там посчитать? Они же все номинальные. Разве что «Сколько Наташ живёт в Краснодаре?».

Лично я здесь кроме сопряжения городов/полов с вузами/факультетами ничего интересного не вижу.

disinvis Jul 14 2011 at 09:25

>17 дней 21 июня — 7 июля
>Как видим, прирост активных пользователей стал достаточно мал, чтобы ими можно было пренебречь.
Вполне возможно, что вы попали в локальный экстремум. Это лето, многих там нет. К тому же летом многие игнорируют интернет, отпуска и всё такое.

Но в любом случае лучше статистику месяца 3 собирать, чтобы делать окончательные выводы о количестве активных пользователей.

semenoffalex Oct 28 2011 at 12:49

На мой взгляд, эти данные интересны в первую очередь с точки зрения того, какой процент различных атрибутов пользователи держат в открытом доступе. Судя по вашим данным, информации не так уж и много.