Меня зовут Александр или Саша. К этому и я и все окружающие давно привыкли. Есть пара друзей Алексеев, которых все называют Алекс или Лёша, и к этому окружающие давно привыкли.
Ну и с новыми людьми, Александра я никогда не назову Алексом а Алексея Сашей например. Для меня это и есть решение.
Ну тут да, всех в своих взглядах не убедишь. Есть пара человек, которые постоянно в переписке меня Алексом называют, каждый раз аккуратно поправляю, к сожалению безрезультатно.
Я сам Алексей, но никогда себя Алексом не назову, только Alexey. По мне так Alex — Александр.
А вот что больше раздражает, что на картах и т.д. пишут Aleksey!
В Банке Москвы в анкете был такой пункт. В СберБанке — сами пишут, как хотят. Еще в 3-4 тоже сами писали…
А вот какие проблемы были у парня на почте, чтобы получить посылку, когда я в его заказе указал Alexander Alexashin… теперь всегда только Aleksander Aleksashin. А то бабульки всякие бывают на почте…
подумаешь… мои Ilia или Ilya бабульки, в большинстве случаев, читают как «Юлия». решается простым «nigga please» выражением лица и/или отсылкой к стандартам транслитерации.
У меня две сберовские карты, там тоже прикольная система — на одной карте фамилия сформирована по одному правилу транслитерации, а на другой — по другому!
Разница в выдаче — 6 месяцев.
Вот, википедия вещает: Алекс — сокращённый вариант имени Александр и, иногда, Алексей. Такое сокращение наиболее распространено в Северной Америке и Европе.
А я вот не могу понять, почему некоторые считают Алекса Алексеем? Алекс — это для буржуев, чтобы не писать Aleksandr или Alexand. А с учетом того, что в английском варианте никаких Алексеев нет, то сразу становится понятным, кто такой Алекс.
Александры выиграют битву за «Алексов» потому, что Александров по статистике больше в два раза, соответственно можно вывести корреляцию что из трёх Алексов два будут Александрами. Нам, Алексеям, остается только партизанить в этой войне :-)
Александров и Алексеев естественно примерно поровну, а то, что у автора статьи получалась такая разница как раз и говорит о том, что он отнёс большую часть Alexов и Алексов не к тому имени.
а меня больше порадовали фамилии. Большая часть фамилий — производная от того кто твой отец:
Иван — (чей сын?) Иванов
Алексей — Алексеев
Поп — Попов
и тд.
Вечело смотреть на фамилию Козлов в этом списке. Наверное старинных женщин тоже часто бросали…
в исландской традиции, да и вообще скандинавской ещё интереснее — там сразу указывается сын ты или дочь, например, отец Андерс, ты будешь Андерссон, если сын или Андерсдоттир если дочь :)
Какая тут может быть монетизация? Да, на домашнем компьютере лежат все ответы сервера в JSON, каждый профиль содержит id, имя, фамилию, ник, пол, дату рождения, город, страну, таймзону, ссылки на текущую аватарку, телефоны, университет, факультет и рейтинг. Собственно, почти вся информация есть в посте.
Всё равно базу можно с пользой использовать: эдакий «кэш запроса к API». Т.е. если надо получить социальные данные пользователя своего сайта, который авторизовался через Вконтакте, то можно сначала получить их из этой базы, а потом уже для надёжности «прочекать» дополнительным запросом к API.
Хм, а разве стандартные запросы к АПИ без авторизации пользователя позволяют всегда доставать данные по телефону и нек. другим полям?
+ еще настройки приватности ни как не учитываются.
статистика по наличию телефона явно не верна, сейчас почти всех принудительно заставляют привязывать аккаунты к номеру. А то что вы не можете инфу получить эту, это уже другой вопрос
На мой взгляд помимо этой таблицы нужно было сделать еще одну, приведенную, где количество родившихся первого числа примерно уравнять с другими числами. Получим неправильную статистику по первым числам, но зато более детально увидим реальное распределение, ибо сейчас гистограмма плоская из-за пика 1 января.
Ну это и логично. 29 февраля не каждый год бывает, так что таких должно быть в 4 раза меньше. А если учесть, что родители могли попросить не указывать 29 февраля в качестве даты рождения, то таких будет еще меньше.
Я скрытые поля восстанавливаю через поиск.
Выставляю известную мне информацию в фильтр, чтобы однофамильцев и т.п. было как можно меньше.
Когда колво выходит разумным, я добавляю другие параметры, включая возраст. Методом половинного деления возраст определяется быстро.
Аналогично семейное положение достается…
В массах пропарсить будет сложновато, но в единичных случаях ручками легко можно много чего выкопать :)
Пренебрежительное обозначение социальной группы не характеризуется лишь свойствами, определяющими принадлежность к этой социальной группе. Скорее — исключительно негативными свойствами, обычно ей присущими по мнению автора высказывания.
Сколько раз я слышал этот аргумент от людей, называющих евреев жидами и гомосексуалов пидарасами! Используйте какое-нибудь другое слово, если хотите быть правильно понятыми приличными людьми.
На самом деле, неплохо было бы оценить погрешность всех «измерений». Думаю, это вполне реально сделать. Просто числа типа 196474 меня как физика немножко выводят из себя (:
Мне неизвестно, как ЮУрГУ числится в базе ВКонтакте: всё под одним названием, или каждый филиал отдельно. Если всё вместе, то филиалы учтены, в обратном случае нет.
Скорее всего под разным, потому как вуз в их базе может быть расположен только в одном городе. Таким образом у них описано несколько вузов, из-за чего статистика по ЮУрГУ сразу кажется неправдоподобной.
А можно такое же сравнение пользователей Одноклассников и ФБ? В одноклассниках, наверное, средний возраст 40+ и провинция доминирует, а в ФБ только жители «продвинутых гАродов».
Запарсить весь контакт — это круто. Интересно было посмотреть на распределение возрастов и статистику по именам-фамилиям.
Но большая часть приведенной статистики, на мой взгляд — абсолютно бесполезна. Например наличие того или иного параметра в анкете, какие из этой информации можно делать выводы? Я бы их вообще убрал и разгрузил статью.
Интересно было бы посмотреть на более глубокий анализ, например, взаимосвязь возраста (или пола) и:
— количества друзей
— активности
— количества фотографий
— интересов.
Давно хотелось бы проверить «правило 6 рукопожатий», тем более, что сейчас у большинства активных пользователей открыты списки друзей.
Ну или хотя бы скрипт, который по введёному id возвращал бы количество (в идеале — список) его знакомых 1..6 уровня.
У меня более 200 друзей вконтакте и каждого я знаю лично.
Там же не только близкие друзья, атм еще и друзья по школе, детским лагерям, университетам, службе и прочее.
На мой взгляд, число в районе 200-300 — ещё вполне реально (особенное, если человек более-менее активный или, например, просто приходилось переезжать в другой город).
Сейчас проверял vkontakte.ru/fchain, исключая из поиска людей с количеством друзей более 400 — цепочки всё равно находятся.
Лично для меня, понятие «друг» однозначно.
Нельзя быть немножко другом кому-то. Можно либо им являться, либо не являться. В русском языке полно слов с близким значением: приятель, знакомый, товарищ…
Возможно, моё представление ошибочно…
Там вы сами вольны распределять пользователей по Кругам: Друзья, Семья, Знакомые. Записи или видеоконференции можно ограничивать конкретным кругом.
Хитрость ещё в том, что в G+ более легкомысленное добавление «друзей». Во вконтакте надо принять предложение, а в G+ надо всего лишь перетащить пользователя в соответствующий круг.
Но заменов Vk этот сервис пока что вряд ли является. Сыроват )
Если честно, меня не интересуют социальные сети, как таковые — общения мне хватает и так: личного, телефонного. Мне ни разу в жизни не понадобилось уведомлять сразу весь узкий круг людей, с которыми я постоянно общаюсь, о каком-либо событии. Таким образом, я не вижу смысла держать аккаунт в любой соц-сети, независимо от используемой терминологии. Да, Вконтакте я зарегистрирован, с минимальным необходимым набором данных — вдруг кого-то из тех людей, связь с которыми я потерял, захотят меня найти (может быть, я буду даже рад этому), но последний раз я заходил пару месяцев назад — уведомления приходят на почту, а общаюсь я в реале.
Пару дней назад была здесь статья, в комментариях к которой разгорелось обсуждение поведения и мотивов различных типов людей — «иррационалов» и «рационалов». Так вот я — «рационал», похоже.
Оно не девальвировалось — это просто ВКонтакт перевёл friend как «друг». Есть и другой вариант перевода — «знакомый», «коллега». Мне кажется, что создатели фейсбука не имели ввиду дружбу в нашем понимании этого слова.
Не вижу ничего некорректного в цифре 1000 или 2000.
У меня в районе 350 и постоянно растёт, среди них не видел лично человек 5 только наверное. Знаю людей с кол-ом друзей более 1000, и они всех видели лично и могут имя каждого вспомнить.
По-моему мнению очень сомнительно применять тут число Данбара.
В любом случае число Данбара это единовременный срез. А список друзей ВК — множество людей с которыми когда-либо персекался (и при необходимости можно пересечься еще).
Когда открыли списки друзей, у меня появились подобные идеи, но больше с уклоном в анализ социального графа. Я даже начал писать тулзу (скриншот: ), но погода сейчас не очень способствует кодингу, так что двигается медленно. Вместо API использую вызов к vk.com/al_friends.php?act=load_friends_silent&al=1&gid=0&id={1} — возвращает список друзей по id в json.
Первая цель — проверка «теории рукопожатий», а дальше тоже думал какую-нибудь статистику интересную собрать.
Да, этот запрос выполняется, когда заходишь на страницу друзей (своих или чужих) и скроллишь вниз — он подгружает весь список. Фиддлером выловил. Чтобы получить друзей через API — нужна авторизация, как-то там муторно всё. А здесь я просто использую WebClient, которому подсовываю единственный cookie со своим remixsid, и дело в шляпе.
> Ожидаемо, что лидирует 1 января, а также наблюдаются скачки 1 числа каждого месяца.
Я об этом писал примерно год назад: albom85.livejournal.com/22118.html
Интересно, если, например, сделать так: выложить всю отпарсенную информацию на другой хост, прикрутить продвинутый поиск, сортировку и т.п. и повесить кучу рекламы. Будет ли тогда Дуров и компания предпринимать какие-то меры для обнаружения и наказания создателя такого сайта?
пипец просто, всякий берёт и через API получает всю инфу.
понятно, что социальные сети созданы не для приватности, но не в таком же виде…
одно дело доступ для правохранительных служб, а другое доступ простым смертным…
я правильно понял… через веб-браузер шиш тебе заход на страницу, а через API можно?
Закончил в прошлом году СПбАФТУ. Глянул в поиск и с удивлением обнаружил, что вместе со мной выпустились 156 человек, тогда как на всего на потоке училось меньше 50 студентов :-/
Точно нет. У нас очень специфический ВУЗ. Обучение проводится только по магистерской программе, заочников и вечерников нет вовсе. Весь выпуск я знаю лично. Даже если бы и были заочники, то не в 3 же раза больше обычных студентов.
В общем, это не секрет, что очень много людей указывают в профиле ложную информацию о ВУЗах, лишь бы название было поумней. Кто-то не хочет указывать своё единственное убогое ПТУ, кому-то стыдно, что никакого института не осилил, кто-то спамер и т.д. Так что приведённая здесь статистика по ВУЗам не говорит абсолютно ни о чём.
А что за приложение вам видится? Какие функции? Я выше писал, что делаю нечто такое потихоньку. Интересно было бы услышать идеи.
Вообще тут две задачи — выкачать данные и проанализировать их. Надо, наверное, отдельную тулзу, которая выкачает максимальное количество информации (включая списки друзей). Коллективным усилием можно будет весь каталог за небольшое время стянуть, если каждый на себя по несколько тысяч возьмёт. Вопрос — как хранить? В какой-либо бд? Или лучше в csv, для универсальности?
И отдельный тул для анализа статистики, связей социального графа, и др.
Не администрация Вконтакта вкладывает личные данные пользователей. Это дело рук самих пользователей, а автор топика использовал доступную всем информацию, только собрал её и систематизировал.
У кого год не указан, у тех все равно его узнать довольно просто. Надо всего лишь сделать поиск по указанным в профиле данным (имя, фамилия, город, ВУЗ) и указать в параметрах поиска интервал, когда предположительно человек родился. А дальше — игра в «угадай число». Ставим разные интервалы и через несколько попыток узнаем-таки год рождения.
Сильно врет статистика фамилий.
в исследовании: Григорьев 36 063 0,13% (м и ж объединены)
вводим в поиск вконтакте: «григорьева» 61 879, «григорьев» 54 765, итого явно больше.
«Поскольку статистика по всем учётным записям, включая забросивших профиль два года назад и спамеров, мало кого интересует, было решено получить список всех активных пользователей.»
Эммм, а спамеры не могут быть активными? ) Многие практически всегда онлайн )
Спасибо за внимательность, поправил. Видимо, изначально процент МГУшников считался от тех, кто указал университет, а процент остальных — от всех активных пользователей.
О да, контакт очень вкусен в плане статистики и социальных графов. Сам интересовался в своё время, но писал обычный PHP-парсер, потом graphviz'ом рисовал. Вопрос в том, что делать с получившейся картинкой. Ещё в то время, когда друзья закрыты были, аккаунт с 250-ю друзьями образовывал множество друзей друзей мощностью в 30000 человек, из которых примерно треть имели минимум двух общих. Могу уверить на личном опыте, что визуально оценивать графы с количеством людей более трёх тысяч — ой как затруднительно. Но, тем не менее, забавно находить цепочки друзей, о которых, естественно, даже не догадывался.
Мне лично очень интерено, какие численные данные можно получить из математического анализа графа. Ну, кроме числа шесть, конечно.
Если кому интересно, могу показать, как выглядят такие графы. Вот небольших размеров, ну и побольше (этот без аватарок, инет галим).
* А что за поля в этом csv файле? Некоторые поля это похоже просто id и догадаться сложно без имен столбцов.
* Есть ли у вас словари для столбцов с id?
Поля в том же порядке, что и запрашивались с сервера (uid, first_name, last_name, nickname, sex, bdate, city, country, timezone, photo, photo_medium, photo_big, photo_rec, contacts, home_phone, mobile_phone, education, university, university_name, faculty, faculty_name, graduation, rate, counters).
Есть словари для городов и стран. Обновил топик.
>17 дней 21 июня — 7 июля
>Как видим, прирост активных пользователей стал достаточно мал, чтобы ими можно было пренебречь.
Вполне возможно, что вы попали в локальный экстремум. Это лето, многих там нет. К тому же летом многие игнорируют интернет, отпуска и всё такое.
Но в любом случае лучше статистику месяца 3 собирать, чтобы делать окончательные выводы о количестве активных пользователей.
На мой взгляд, эти данные интересны в первую очередь с точки зрения того, какой процент различных атрибутов пользователи держат в открытом доступе. Судя по вашим данным, информации не так уж и много.
Статистика по профилям пользователей ВКонтакте