Как стать автором
Обновить

Комментарии 29

Спасибо большое за материал, поставил плюс. Но мне кажется есть две вещи, которые можно относительно быстро добавить в статью, чтобы сделать ее лучше:

  • Было бы интересно сравнить точность разных формул (например, медиану, моду, среднее и вашу эвристику) на небольшом датасете, хотя бы 1000 человек. Или теперь ВК не разрешает парсить много профилей за раз?
  • Также хочется минимальный обзор стандартных подходов к решению этой задачи. Например: cis.poly.edu/~ross/papers/EstimatingAgeFacebook_extended.pdf.
Согласен, сравнение разных способов вычисления возраста — вот чего не хватает работе, чтобы быть полноценным исследованием. Однако, отсутствие доступа к датасету с истинным возрастом демотивирует. Было обнаружено некоторое количество профилей с искажённым возрастом, и я не представляю как с разумными усилиями очистить датасет от них.

За ссылку на Estimating Age Facebook спасибо! Я постараюсь разобраться с приведёнными там алгоритмами в обозримом будущем и отписаться сюда.
А почепму бы не натренировать на реальных данных с открытым возрастом? Ведь по сути скрытие возраста это всего лишь скрытие. А открытый возраст будет как величина для сравнения правильности исследования
Потому что открытый возраст может не соответствовать действительности.
Но выборку сделать гораздо проще. Да и если показывают возраст то обычно его показывают правильно. Т.Е, крайне редко можно найти неверно указаный возраст.

Т.Е. даже так можно набрать много данных и часть заранее заложить на небольшой процент ошибки. Или вообще вручную отобрать правдоподобные даныне
Лет 5 назад наверно часто пользовался приложением «Раскрыватель» в том же ВК. Выполняет несколько шагов, один из которых как я понял тот, что вы описали. Во всяком случае полученный результат меня всегда радовал.
Если я не путаю название приложения, то я им тоже пользовался. И то, что он не смог правильно определить возраст некоторых «сложных» пользователей, возраст которых я знал заранее, меня сподвигло оформить свои наработки в сервис, доступный другим людям.
Как насчёт попробовать это безобразие в деле?

Прекрасно справился с возрастной группой 28-33. И 100% промахов в возрастной группе 45+ — алгоритм настойчиво относит их к той-же 28-30
На старшей возрастной группе полно промахов, причём на значительное количество лет, это правда. Как ниже заметил в комментариях cyberly, это из-за низкого проникновения ВК в ту подгруппу. Думаю, что через 10 лет и среди 45 летних алгоритм станет хорошо применимым.
Если есть дамп профилей, могу сделать регрессионную модель. Потому что то что написано — это гадание на кофейной гуще. Например еще один способ — это определение географии друзей и второго круга, FE на этой фиче, например города в такой-то области. Еще общие интересы. И в конце концов — фото.
это если человек скрупулёзно отбирает друзей, одно время увлекался играми в моёммире, а там без сотен-тысяч друзей как-то грустно, так что выборка может показать всё что угодно, хоть температуру на Марсе
Я учился в шести разных школах, в двух группах вуза (спасибо армии), не поддерживаю связи со школы и вуза, и не имею аккаунта в vk. :-).

Ваш алгоритм работает примерно до 30-ти лет. Эти люди уже застали соцсети, и ими пользовались. Старшее поколение выпадает полностью.

Хотел написать, что существует соц.сеть "Одноклассники", но позже понял, что там и так всё как на ладони :)

Ну как бы предсказуемо, хороший результат на хороших данных, и плохой — на плохих.
Эти люди уже застали соцсети, и ими пользовались.
Те кто постарше, скорее, просто успели закончить учебу до того, как появились соцсети (ну или конкретно им стал доступен адекватный интернет). Ну и как бы, смысл добавлять одноклассников/одногруппников, которых ты 10-20 лет не видел? Так, из любопытства посмотреть, как они теперь выглядят… так почти никто из них ничего не выкладывает годами. Логично, что граф в этом направлении не растет. Ну и получается dedlock — у меня есть мертвый аккаунт, я туда ничего не пишу, потому что не для кого. А друзей у меня там нет, потому что у них аккаунты такие же мертвые.

Но бывает и наоборот, когда люди, в том числе гораздо старше, образуют связную группу, но уже за счет связей по части места работы или общих увлечений.
интересно мнение, что «старшее поколение не застало соцсетей». Мне 41, я застал еще фидо, юзнет, аську и прочие древности, и в соцсети в целом просто наигрался еще 10 лет назад, и почти все мои знакомые моего возраста — тоже. Аккаунты есть, но давно заброшены.
Я думаю, что соцсеть — это в принципе нечто, ориентированное на подростков. Не будет через 10 лет алгоритм лучше работать на 45+, социальный граф так и будет развиваться до 30 :)
Я слышал противоположное мнение — «в фб остаётся только старшее поколение, молодёжь общается и организуется в вотсапе».
Мне 50, fb пользуюсь активно, но вычислить возраст по fb friends будет сложно. Там, вероятно, будет горка вокруг 50 (костяк Fidonet:5020), но в целом возраст френдов размазан в интервале 25-60, что дает мало информации.
Хи-хи: «В профиле Олега Торбасова указан возраст 41. Но в волшебном шаре вижу, что 38».
Но нет, я пишу в профиле правду. Секрет прост: у меня нет одноклассников и однокурсников во френдах.
Потому что алгоритм мягко говоря не идеален — «хороший результат на хороших данных и плохой результат на плохих данных». Получается такая гадалка годная в случае хороших данных и когда у цели много друзей. А если друзей не много, то легче в ручную поставить результат.
Есть ощущение, что всякие «гадалки возраста», поисковики лайков, SearchFace – это лишь первые ласточки социально-прозрачного мира.

Видимо мне в этом мире места нет. Не знаю радоваться этому или грустить.
Кому нужно, просто ставят нужные галочки в настройках приватности :)
Мне ставить негде, вот к чему я.

раньше говорили "на нём клеймо уже негде ставить" :) сейчас можно "ему галочку поставить негде" ;)) o tempora o mores

Нашёл знакомую, которой возраст завышает почти вдвое, до 35 лет.
Правда, друзей ВК у неё немного, и девушка она и правда очень серьёзная.
Проверил «гадалку», предварительно изменил в пределах 5 лет свой возраст в профиле, выдала возраст именно тот который указан…
Если указанный возраст расходится с расчётным не более чем на 2 года, то такой случай считается погрешностью алгоритма, и приоритет остаётся за указанным самим пользователем.
Ну вот у меня VK уже более 10 лет.

Многие «друзья выросли и состарились», как бы.
Делал и бизнес — целевая группа — молодежь.

Делал бизнес лет 6 — там все размазано про «друзей».

Если не секрет, сколько лет даёт Вам гадалка, и на сколько она ошибается?

Аналогичный промах и с моим профилем ВК. Одноклассники остались в «Одноклассниках», весь круг общения ВК — мои бывшие студенты. Гадалка дала 29 лет (спасибо за комплемент), омолодила ровно на 16 лет. VK ID 127952902. Стоит подумать над анализом возраста по фото… Хотя, так же не панацея — моё ли это фото, в какой момент оно создано, в какой опубликовано и т.п… Но в целом, можно что-то накопать при желании…
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.