Как стать автором
Обновить

Комментарии 51

занятно, спасибо!
как узнать кто этот «и только 1 человечек утверждает»? ;)
У меня трое. Ух, нашел бы я их — показал бы, где ракообразные зимуют.
в итогах/результатах лог-ссылочка бы не помешала, чтобы поинтереснее было ;)

как на www.mikeonads.com/2008/07/13/using-your-browser-url-history-estimate-gender/
чтобы не казалось что работает также как metamal.com/articles/harkiv2.shtml ;)
> P.S. есть подозрение, что в ие что-то не работает. Но ничего, вечером, наверное, починю.
по ссылке на отличьненко вроде отработало в нём, журнал на 10 недель, в остальных 50%/50% тк у них в истории только под 200 узлов
Круто, а ие 6й или 7й? Я просто глянул через 6й (запущенный через кроссовер, у меня мак), не сработало, решил, что позже разберусь, дело в ие или в том, как я его запустил.
ie8 который ходит/представляется как подвит ie6 ;)
Я тоже думал, что в ИЕ что-то не так, но потом понял, что сидя на тест-машине, развёрнутой под паралелями, будет довольно трудно определить, что же я посещал через сафари под маком :D
Супер! Спасибо :)
я gmail пишу руками в адресе, пишу gm и enter. иногда браузер не успевает подставлять и я улетаю на www.gm.com так вот этот гендерный анализатор за вход на этот сайт сразу дает 1,3 коэффициент.
и почему он считает youtube больше женским нежели мужским?
женщины стали больше визуалами?
технология интересная, но имхо требует обучения.
Ни youtube, ни gm.com в базе вообще нету, они никак не учитываются.
В базе около 500 русских сайтов, по которым я нашел информацию о поле посетителей. Как там статистика у них посчиталась, так все и используется.

Но насчет технологии отчасти согласен. Например, сейчас если девушку инересует компьютерная тематика и она заходит на несколько сайтов этой тематики, то она почти точно будет определена как мужик. Возможно, стоит как-то ограничивать совместное влияние сайтов одной тематики, но тут думать надо. Ведь это усложнение алгоритма, причем неясно, как удостовериться, что стало лучше, а не хуже.
Простите любезнейший. Или я не заметил в начале топика Вашу ссылку, либо ее там тогда не было, утверждать я не могу. Я пробовал сей механизъмь в предлагаемом almaz линке. Еще раз простите великодушно что смутил вас.
Лучше всю статистику приближать к нейтральности настолько сильно, насколько посещаем сайт. Т.е. Хабр можно учитывать не так сильно, как форум беременных женщин.
пипец всем показывает мальчик. даже девочкам
сорри, оказывается я сначала программершам слал.
для чистоты эксперимента послал секретарше — определил правильно :)
Хабр уже не тот…
шутка
А это тут при чем?
Я к тому, что на «том» хабре якобы сидели люди с понятным полом.
Шутка юмора такая.
С чего вы взяли?
habrahabr.ru/info/stats/
НЛО — 47% и так всегда было.
Это тоже шутка.
дык это и есть нло, у нло ведь нет пола
Дал ссылку 3-м девушкам и им всем сказали что они «мужик» :)
буду четвертой такой девушкой, и не последней:)
что не удивительно, но всегда приятно: Р
Ееее, я мужик!!! Впрочем, моя мама, оказывается, тоже.
А кто из вас чаще за этим компом сидит? ;)
Сложный вопрос :) Даже не считал как-то. «Все тут молодцы» :)
ппц, 99 против 1го что я мужиг (пошла в туалет проверяться)))
удачи :) Как вернешься — расскажи о результатах :)
аналогично:

мужик: 99% девушка: 1%
В firefox — pipec.ec в растеряности кто я: 50 на 50,
а google chrome на 95% мужик)
не зря меня перевязали синей ленточкой!
можно сказать, что пост написан специально для девушек)
хотя по ссылке мне тоже говорят, что я мужик :) для той аудитории девушек, что на хабре, мне кажется, он мало вероятно, что выдаст другой ответ
У меня жена мужик. И я мужик. Что делать? Я по религиозным соображением КатегAрически против ахтунга.
99 ппц-человечков говорят, что это так, и только 1 человечек утверждает, что вы девушка.
полный ппц)))
Кинул тест троим знакомым девушкам. Они оказались мужиками на 58, 65, и 75 процентов. :)
Практическое применение (ха, очень важное и полезное): на сайте есть форма, где нужно указать свой пол. Если человек ранее пол не указывал, то с помощью этой технологии сайт пробует его угадать и подставить нужный.

Пользователи будут к чертям посылать сайт, если он подскажет не тот пол.

А вот на сайте пластической хирургии пригодится. :)
Отправил ссылку всем женщинам из аськи, скайпа и всего прочего. Все оказались мужиками. Долго думал.
иммитатор работы этого скрипта: <script> alert('Вы мужик!'); </script>
>Вы для него — полная загадка.
Я не традиционной ориентации видать в фаерфоксе.
А вот Опера пацанский браузер. =)
Увы, увы.

Я (кстати, кажется, все отметившиеся в комментариях девушки получили этот результат):
Сайт pip.ec уверен, что вы мужик.
99 ппц-человечков говорят, что это так, и только 1 человечек утверждает, что вы девушка.

Мой молодой человек:
Сайт pip.ec уверен, что вы мужик.
73 ппц-человечка говорят, что это так, хотя 27 человечков утверждают, что вы не мужик.

При этом у него 99% всего серфинга — спортивные сайты, либо про игры. На чём основывались 27 человечков — загадка. Стоило бы, наверное, сделать возможность посмотреть подробности.
А вот у меня — куча сайтов либо явно девчачьей тематики, либо имеющих примерно равные проценты обеих аудиторий. Кстати, самое интересное-то не рассказали, как вы считаете ratio?

Короче, на данный момент процент правильных угадываний, как мне кажется, стремится к случайному, и утверждение «по истории навигации с помощью js можно определить пол посетитеся» является ложным. Если сильно расширять и уточнять базу по всяким комьюнити по интересам и т.п., станет лучше, но использовать всё равно можно будет только для таких вот ненавязчивых умочаний, как вы привели.

И самое главное — у списка посещаемых сайтов и связанных с ними интересов на порядки больше пользы и способов применения, чем у пола, который вы пытаетесь по ним определить, даже если бы он брался со 100%-ой точностью.
Приношу официальные извинения за то, что ваш пол определился неправильно.

Ссылка пробежалась по форумам (не техническим), люди писали там свои результаты, и, в принципе, видно, что определялка работает. Это многим показалось интересным и забавным. Чего же боле?)

male_ratio — это отношение мужской аудитории сайта к женской. Не в смысле личного отношения, а в смысле дробь. Количество мужчин, побывавших на сайте за период N, делится на количество женщин, побывавших на этом сайте за тот же период. Алгоритм мне кажется простым, логичным и непредвзятым. Правильным, короче. Тупо берем и все перемножаем. Что получилось — то и получилось.

На чем основывались 27 человечков и почему у вас 99% — без понятия, вам виднее, алгоритм работы я описал, список сайтов есть. Видимо, вы посещали много сайтов компьютерной или околокомпьютерной тематики. На том же башорге, например, мужчин в 3 раза больше. А на итхеппенз — в 8 раз. Новости 3dnews — в 10 раз. Перекос на компьютерных сайтах в мужскую сторону сильнее, чем на порнографических и спортивных. Это не я придумал, это оно так и есть. Отсюда и неправильное определение пола девушек, узнавших про эту ссылку с хабра. Изначально было ясно, что так будет, я поэтому не очень по этому поводу переживаю. Ваш молодой человек, видимо, посещал не очень много разных сайтов про спорт и игры из тех, что у меня собраны. И нельзя было точно удостовериться, что он мужчина, т.к. на эти сайты и девушеи тоже ходят. Но претензия-то в чем?) Пол ведь определился правильно?

Думал, что ирония по поводу практического применения угадывания пола была очевидна) Конечно, есть много отличных способов использовать тот список сайтов, используйте, все в открытом доступе.
Алгоритм неправильный, хоть на первый взгляд он и кажется логичным. Несмотря на то, что у нас есть всего два пола, в данном случае, чтобы алгоритм считался «правильным» его точность должна быть намного больше чем 50%. Теоретически возможна ситуация(и она близка к реальности), когда на всех сайтах процент мужиков больше чем дам. Тогда хоть ваш алгортим будет пытаться что-то вычислять, но в итоге он сводится к вышеприведенному <script>alert('Вы мужик!')</script>. А это никакой не алгоритм.
Для того чтобы алгоритм считался хоть немного правильным, нужно чтобы его точность была выше процента мужиков (подавляющего пола) в интернетах. Учитывать для оценки только male_ratio — неправильно. Иначе его результаты напоминают «интернет-опрос показал что 100% людей пользуются интернетом».
Почему неправильный? Если в интернете больше мужчин, то должны требоваться более веские основания длоя того, чтобы считать посетителя женщиной, чем для того, чтобы считать его мужчиной. Иначе точность прогноза снижается. Теория вероятности, 2й (или какой там) курс универа.

Насчет того, что в интернете больше мужчин. Скачайте базу, посмотрите, там в топовых сайтах примерно одинаковое число «мужских» и «женских». Большая часть девушек не ходит на компьютерные, игровые сайты, а ограничивается какими-нибудь ЖЖ, diary.ru, специальными женскими сайтами, сайтами с рецептами и тд.

Алгоритм неправильный по другой причине, к ней ближе всех подошел хабраюзер kolpeex. Вероятность посещения данного сайта пользователем зависит не только от его пола, но и от
а) популярности сайта;
б) других сайтов, на которые ходит пользователь.

Т.е. вероятности не являются независимыми, и их нельзя так просто перемножать. Но в качестве первого приближения это работает: сестру мою определяет как девушку, людей с форумов, по которым была размещена (не мной, из логов веб-сервера узнал) ссылка — вроде бы тоже правильно более-менее.
>Почему неправильный? Если в интернете больше мужчин, то должны требоваться более веские основания длоя того, чтобы считать посетителя женщиной, чем для того, чтобы считать его мужчиной. Иначе точность прогноза снижается. Теория вероятности, 2й (или какой там) курс универа.

Если вы хотите повысить суммарную точность — то вы всё правильно. Если хотите повысить точность определения пола для каждого в отдельности — то всё наоборот. Интуитивно это кажется противоречивым, но в теории вероятности есть такие парадоксы. Хотя на втором курсе про них наверное не рассказывают. Насколько я понял, ваш случай это один из видов парадокса Симпсона (почитайте про него в википедии, желательно в английской).
Вопрос в том, что же лучше:
1. для 9 из 10 посетителей дать 100% правильный результат, для 1 из 10 — 100% ошибочный.
2. для всех посетителей дать результат в 70%
Суммарная точность в первом случае выше, но дает 10% ошибку определения пола. Во втором же случае суммарная точность ниже, но пол всегда определяется правильно. Такие дела.
Прошу прощение за задержку с ответом. Про парадокс не знал, почитал, интересно.

Но задача определения пола по истории навигации — это не один из видов парадокса Симпсона. Нет никакого смысла суммировать всех пользователей различных сайтов и потом вычислять общее отношение. Влияние сайтов с большой посещаемостью в этом случае возрастет очень сильно, что неверно. Предположим, девушка зайдет случайно на хабр, а до этого она сидела исключительно на форумах о материнстве и прочих «женских» ресурсах. Суммарное число мужчин на сайтах, которые она посетила, значительно превысит суммарное число женщин, и девушка станет мужиком, и ничего поделать с этим будет уже нельзя.
Пример:
сайт А с посещаемостью 10 000 человек и долей мужчин 60%
сайт Б с посещаемостью 1 000 человек и долей мужчин 20%

человек зашел только на А и Б. Определить его пол.

Если считать задачу частным случаем парадокса Симпсона, имеем:
кол-во мужчин = 6000 + 200 = 6200
кол-во женщин = 4000 + 800 = 4800

k = 6200/4800 = 1,29. Вывод: человек — мужик с вероятностью 1,29/(1+1,29) = 56%

Если считать как у меня:
коэффициент первого сайта = 6000/4000 = 1.5
коэффициент второго сайта = 200/800 = 0.25

k = 1.5*0.25 = 0,375. Вывод: человек — девушка с вероятностью 1-0,375/(1+0,375) = 72%

Вроде бы второй результат значительно логичнее кажется. Непонятно, почему мужской сайт большой популярности с долей мужчин должен обязательно перевешивать женский сайт средней популярности.

А сайты с малой популярностью (где будет велика статистическая погрешность в данных демографии) в базу просто не включались у меня.

Про суммарную точность и точность определения пол в отдельности — тоже интересно, но я не понял, что конкретно вы предлагаете, и в чем конкретно вы видите недостаток нынешнего алгоритма.
Я немного другое имел ввиду.
Во-первых я тоже против того чтобы учитывалась популярность сайта, ведь нам важно относительное значение мужиков и девушек, а не абсолютное.
Во-вторых давайте рассмотрим следующую ситуацию: предположим, что в интернетах мужиков 80%, а девушек 20%. Теперь возьмем, к примеру, какой-нибудь популярный новостной сайт. Новости — это контент, который в одинаковой степени интересен обоим полам. Т.е. распределение полов на сайте будет такое же, как и распределение полов в интернете — 80:20. Получается что сайт, на который с равной вероятностью может зайти и мужик и девушка, по вашему алгоритму становится однозначно мужским. Таким образом, если девушка посещает только новостные сайты, то ваш алгоритм скажет ей, что она на 80% мужик. Просто потому что мужиков больше.
Если мы условно разделим все сайты на мужские (порно), женские (какие-нибудь овуляшки), и нейтральные (новости), то получится что нейтральные сайты будут склонять чашу весов в сторону полового большинства (т.е. мужчин). Хотя в действительности они вообще не должны влиять на определение пола.
Поэтому я говорю, что если мы заранее знаем, что мужиков в 4 раза больше, чем дам, то для того, чтобы сайт считался мужским, необходимо чтоб на нем было более 80% мужиков.

В-третьих точность алгоритма можно считать двумя способами:
1. Отношение кол-ва правильно определенных полов к общему числу попыток определения пола. Т.е. если 9 из 10 пользователей определили пол правильно, значит точность алгоритма 90%. Приблизительно так я и предлагаю оценивать точность.
2. Отношение суммы правильных вероятностей, к-е вычислил алгоритм, к общему числу попыток определения пола. Т.е. допустим для пяти мужчин он выдал вероятности принадлежности к мужскому полу 60%, 60%, 60%, 80%, 90%, а для двух женщин, вероятности принадлежности к женскому полу 60%, 70%. Тогда точность считаем так:
(60+60+60+80+90 + 60+70) / (5 + 2) = 68.5% (при этом 7 из 7 определили пол правильно).
Полагаю, что так считаете точность вы (это то, что я назвал суммарной точностью). Если бы мужчин и девушек в интернете было бы одинаковое количество — оба способа дали бы похожие результаты. Но за счет того, что мужчин больше, этого не происходит. И за счет этого «точность» для второго способа можно повысить очень просто. Тупо взять и абсолютно всем, и мужчинам, и девушкам, добавить, к примеру, 20% мужественности (приблизительно это и делает ваш алгоритм). Тогда новая точность посчитается так:
(80+80+80+100+100 + 40+50) / (5 + 2) = 75.7% (но только 5 из 7 определили пол правильно).
Т.е. за счет абсолютно абсурдного действия, кажется, что мы «увеличили» точность. На самом деле мы её не увеличили, а просто приблизили алгоритм к виду alert(«Вы мужик»).
Рассуждения здравые. Я просто не заметил особого демографического перевеса в сторону мужчин в интернете в целом. Поэтому не факт, что стоит сейчас над этим заморачиваться.

Возьмем, например, данные по 10 самым посещаемым новостным сайтам в базе (название сайта — отношение М к Ж):

lenta.ru — 1.90
rian.ru — 0.93
kp.ru — 0.58
beta.novoteka.ru — 0.70
newsru.com — 1.38
infox.ru — 0.78
utro.ru — 1.09
mk.ru — 0.91
AIF — 0.72
kommersant.ru — 1.22

данные и дальше прыгают туда-сюда, и нет такой тенденции, что мужчин заметно больше.

В общем я что могу посоветовать: сделайте чтоб когда юзер прошёл тест, ему задавался вопрос, правильно ли определился пол. Если он ответит, то сохраняйте пол юзера, вместе с сайтами которые он посещал. Когда накопится достаточно большая статистика, можно будет потестить разные алгоритмы и сравнить их точность.
У меня тоже полный FAIL.
А мне тут пришла вот такая идея: При запуске рекламы Google Adwords там же можно ограничить показ объявлений по полу (только для мужчин или только для женщин). Собственно, запускаем рекламную кампанию с 2 объявлениями и отображением только на своем сайте, и смотрим какое из 2 объявлений нарисовалось. Это конечно не бесплатно, но точность должна быть довольно высокой. Что думаете по поводу такого варианта?

У Яндекса вроде бы пока нельзя Директ настраивать по полу и возрасту, хотя может через Метрику можно как-то вытащить данные о текущем посетителе, например присваивая каждому посетителю уникальную метку. Надо будет пораскинуть мозгами по этому поводу…
Ну и вот ещё Яндекс готовит сервис: atom.yandex.ru/ пока в закрытом тестировании.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории