aarmaageedoon 22 мар 2020 в 18:09

Оракул, скажи, кем я быть хочу

16 мин

11K

Data Mining*Искусственный интеллектМашинное обучение*

Из песочницы

+20

Комментарии 12

007913 23 мар 2020 в 00:21

Фраза напомнила сериал «Чародей: Страна Великого Дракона»

eugenius_nsk 23 мар 2020 в 08:16

В итоге, мы остановились на нескольких ресурсах: группы в ВК, в которых предположительно состоят рабочие люди, как пример, банковские группы, российская имиджборда Двач, Woman.ru и др.

Очень странный выбор ресурсов для опроса (тем более, что в итоге всё закончилось вообще одним только Двачем). Мне кажется, тот же Хабр — гораздо более релевантный ресурс (правда, тоже будет перекос в человек-техника и человек-знаковая система). Но мне представляется, что и вовлечённость здесь будет существенно больше. Может быть, имеет смысл провести повторный опрос?

А может быть, даже сделать постоянно действующий сервис, предлагающий рекомендации (там вовлечённость будет ещё больше), причём лучше сделать его платным, но не сильно дорогим. В случае этого сервиса можно даже будет проводить исследования изменений результатов теста со временем, и проводить отложенный во времение опрос, нравится ли на данный момент выбранная/рекомендованная профессия. Т.е. человек прошёл тестирование, сервис порекомендовал ему направление деятельности — а через год-два-три сервис опять спрашивает этого же человека, нравится ли ему предложенное направление работы.

aarmaageedoon 23 мар 2020 в 09:13

правда, тоже будет перекос в человек-техника и человек-знаковая система

В этом и смысл. Это было сразу очевидно для Хабра, но не для Двача, да и я плохо представляю, как такой опрос разместить здесь. Двач же уже давно стал местом, где очень много разных людей и мы ожидали найти там разнообразие в профессиях. В тоже время, было очевидно, что женской аудитории будет не хватать. Поэтому в список попал еще и Wonan.ru, админ которого в итоге ответил «Наш форум создан для общения и никаких иных целей.». Мы прекрасно осведомлены, что это не лучшие места интернета, но выбора у нас особо не было. А если найдем таковой, то обязательно проведем.

А может быть, даже сделать постоянно действующий сервис, предлагающий рекомендации

Идея очень хорошая, она появилась у нас еще до начала опроса. Другое дело, чтобы предлагать что-то за деньги, это что-то должно быть закончено. Вряд ли законченым можно назвать наш классификатор, который предсказывает только два направления из пяти.

Malevolent 23 мар 2020 в 12:43

Серёжа, мне 30 лет и я до сих пор не знаю, кем хочу стать, когда вырасту.

НЛО прилетело и опубликовало эту надпись здесь

Valeratal 23 мар 2020 в 13:53

Биг файв есть на русском
А так — ну, курсовая работа студента третьего курса. Ни на что не претендующая, показывающая, что студент умеет пользоваться знаниями и софтом

spam-receiver 23 мар 2020 в 17:27

Ещё в СССР в Институте Мозга определили источник выдающихся способностей человека. Это комбинации количеств нейронов в различных отделах мозга. Около трёхсот структур отвечают за это, поэтому вариантов предрасположенностей к различным способностям практически бесконечно, не то что ваши комбинации из пяти параметров. Читайте книги профессора Сергея Вячеславовича Савельева и смотрите видео на YouTube-канале "Издательство Веди", если хотите подробностей.

barbaris76 23 мар 2020 в 20:55

На vc.ru можно попробовать написать. По духу коммьюнити очень похоже на хабровское, при этом много совершенно разнообразного народа, далеко не только айтишников.

Insolita 24 мар 2020 в 18:54

идея интересная… вообще интересных исследований с привязкой к псих.тестам можно было бы очень много замутить. Но со сбором данных туго. Тут бы с каким-нибудь сайтом, где такие тесты размещаются скооперироваться (или свой создать и раскрутить, что более удобно, но затратно и не быстро) Так как практически каждого время от времени одолевают периоды самокопания и самопознания, и тесты они проходят добровольно и тщательно, только чуть-чуть дополнить опросник

buriy 24 мар 2020 в 19:45

Работа проделана огромная и прекрасная, спасибо большое за отличный пост!
Есть два нюанса, которые хотелось бы как-то улучшить:
1) Нигде нет доверительных интервалов: корреляция 0.42 и 0.5 это стат. значимая разница? Лучше ли 0.5 чем 0.42? А 0.3 и 0.1? Или, «вот там 22 человека, а там 32 человека», из 170 человек — в том единственном месте, где вы их сравниваете — можно ли утверждать, что одно число там статистически значимо больше другого?
2) Мне кажется, нейросеть (регрессия) «читерит» с помощью вопроса Q11.
Может, вот так: «Q11: Моя карьера движется в правильном направлении» -> «у него высокая зарплата» -> «он — знаковик» (мне кажется, у них в среднем зарплаты выше, или я не прав?).
Хотя может есть ещё и корреляция с большей склонностью профессий «техников» к менее стабильной работе и отсутствию карьерного движения.
В общем, нейросеть почему-то просто зачастую «вычисляет» профессию по ответу на данный вопрос, хотя этот ответ вряд ли определяется склонностями и способностями человека (ну кто же не хочет карьерный рост?!). И школьникам такой вопрос не задать при предсказании профессии… Вот если бы он звучал как «готовы ли вы к отсутствию карьерного роста?»… Тогда бы можно было его задать, но это был бы другой вопрос, и люди бы отвечали на него по-другому.
Наверное, надо попробовать как минимум исключить этот вопрос и посмотреть, как проявит себя нейросеть тогда. А ведь ответ на него ещё и в ответы EQ теста просочился…
И ещё вопрос: А как у вас получилась точность теста профессий в 25%, хотя случайное предсказание даст 45-55%?.. Ну, то есть, такое возможно, но хотелось бы какой-то комментарий по этому поводу.

aarmaageedoon 25 мар 2020 в 16:56

Спасибо вам за замечания!
1) Да, действителньо, без них утвеждения звучат несовсем корректно, наша ошибка.
2) Я бе не стал так интерпретировать, поскольку про зарплату у нас нигде ничего не спрашивалось. Более того, человек не должен был руководствоваться зарплатой, отвечая на вопрос о том, что нравится профессия или нет. Однако, как уже уточнялось, мы не можем дать уверенности, что нас поняли правильно.
Однако, вы правы, что такой вопрос школьникам в принципе не задашь и следовательно нужно переработать этот тест, чтобы он был инвариантен к возрасту.
3) Такая маленькая точность получилась из-за режима, по которому мы считали ответы. Еще разок: результат теста на профессию может получиться многозначным, мол, "вам подойдет техника, художественный образ и природа". Мы решили, что некорректно сравнивать такие ответы с результатом классификации, поэтому там, где были множественные результаты, мы перманентно считали их ошибочными, исходя и идеи, что такой результат не решает поставленную проблему.

buriy 25 мар 2020 в 23:30

2) Это более общий вопрос: нет ли в ответах скрытой переменной (или скрытых переменных), связанной с профессией, которая и позволяет эту профессию угадать, но переменной, сводящейся к такому вопросу, про который нельзя спрашивать ещё не работающих на этой профессии людей (или среди них не получить правильный ответ). «Зарплата» может быть примером такой скрытой переменной, если бы вы её спрашивали, вы бы могли её отловить, например, по корреляции с вопросом о карьере — и мы бы тогда не гадали, есть ли такая связь.
В data science ситуации, приводящие к тому, что сеть «нечестным» образом знает слишком много, называются «утечками» данных.
Если 70% нейросеть получила из-за утечки, то всегда важно понимать, сколько она получит без неё?
3) так посчитайте так же бинарным классификатором на тех же 170 пользователях З+Т, как и в режиме с нейросетью: если оценка за «технику» больше или равна, чем за «знак», то это пользователь «техники», а если больше за «знак», то это пользователь «знака». И посмотрите, получите ли 50% или сколько.
А то вы привели их в одной таблице, как будто это оба бинарных классификатора. И лишь из вашего комментария мы поняли, что это вовсе не бинарный классификатор.

(Получить 25% вместо случайного 20% на 5-классовом классификаторе — это, может, будет соответствовать 60% на бинарном случае… а может и 40%… надо пересчитать)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий