Комментарии 66
Например, студентов-гуманитариев, учащихся на технических факультетах, можно автоматически переводить на более подходящие им факультеты.
вот это вы лихо!
На самом деле я бы не сильно доверял профилям в социальных сетях — и таким параметрам как отношение к алкоголю и кол-ву скобочек…
Также интересно добавить категории естественных наук и сравнить все три варианта. Можно так же анализировать саму систему образования — разделить не только по типу факультета, но и по классу вуза, и проверить, кореллирует ли грамотность и развёрнутость предложений, использование терминов и прочее с категорией вуза, или с его рейтингом по разным системам. Тогда можно сравнить адекватность оценки частных рейтинговых систем между собой и с государственной системой аккредитации.
Ещё было бы интересно добавить анализ фото нейросетями, если это позволяют вычислительные мощности. Анализировать корелляции с причёской, телосложением, цветом одежды по метрикам из разряда систем Person Recognition. А также померять гомогенность каждой группы.
Интересная идея про анализ кто с кем общается, благо обращений действительно много.
Кстати про классификацию по лицу очень крутая мысль. Недавно как раз была статья по определению сексуальной ориетанции по фото, довольно успешная.
Спасибо за большое количество интересных todo
upd Хм… Кроме вот прямо вот этого.
Не хочу вас расстраивать, но, как мне кажется, ваш анализатор научился оценивать словарный запас (использование редких корней в языке, знание которых чаще можно приписать «гуманитариям»), обилие знаков препинания, на которые «технари», вестимо, куда чаще забивают и, возможно, длину предложений.
В целом, результат вполне логичный со статистической точки зрения. Но не интересный, так как задача, на мой взгляд, поставлена некорректно.
Попробуйте выдачу изменить: пусть ваша сеть работает не как классификатор (чего больше, то и победило), а выдает обе метрики. Скажем, «в вас 37% гуманитария и 63% технаря» было бы куда интереснее.
№ Комментарий
0 (зеленый) Скопировал несколько записей из своих комментариев на Хабре. Выяснил, что я — гуманитарий. Не удивился.
1 (красный) Не хочу вас расстраивать, но, как мне кажется, ваш анализатор научился оценивать словарный запас (использование редких корней в языке, знание которых чаще можно приписать «гуманитариям»), обилие знаков препинания, на которые «технари», вестимо, куда чаще забивают и, возможно, длину предложений.
2 (зеленый) В целом, результат вполне логичный со статистической точки зрения.
3 (зеленый) Но не интересный, так как задача, на мой взгляд, поставлена некорректно.
4 (красный) Попробуйте выдачу изменить: пусть ваша сеть работает не как классификатор (чего больше, то и победило), а выдает обе метрики. Скажем, «в вас 37% гуманитария и 63% технаря» было бы куда интереснее.
Там, где я употреблял больше технических терминов, я был «технарь». Там, где говорил «в общем», был «гуманитарий».
При этом фраза "вы удивитесь, но музыканты давно это знают" трактуется как "красная".
обилие знаков препинания, на которые «технари», вестимо, куда чаще забивают
Знаки препинания — это отражение структуры передаваемой информации, технари на них не забивают, скорее — используют не согласно правил естественного языка.
[humor]lisp-программисты ставят запятых в предложении, больше чем слов[/humor]
… а "согласно чего"? Знаки препинания могут определять структуру информации только в контексте языка, потому что только язык определяет значение знака препинания.
Я понимаю, что:
1. естественные языки — живые и развивающиеся инструменты и все нормы использования знаков препинания как раз появились из необходимости структурировать информацию
2. Кроме стабильных общих правил расстановки знаков препинания есть еще и «авторская пунктуация» (собственный набор правил конкретного автора, выражающий его личность и удовлетворяющий его какие-то частные потребности в выражении мысли) и стилистическая(ситуативная?) пунктуация (набор правил, характерный для каких-либо особых видов текста)
Что я хотел сказать предыдущим комментарием:
1. Мне кажется, что незакрытая кавычка будет раздражать технаря ровно также как и гуманитария. (если не больше, но я не знаю как измерить уровень раздражения у читателя)
2. Мне кажется, что в случаях, когда выделение структурных частей предложения запятыми не обязательно, но допустимо, технарь с большей вероятностью поставит запятую, чем гуманитарий.
3. Обычно, «авторская пунктуация» подразумевает расширение и дополнение общеупотребительных норм литературного языка, а не «переписывание». Так вот — «технарям», по моему мнению, свойственно как раз изобретение каких-то собственных структур, явно нарушающих общие правила. (У гуманитариев общие правила более свежи в памяти и они не будут «переизобретать велосипед»)
Обычно, «авторская пунктуация» подразумевает расширение и дополнение общеупотребительных норм литературного языка, а не «переписывание».
… нет. Нет такого "обычно".
Так вот — «технарям», по моему мнению, свойственно как раз изобретение каких-то собственных структур, явно нарушающих общие правила.
Тоже нет. Вообще, вы совершенно зря пытаетесь построить корреляцию между технари/гуманитарии и пунктуацией. Люди пишут либо грамотно, либо нет. У тех, кто пишет неграмотно, бывает нехватка запятых или их избыток (я сейчас про русский язык).
… нет. Нет такого «обычно».
А́вторская пунктуа́ция — ситуативное, контекстуально обусловленное отступление от общих норм пунктуации. Иногда под авторской пунктуацией понимают индивидуальные особенности пунктуационного оформления текста, не противоречащие принятым правилам, или вообще все знаки, стоящие в авторской рукописи. Последнее употребление термина характерно для издательских работников.
Ок, не обычно, а иногда. Я говорил как раз про
особенности пунктуационного оформления текста, не противоречащие принятым правилам
А не про «пунктуация автора сохранена»
вы совершенно зря пытаетесь построить корреляцию между технари/гуманитарии и пунктуацией.
Сложно построить корреляцию несуществующего разделения с чем-то существующим, да.
Люди пишут либо грамотно, либо нет
Я говорил про людей пишущих грамотно.
Мое сугубо личное наблюдение:
Есть факультативные знаки препинания. Люди, чья работа связана с конструированием и анализом сложных объектов, склонны ставить такие факультативные знаки препинания. Люди, чья работа связана непосредственно с текстом — склонны эти знаки не ставить
Мое сугубо личное наблюдение:
Есть факультативные знаки препинания. Люди, чья работа связана с конструированием и анализом сложных объектов, склонны ставить такие факультативные знаки препинания.
Знаете, я такого никогда не видел. В русском языке не так много факультативных знаков препинания. В частности, в предыдущем предложении просто нельзя поставить запятую.
PS, вот пример наполненного факультативными знаками препинания предложений:
«И когда, месяц спустя, мы вернулись к этому разговору, тема его потеряла уже свою остроту»
«Я не отрицаю этой возможности; но, всё равно, она меня не устраивает»
Вот как раз там, где вы взяли эти примеры, есть прекрасная фраза:
Отмечая синонимичность в употреблении знаков препинания, не следует думать, что в конкретных случаях они полностью взаимозаменяемы, т. е. вполне равноценны. Отнюдь нет: абсолютно синонимичных знаков препинания не бывает, и, выбирая тот или иной вариант пунктуационного оформления текста, автор находит в нем определенные преимущества смыслового, стилистического, интонационного характера.
Некоторые люди, которые работают с текстом — или просто наделены так называемым "чувством языка", — больше других уделяют внимание тому, насколько точно текст (включая пунктуацию) передает их сообщение. Кстати, определить это "подсчетом запятых" невозможно, потому что надо анализировать смысл или хотя бы структуру предложения, чтобы проверить правильность расстановки.
Бинго!
Пишем комментарии "из головы" — получаем "гуманитария". Копируем комментарии (мои же) с хабра — получаем "технаря".
Особенно поучительно, что вот эти комментарии система распознает как "технарские":
- Так все-таки, что же такое "современная музыка", про которую вы утверждаете, что вся она "производится людьми которые почти не разбираются в нотной грамоте"?
- Отражение на бумаге не является обязательной частью творчества (ни музыкального, ни литературного). Дописьменная культура, вот это вот все.
А вот этот — "гуманитарный":
Я же уже задавал этот вопрос (неоднократно). Вот вы в статье пишете "обратимся к определению системы" — но не говорите, откуда вы взяли это определение. А ведь определение существует в рамках системы (или bounded context, если угодно).
А теперь сравним его вот с этим, распознанным как "технарский":
Я и задал вам два конкретных вопроса. В частности, саундтрек к Macross Frontier — это современная музыка? Человек, который его написал, "почти не разбирается" в нотной грамоте?
У них суть-то одна и та же — вопрос об определениях. Только в "технарском" определения про музыку, а в "гуманитарном" — про системную инженерию.
Так все-таки, что же такое «современная музыка», про которую вы утверждаете, что вся она «производится людьми которые почти не разбираются в нотной грамоте»?
Технарский, потому что «не разбираются». Гуманитарии это словосочетание в срачах не употребляют.
Я же уже задавал этот вопрос (неоднократно). Вот вы в статье пишете «обратимся к определению системы» — но не говорите, откуда вы взяли это определение.
А тут есть явный маркер гуманитария — слово «неоднократно».
Как в свое время очень метко пошутил Жванецкий о Гайдаре, «человек, имеющий в активном словарном запасе слово „отнюдь“ в России президентом не станет».
И, кстати, в целом это — лютый вин, что корреляция между темой обсуждения и типом мышления системой не прослеживается. Это означает, что задача действительно имеет смысл. Только вот постановка слишком упрощена. Я бы, например, выделил несколько конкретных наук и раскладывал по ним. Но тут с учебной выборкой было бы посложнее…
И, кстати, в целом это — лютый вин, что корреляция между темой обсуждения и типом мышления системой не прослеживается.
Тогда почему по комментариям на хабре я "технарь", а по комментариям, написанным вне обсуждения — "гуманитарий"?
А тут есть явный маркер гуманитария — слово «неоднократно».
"Я же уже задавал этот вопрос (неоднократно). [...]" — гуманитарный.
"Я же уже задавал этот вопрос (дважды). [...]" — технарский.
"Я же уже задавал этот вопрос. [...] — снова гуманитарный.
Технарский, потому что «не разбираются». Гуманитарии это словосочетание в срачах не употребляют.
"современная музыка производится людьми которые почти не разбираются в нотной грамоте"
"современная музыка производится людьми которые ничего не понимают в нотной грамоте"
"современная музыка производится людьми которые не разбираются в нотной грамоте"
"современная музыка производится людьми которые не обучались нотной грамоте"
"современная музыка производится людьми которые разбираются в нотной грамоте"
"современная музыка производится людьми которые обучались нотной грамоте"
Все "технарские" (и, кстати, правильная расстановка запятых не влияет).
Теперь, когда система разработана и запущена, можно подумать об ее применении. Например, студентов-гуманитариев, учащихся на технических факультетах, можно автоматически переводить на более подходящие им факультеты.
А авторов статей, пишущих глупости, автоматически переводить с Хабра на Рен-ТВ.
У вас есть две группы людей, разделенных де-факто по произвольному принципу, ибо вы не озвучили ни список факультетов, ни критерии, по которым тот или иной отнесен в ту или иную группу, или исключен. А вот выпускники
института математики, физики, информатики и технологий УГПУ к какой категории относятся, и почему, и много ли у них общего с выпускниками ВМК МГУ или МХТИ, скажем — можете обоснованно рассказать? Далее, вы с точностью не более 66% можете определить, к какой из этих групп относится тот или иной человек из уже исследованных вами, а точность прогнозов модели на другой выборке вы исследовать даже не пытались. И на основании этого вы хотите что-то "применять"? :)

Всего лишь говорит об очередной кривой матмодели, на которую натягивают теперь
Сомнительно, что столь простым, как в статье, методом можно выявить такие вещи.
На мой взгляд, деление на «технарь и гуманитарий» это деление по принципу «ценит логику в рассуждениях своих и чужих / не ценит»
То есть "гуманитарий" — это такое ругательное слово, обозначающее "не ценит логику"?
А гуманитарии структурируют всё сообразно структур речи
Эээ, кто вам это сказал?
Сфера сама по себе тут непричём. Я знаю нескольких женщин с гуманитарным образованием, занимающихся совершенно нетехническими дисциплинами (например, одна рисует, вторая танцует). При этом конкретно они очень хорошо структурируют информацию, последовательны и логичны в рассуждениях.
Также знаю _много_ людей с техническим образованием работающих в технических сферах, которые непоследовательны, нелогичны и вообще не имеют представления о структурировании чего-либо.
Можно ещё сказать (с некоторой натяжкой) что у одних преобладают (определяют их поведение в широком смысле слова) эмоции, у других сознание. Хотя это всё же упрощение.
Структурное мышление — это когда слова в предложении ставятся в определённом порядке в английском, или с определёнными окончаниями в русском. Раз освоив речь, человек уже не задумывается о том, как он говорит. Точно так же человек вырабатывает техническую граммотность — вся суть техники в том что есть готовые решения которые ты находишь и используешь, это чисто структурное мышление — но не логическое. Строя логические связи можно реализовать некий функционал в программе или устройстве, даже если так ещё никто не делал. Это задачи разработки и исследований. Задачи техники — применение уже готовых решений, и лёгкая подкрутка под задачи заказчика. Для этого достаточно структурного мышления. В случае программирования людям в университетах прошиваются готовые оптимизации — паттерны, парадигмы, стили написания кода — это всё элементы структурного мышления, которые запоминаются и всё. Знание этих вещей и работа в сфере не гарантирует что человек хоть где-то будет логичен и последователен. Это просто структуры.
Филологам прошиваются другие структуры — например, структура эссе, или структура слова у специалистов по теории языка. К речи человека привязана вся его социальная деятельность, потому надстройками к её структуре идут структуры социального взаимодействия, психологические аспекты всякие… Вот и получается две сферы где применяется два класса готовых решений. И оба они — не гарантируют того что человек хоть как-то использует логику, равно как и ничего не говорят о том что он её не использует. Потому что логично мыслящий человек может взять готовые структуры в долгосрочную память и никогда не применять в качестве оптимизаций (вместо логики). Так получаются умные технари и умные гуманитарии которые логически мыслят.
Что касается танцев и рисования — это творческие занятия, здесь вообще задействован третий вид — ассоциативные связи. Так как болшая часть гуманитарных дисциплин типа филологии, социологии, психологии — так же прокачивают и ассоциативное мышление (как сочинение текстов так и вообще — любое взаимодействие с людьми требует этого) то творческие занятия тоже плюсуют к ним в кучу. Вот и получается два больших класса — люди которые по разному учатся в университетах и потом работают на разных работах.
И только на третий день индеец Зоркий глаз заметил...
Я разделил все факультеты на гуманитарные, технические и другие (естественные или вовсе не относящиеся к научным, например, музыкальные или художественные). Эти “другие” факультеты были отброшены и не участвовали в эксперименте.
Теперь меня не удивляют результаты: у нас были (помимо неразмеченных), грубо говоря, четыре класса (на самом деле — больше, но не суть), а результат мы запихиваем в два (вместо, хотя бы, двух классов и "не понял, кто").
Меня распознали как технаря, браво. Только я не поняла, почему мой комментарий "слева или справа?" — больше гуманитарный коммент.
А ещё я попробовал тест пройти, но не смог. Комментировать рандомные короткие фразы без контекста просто не получается.
Я догадывался

Шах и мат…
В начале написано, что «Итоговый результат можно будет использовать, например, для таргетированной рекламы», а в конце «студентов-гуманитариев, учащихся на технических факультетах, можно автоматически переводить на более подходящие им факультеты» — то есть о рекламе в конце забыто.
Если все же цель ближе к «таргетированной рекламе», то можно посмотреть другие публикации по анализу лексики + соцположения + заработка и т.п. с целью чем бы еще дополнить journals.plos.org/plosone/article?id=10.1371/journal.pone.0138717 и вот надеюсь откроется список со статьями scholar.google.ru/scholar?q=related:YMtIdmEoKZAJ:scholar.google.com/&hl=en&as_sdt=0,5
Жалко, что паблик относительно нейтральный. Иначе можно было бы посмотреть агрессивность комментариев в зависимости от времени суток… В зависимости от тем постов… В зависимости от возраста/пола и т.п. комментирующего… И инфа по алкоголю/курению бы пригодилась)))
куда Вы денете медиков? они лирики или физики?
Конечно же физики, какие могут быть сомнения?
Их работа заключается в обслуживании сложнейших инженерных систем.
Гуманитарное образование — это 100% филологов, переводчиков, историков, социологов и психологов.
Техническое — программисты, механики, дорожники, геодезисты, радиотехники.
Физики и музыканты не классифицируются по такой системе.
Классификация на гуманитариев и технарей по комментариям в VK