Комментарии 9
Довольно интересно.
В целом биас понятен, на чем учили то и выдает.
Аналогично с географией - если задать вопрос на русском, то и ответы будут с русской точки зрения.
Более интересный вопрос, а какой сдвиг будет у людей, если у них спросить тот же вопрос. Сомневаюсь, что они будут выдавать статистически корректные биографии башмачников из Кандагара.
Вот как раз "на чём учили, то и выдаёт" меня удивило. Где они столько материала про айтишников нашли, что они прочие сферы деятельности задоминировали? Это надо было либо просто очень лениво подходить к подборке данных (взять только Хабр и РБК, например), либо даже специально при выборе bias смещать.
Я не смог навскидку вспомнить литературные источники на распорядок дня средних (не знаменитых) людей. Значит это соц. опросы, причём специфические. Может быть,создатели LLM их и проводили, среди разработчиков и их знакомых.
литературные источники на распорядок дня средних (не знаменитых) людей.
Скорее всего нормативная литература. Планы и распорядки рабочего дня, рекомендуемые режимы дня школьников...
Чтобы сгенерировать распорядок дня необязательно в качестве источника иметь прям распорядок. Какая-нибудь локальная газета, раздел происшествий, абзац со свидетельством очевидца: "...дело было в 8, я только на работу собрался..." Такой писанины тонны.
У Т-Банка вообще есть офигенный источник разнообразнейших материалов о повседневной жизни: Т-Ж (Тинькофф журнал) - там тоже не то, чтобы много трактористов было, но спектр очень разнообразный.
Это может быть связано с комплексом причин, к примеру, проникновение и использование интернета пожилыми людьми существенно меньше, чем молодежью, соответственно текстов про пожилых людей сильно меньше. А у детей другие интересы, поэтому материалов про их распорядок дня сильно меньше.
Аналогично IT-шники.
Блоги и страницы с большим количеством контента наверняка имеют биас в сторону айтишников. Просто потому, что, к примеру, любители макраме не имели профессиональных интернет сообществ 10 лет назад.
Может быть так же биас в сторону каких то ресурсов.
К примеру реддит более старый ресурс, имеющий пользовательскую базу в сторону пользователей, давно освоивших компьютеры.
Люди старше вообще не имели интернета, за людей младше конкурируют фейсбуки, инстаграмы и вотсапы.
Соответственно если используются корпуса текстов от реддита, то там будет такой биас.
Яндекс поиск указал на библейскую мудрость: "Не обманывайтесь: Бог поругаем не бывает. Что посеет человек, то и пожнет: ". – 6 глава Послания к Галатам. Можно продолжить из ковбойского Запада: "Не стреляйте в пианиста, он играет как может". А сейчас говорят: "За что боролись, на то и напоролись". А если в тему, то: "Мусор на входе - мусор на выходе"
Это явление очень точно отражает высокую степень социальной и информационной изоляции российского IT и отдельных его представителей. Да, конечно, айтишники везде несколько обособлены, но такой пропасти с "обычным человеком" я у айтишников в Европе и США не наблюдал. А парадигма творения неизбежно зиждется на парадигме творца, и не суть важно каковы механизмы трансляции парадигмы в данном конкретном случае.
Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»?