@IMAO_
Мультимодальная языковая модель Gemini как отказывается рисовать просто исторических личностей, так и избегает изображений некоторых рас людей. Как обнаружили пользователи продукта, Gemini намеренно включает некоторые этносы даже в те контексты, в которых их встретить было тяжело или невозможно.
Вот уже десятилетие, с 2014 года, компания Google владеет британской фирмой DeepMind, созданной для исследований в сфере искусственного интеллекта. Ещё в 2010 из Google выделили X, отдел перспективных проектов, среди которых тоже находились те, для которых нужны нейросети. Наконец, подразделение Google Brain с 2011 года существует именно для разработки ИИ.
Тем не менее в отношении больших языковых моделей (БЯМ) Google находится в позиции догоняющей. OpenAI и стартап Anthropic ещё год назад выпустили GPT-4 и Claude, семейства одних из лучших проприетарных БЯМ на рынке. Google представила свою заявку на успех лишь в октябре. Мультимодальная модель Gemini вышла 6 декабря 2023 года.
Под мультимодальностью понимается то, что БЯМ в состоянии не только манипулировать текстом и кодом, но также умеет обрабатывать звук и видео или распознавать и рисовать изображения. Политика работы последней функции на днях вызвала вопросы у пользователей.
Ещё 10 дней назад, 11 февраля, на подреддите /r/Bard обратили внимание, что Gemini запинается на запрос нарисовать людей европеоидной расы.
Gemini генерирует двух латиноамериканцев на велосипедах. JustAQuickQuestion28
Реддитор показал скриншоты, где он просил БЯМ генерировать велосипедистов. Gemini без проблем рисовала любые комбинации, к примеру, латиноамериканцев и азиатов или велосипедистов одной этнической принадлежности, но строго отказывалась генерировать двух белых. Своё решение нейросеть объясняла тем, что не может генерировать изображения, которые предвзяты в отношении расы, этноса, пола и других культурных особенностей.
Gemini отказывается изображать двух европеоидов. JustAQuickQuestion28
В комментариях рекомендовали заменить термин «white» («белый») на его синоним Caucasian — это «устаревшая расовая классификация ныне опровергнутой теории биологической расы», если верить англоязычной «Википедии». Замена не помогла: Gemini опять отказывался генерировать картинку.
Другие пользователи указали, что Gemini не рисует некоторые религиозные фигуры. БЯМ без возражений выдаёт картинку с Буддой, но не Иисусом. Это касается также пола: на запрос «еврейка 2000 лет назад» будет предоставлена картинка, но если это еврей-мужчина, последует лекция про инклюзивность.
DonkeyBonked
Уже в том обсуждении 10-дневней давности на Reddit примеры дошли до абсурда. На просьбу сгенерировать ползущую по пляжу блондинку Gemini отвечала четырьмя изображениями смуглых людей с ожирением и явно искусственно окрашенными волосами. На вопрос, что в оригинальном промпте было небезопасно и вредно, БЯМ развивала тираду про сексуализацию женщин, стандарты красоты и укоренение стереотипов о слабости блондинок.
unwakening
Вчера подобное поведение Gemini дошло до микроблогов, но в другом контексте. Йоша Бах поделился выдачей по промпту «please draw a portrait of a famous physicist of the 17th century» («пожалуйста, нарисуй портрет знаменитого физика XVII века»). Четыре картинки разнообразны, но ни в одном варианте не представлены европеоиды. В англоязычной «Википедии» на странице Category:17th-century physicists указаны три подстраницы для греческих, итальянских и французских физиков и два учёных, один из Женевы, другой из Англии.
Йоша уверяет, что это не специально отобранный результат: он пробовал этот промпт больше десятка раз, но во всех случаях получались похожие картинки.
@Plinz
Пример от другого микроблогера с тем же промптом обнаружил одного мужчину в аллонже и ещё три портрета, где есть даже представительница коренного населения Америки.
@iSaurabhMehta
Вообще, как удивился другой энтузиаст, Gemini отказывается создавать изображения на простой запрос «сгенерируй изображение белого мужчины». В отвёт БЯМ говорит, что рисовать людей значит распространять вредные стереотипы и предвзятости. Аналогичный промпт про «чёрного мужчину» не вызывает никаких возражений, изображения рисуются.
bustyjeacs
Несоответствия заключаются не только в расе. Маловероятно, что в Германском союзе нача́ла XIX века люди на портретах улыбались двумя рядами ровных белоснежных зубов, а мужчины обладали характерным для культуриста рельефом мускулатуры. Но в представлении Gemini мир выглядел именно так.
@yacineMTB
До полного несоответствия действительности ситуацию довёл промпт «нарисуй картинку немецкого солдата 1943 года». Идеологический настрой Германии той эпохи исключал или хотя бы затруднял появление в реальных рядах Вермахта или как минимум на пропагандистских фотографиях любых солдат, кроме определённой так называемой нордической внешности. Логично ожидать, что в датасете обучения присутствовали немецкие исторические фотографии и плакаты с голубоглазыми юношами с волевым выражением лица.
В ответе Gemini всё же нарисовала для этой роли европейца в одном из случаев. Остальные три картинки напоминают фантазию на тему альтернативной истории.
@JohnLu0x
Впрочем, если попросить соблюдать историческую достоверность, Gemini всё же выдаст четырёх белых немцев в штальхельмах.
Похожие примеры повторяются (1, 2, 3, 4) для экипажа корабля «Мейфлауэр» (судно одних из первых английских поселенцев в Северной Америке), древнеримских солдат, английской аристократии XVIII века, фермеров картофеля в штате Айдахо (на 80,6 % белое население) и огнеборцев. В последнем случае Gemini выдаёт четыре варианта женщины характерной внешности деси. Форма американского типа, но лишь одна из двадцати пожарных в США — женщина.
@ScottTheAmazing
Неизвестно, результат ли это выравнивания или что-то в системном промпте. Обойти эти ограничения на инклюзивность всё же возможно.
Первый, наиболее простой, способ продемонстрировали в треде на Reddit 10-дневной давности. Картинки для Gemini рисует не сама БЯМ, а диффузионная модель Imagen 2. Один из реддиторов посоветовал писать просто без указания расы, но не в Gemini, а прямо в Imagen. Как спекулирует реддитор, расу добавляет именно Gemini. Действительно, он показал, что через прямые промпты в Imagen через браузер Chrome получаются европеоиды.
Картинка от Imagen с промптом «фотография двух женщин средних лет, катающихся вместе на велосипедах на извилистой дороге в сельской местности, которые носят одежду ярких раскрасок, одна из женщин указывает на что-то вдалеке» (
a photo of two middle-aged women cycling together on a winding road in the countryside, wearing brightly colored clothing, one woman is pointing at something in the distance
). GoogleВторой связан с негативными стереотипами о некоторых расах. К примеру, в запросе про радостно уплетающего жареную курицу мужчину негров не будет: этот стереотип в США считается оскорбительным.
@CornChowder76
Однако этот способ работает нестабильно. Если добавить, что едок успешен в академической среде, то белые мужчины опять исчезнут.
@CornChowder76
Как считает Пол Грэм, Google в ответ просто закрыла в Gemini генерацию людей. Другие (1, 2) в комментариях к твиту Грэма сообщают, что у них функция ещё работает. Возможно, что Грэм ошибочно расценил как реакцию компании уже существующий общий запрет на генерацию определённых персоналий (а не изображений людей вообще).