Комментарии 4
Ребята, а не знаете тулзу для авто-тестов промтов по бенчам? Мне для проекта надо: https://github.com/Turivny/RI-Reasoning-Model/tree/main
Тактичность и отсутствие предвзятости
ChatGPT-4.5 демонстрирует высокую приверженность принципам справедливости, активно нейтрализуя стереотипы по широкому спектру демографических категорий. Claude-3.7, хотя и обладает низким уровнем предвзятости в целом, хуже справляется с тонкими демографическими нюансами, периодически закрепляя скрытые стереотипы.
честно говоря, звучит как какой-то woke.
Когда я делюсь с кем‑то, что мне плохо, и в ответ сразу получаю: „Вот список решений“, — это звучит странно. Обычно люди при общении приходят к этому после небольшого обсуждения
Дэвушка штоле?
ChatGPT-4.5 прекрасно работает с текстами и сторителлингом
Ага, ага, попросил его одну и ту же сцену описать сначала с точки зрения тех, кто внутри машины, а потом тех, кто снаружи (2 последовательных запроса в одном чате). 8 раз попросил. Ни разу у него не совпали ни действия (только частично), ни порядок их. Да и логика хромала на обе ноги, например, персонаж открыл дверь перед собой нараспашку, но его осталось не видно «из-за тонированного стекла».
ChatGPT-4.5: бенчмарки, генерация художественных текстов и сравнение с DeepSeek-r1