dmitrifriend 11 мар в 14:34

ChatGPT-4.5: бенчмарки, генерация художественных текстов и сравнение с DeepSeek-r1

Средний

24 мин

11K

Блог компании BotHubИскусственный интеллектМашинное обучение * IT-компанииБудущее здесь

Обзор

+13

Комментарии 4

turivny 14 мар в 06:06

Ребята, а не знаете тулзу для авто-тестов промтов по бенчам? Мне для проекта надо: https://github.com/Turivny/RI-Reasoning-Model/tree/main

StraNNicK 14 мар в 08:43

Тактичность и отсутствие предвзятости
ChatGPT-4.5 демонстрирует высокую приверженность принципам справедливости, активно нейтрализуя стереотипы по широкому спектру демографических категорий. Claude-3.7, хотя и обладает низким уровнем предвзятости в целом, хуже справляется с тонкими демографическими нюансами, периодически закрепляя скрытые стереотипы.

честно говоря, звучит как какой-то woke.

Wesha 14 мар в 19:49

Когда я делюсь с кем‑то, что мне плохо, и в ответ сразу получаю: „Вот список решений“, — это звучит странно. Обычно люди при общении приходят к этому после небольшого обсуждения

Дэвушка штоле?

Chamie 18 мар в 16:24

ChatGPT-4.5 прекрасно работает с текстами и сторителлингом

Ага, ага, попросил его одну и ту же сцену описать сначала с точки зрения тех, кто внутри машины, а потом тех, кто снаружи (2 последовательных запроса в одном чате). 8 раз попросил. Ни разу у него не совпали ни действия (только частично), ни порядок их. Да и логика хромала на обе ноги, например, персонаж открыл дверь перед собой нараспашку, но его осталось не видно «из-за тонированного стекла».

Зарегистрируйтесь на Хабре, чтобы оставить комментарий