Как стать автором
Обновить

Leaderboard Illusion: что не так с Chatbot Arena

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров919
Всего голосов 9: ↑9 и ↓0+15
Комментарии3

Комментарии 3

Закон Гудхарта, да

С другой стороны я всё меньше смотрю на рейтинг. Это только повод попробовать, я сам решу.

Да, Claudia 3.5, 3.7 отличная для программирования и рейтинг ей явно занижали. Но сейчас всё же я предпочитаю gpt-o3, gpt 4.5 был хорош, пока его не прикрыли

O3 забавный, он со мной не соглашается и спорит, уходит от темы. Но это чаще полезно чем вредно: я же не хочу слышать только свои идеи.

Жду Claudia 4

Первый раз вижу чтобы так Claude называли. Он Клод, а не Клавдия :)

Клава

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации