Обновить

Google DeepMind запустила Game Arena — бенчмарк с настольными играми для тестирования LLM

Время на прочтение1 мин
Охват и читатели6.7K
Всего голосов 2: ↑2 и ↓0+4
Комментарии6

Комментарии 6

А где гарантия, что модель унутре себя не подключит программку - шахматного агента?

Если подключит, то значит научилась

Во время тестирования языковые модели не могут пользоваться возможностями игровых движков и полагаются только на систему распознавания изображений.

Как это проверить, обращаясь к модели на сервер?

Ллм же не умеет играть в шахматы и зрения у большинства нет. Странная затея. Если их будут дисквалифицировать за неверные ходы то большинство сольется за 5 минут.

Так цели нету устроить зрелищный турнир. Это просто бичмарк для отслеживания прогресса ИИ

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости