Как стать автором
Обновить

Комментарии 6

Бенчмарк - закрытый

Не удивлён, что публикация тонет в минусах.

Гугл-то наш не первый!

Китайцы между OpenSource и некачественным OpenSource.

А про Китов (Yandex, Сбер, Тинькофф (таких же как и Гугл, и OpenAi - без этих, технологий)) - вообще ни слова )

Ты угораешь? Этому мусору даже до оригинальной 3.5 еще несколько лет тренировок.

Написал пост, когда было 0 минусов, чтоб собрать классы ?

Бенчмрак основан на тестах и промптах из рабочих продуктов и сервисов. Все это находится под NDA и является коммерческой тайной.

Иди зайди на ллм арену и смотри модели там)

И зайдем и будем смотреть. Ибо Arena и AlpacaEval наиболее релевантные бенчмарки.

А вот это смысла публиковать не было. Нет проверки значит ноль доверия от ресерчеров.
С тем же успехом говном на заборе написали у нас есть бенчмарк.
Только все плевать включая меня.

Gemini Pro 1.5 есть, а Phi 3 small/medium - нет

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории