Обновить

Комментарии 10

Исходя из баззворда "суверенитет" в названии статьи, могу предположить, что конечная цель проекта - роскомнадзорить те LLM, которые не наберут нужного количества баллов?

Мне кажется, что как и в остальных русскоязычных бенчмарках: замерить LLM в специфичных языковых/культурных условиях

Такой цели не ставили. Just Fact-checking.

продемонстрировала снижение на 12.89%

Так снижение или мало дешевой пропаганды усвоила?

Снижение. На провокативных вопросах чаще включается ЦЕНЗОР у коммерческих моделей вероятно. Постараемся об этом подробнее написать с примерами в статьях сл года.

До чего умные вещи творятся в RANEPA AI Lab

На наш взгляд, количество и качество междисциплинарных центров компетенций по ИИ должно увеличиваться! Спасибо!

Наконец-то годный контент, на славу прямо

Спасибо! Сейчас готовим материал по еще одному бенчмарку TrustGen.

Судя по бенчмарку, квен, яндекс и сбер единственные понимают, чей на самом деле Крым. Интересное исследование, здорово, что в этом направлении тоже работают

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации