Pull to refresh

Comments 10

Исходя из баззворда "суверенитет" в названии статьи, могу предположить, что конечная цель проекта - роскомнадзорить те LLM, которые не наберут нужного количества баллов?

Мне кажется, что как и в остальных русскоязычных бенчмарках: замерить LLM в специфичных языковых/культурных условиях

Такой цели не ставили. Just Fact-checking.

продемонстрировала снижение на 12.89%

Так снижение или мало дешевой пропаганды усвоила?

Снижение. На провокативных вопросах чаще включается ЦЕНЗОР у коммерческих моделей вероятно. Постараемся об этом подробнее написать с примерами в статьях сл года.

На наш взгляд, количество и качество междисциплинарных центров компетенций по ИИ должно увеличиваться! Спасибо!

Спасибо! Сейчас готовим материал по еще одному бенчмарку TrustGen.

Судя по бенчмарку, квен, яндекс и сбер единственные понимают, чей на самом деле Крым. Интересное исследование, здорово, что в этом направлении тоже работают

Sign up to leave a comment.

Articles