Комментарии 3
Миллион контекста в несчастные 7B параметров запихнули. Сейчас ведь не первое апреля. Yi 30B с контекстом в 200к не справляется, а они сделали уродца, который встанет в один ряд со странными решениями для туалетных юнтузиастов. Пока что самый жизнеспособный вариант на длинный контекст это 8x7 и тому подобные Mixtral MoE.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Google представила открытые языковые модели Gemma