Как стать автором
Поиск
Написать публикацию
Обновить

Комментарии 3

Миллион контекста в несчастные 7B параметров запихнули. Сейчас ведь не первое апреля. Yi 30B с контекстом в 200к не справляется, а они сделали уродца, который встанет в один ряд со странными решениями для туалетных юнтузиастов. Пока что самый жизнеспособный вариант на длинный контекст это 8x7 и тому подобные Mixtral MoE.

У гениев ИИ там везде декартов квадрат - вместо чтения - гигантский маппинг. Вместо описания используя тот же ResNet - опять 3 Гб. Вместо хранилища информации как Wolfram - Еще 4 Гб ). Спасает только квантизация. Вот такая мода, зато модели делать не надо ).

*декартово произведение

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости