Большие языковые модели прочно засели в новостном пространстве, позволяя изменить подход к огромному количеству задач и дразня новой технологической революцией. Однако основной прогресс LLM сейчас происходит в компаниях, фокусирующихся на предоставлении LLM как сервиса, используя специфические технические и инфраструктурные решения. Это оставляет энтузиастам, собирающим своего собственного локального цифрового помощника, малые модели с открытыми весами. И модели эти, как кажется, будут отставать от старших братьев.
Однако это открывает интересное поле для рассуждений — какой могла бы быть архитектура модели, конкурирующей с передовыми облачными решениями на локальных потребительских GPU? Я погрузился в поиски статей на эту тему и хотел бы поделиться результатами поиска и