Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Спасибо за инсайт!
многие современные модели обучены поддерживать контекст до 128k токенов и выше
Я думал, что контекст является проблемой и контекст выше 2-4к токенов это проблема... Расскажете где такие громадные контексты есть?
LLaMa 3.1 - 128K tokens: https://huggingface.co/blog/llama31
А можно чуть подробнее про масштабируемость по горизонтали? Можно как-то распихать модель между несколькими хостами?
Беглый поиск вывел на проект, предлагающий GPU-over-IP (Juice-Labs на github), и Ray.io, но там надо прям разбираться.
Ускорение генерации токена LLM в два раза для больших контекстов