Как стать автором
Обновить

Ускорение генерации токена LLM в два раза для больших контекстов

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров2.5K
Всего голосов 10: ↑10 и ↓0+17
Комментарии5

Комментарии 5

Спасибо за инсайт!

многие современные модели обучены поддерживать контекст до 128k токенов и выше

Я думал, что контекст является проблемой и контекст выше 2-4к токенов это проблема... Расскажете где такие громадные контексты есть?

А можно чуть подробнее про масштабируемость по горизонтали? Можно как-то распихать модель между несколькими хостами?

Беглый поиск вывел на проект, предлагающий GPU-over-IP (Juice-Labs на github), и Ray.io, но там надо прям разбираться.

llama.cpp поддерживает MPI прямо из коробки после коммита https://github.com/ggerganov/llama.cpp/pull/2099

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации