svtDanny 5 янв в 09:25

Алгоритмы спекулятивного инференса LLM

Средний

5 мин

3.1K

Машинное обучение * Искусственный интеллектАлгоритмы * Высоконагруженные системы * Open source *

Обзор

Комментарии 6

FlyGst 5 янв в 10:21

Автор, подскажите, я правильно понимаю что модель ЧатИИ содержит "веса" и "смещения" для подбора слов (+-200млрд), глубину слоев(+-100), размер словаря токенов (50'000 -100'000), технические костули типа эмбеддинги, контекстное окно и прочее для улучшения результатов выдачи? Что вы думаете про самосознание у ЧатИИ?

svtDanny 5 янв в 15:35

Честно, сложно понять что-то о конкретной модели, опираясь на слухи (если я правильно Вас понял и ЧатИИ - это Openai ChatGPT)
Могу сказать только, что обучение подобной модели - это сложная работа с множеством трюков, костылей и идей

По поводу самосознания - смотря что под этим понимать. Если сильно захотеть, можно и увидеть чего 🙂
Но вообще говоря llm просто предсказывает следующий токен по контексту и делает это хорошо, в том числе за счет дообучения на обратной связи (RLHF), так что нет

RGrimov 5 янв в 12:40

А что такое драфт модель?

svtDanny 5 янв в 15:41

Это +- устоявшаяся терминология в контексте алгоритмов спекулятивного инференса
1. Base model (или просто model) - модель, которую хочется ускорить
2. Draft model - алгоритм (строго говоря, даже не обязательно нейросеть. В lookahead ее нет), который позволяет получать новые токены на порядок быстрее. Эта модель существенно хуже по качеству сама по себе, но подходит для генерации осмысленных связок наперед (что и приводит к ускорению). И выход этого алгоритма уже целиком анализируется Base model и частично принимается или отклоняется ею

artyom08112006 16 янв в 07:22

Огромное спасибо за статью! Очень интересно и полезно!

Я не очень понял одно: Вот есть у нас спекулятивный декодинг. Драфт-модель дала нам предсказания на несколько токенов вперёд. Но ведь потом мы запускаем основную модель, которая проверяет эти предсказания? Как это ускоряет инференс?

svtDanny 16 янв в 08:02

спасибо)

Да, действительно, нужно проверить. Но делается это за один forward на все спекулятивные токены, а не авторегрессионно
b - base
d - drarf
авторегрессия меняется так: bbbbbb -> dddddb

Другими словами, если
t_base/t_draft - время генерации одного токена базовой/драфт моделью
n - количество принимаемых токенов (оно не фиксированно, но для формулы и понимания сути - пойдет)

то мы получаем ускорение
(n+1) * t_base/ (t_base + n * t_draft)

что приближает скорость алгоритма к скорости draft модели по мере увеличения среднего значения n

Зарегистрируйтесь на Хабре, чтобы оставить комментарий