Комментарии 6
Автор, подскажите, я правильно понимаю что модель ЧатИИ содержит "веса" и "смещения" для подбора слов (+-200млрд), глубину слоев(+-100), размер словаря токенов (50'000 -100'000), технические костули типа эмбеддинги, контекстное окно и прочее для улучшения результатов выдачи? Что вы думаете про самосознание у ЧатИИ?
Честно, сложно понять что-то о конкретной модели, опираясь на слухи (если я правильно Вас понял и ЧатИИ - это Openai ChatGPT)
Могу сказать только, что обучение подобной модели - это сложная работа с множеством трюков, костылей и идей
По поводу самосознания - смотря что под этим понимать. Если сильно захотеть, можно и увидеть чего 🙂
Но вообще говоря llm просто предсказывает следующий токен по контексту и делает это хорошо, в том числе за счет дообучения на обратной связи (RLHF), так что нет
А что такое драфт модель?
Это +- устоявшаяся терминология в контексте алгоритмов спекулятивного инференса
1. Base model (или просто model) - модель, которую хочется ускорить
2. Draft model - алгоритм (строго говоря, даже не обязательно нейросеть. В lookahead ее нет), который позволяет получать новые токены на порядок быстрее. Эта модель существенно хуже по качеству сама по себе, но подходит для генерации осмысленных связок наперед (что и приводит к ускорению). И выход этого алгоритма уже целиком анализируется Base model и частично принимается или отклоняется ею
Огромное спасибо за статью! Очень интересно и полезно!
Я не очень понял одно: Вот есть у нас спекулятивный декодинг. Драфт-модель дала нам предсказания на несколько токенов вперёд. Но ведь потом мы запускаем основную модель, которая проверяет эти предсказания? Как это ускоряет инференс?
спасибо)
Да, действительно, нужно проверить. Но делается это за один forward на все спекулятивные токены, а не авторегрессионно
b - base
d - drarf
авторегрессия меняется так: bbbbbb -> dddddb
Другими словами, если
t_base/t_draft - время генерации одного токена базовой/драфт моделью
n - количество принимаемых токенов (оно не фиксированно, но для формулы и понимания сути - пойдет)
то мы получаем ускорение
(n+1) * t_base/ (t_base + n * t_draft)
что приближает скорость алгоритма к скорости draft модели по мере увеличения среднего значения n
Алгоритмы спекулятивного инференса LLM