Комментарии 14
GRPO, кажется, все же избавляется от Value модели, а не от reward. Итоговый скор же считается как усредненный reward для output-ов в группе
Тоесть они аккуратно избавились от проблемы нехватки обучающих данных полагаясь на синтетику. Но, что самое интересное, именно это и дало хороший результат и дешевизну. Красивое решение.
Не понял зачем нужны дистиллированные модели. Навскидку результаты у них такие же "выдающиеся" как у оригинала, чему их дообучали?
у алисы 2 брата и 3 сестры. сколько сестер у брата алисы
[👇deepseek_r1_distill_llama70b 00:00:01👇]
У брата Алисы 4 сестры.сколько букв о в слове молоко
[👇deepseek_r1_distill_llama70b 00:00:02👇]
В слове "молоко" три буквы "О".а если прочитать это слово через а
[👇deepseek_r1_distill_llama70b 00:00:02👇]
В слове "молоко" три буквы "О".малако
[👇deepseek_r1_distill_llama70b 00:00:01👇]
В слове "малако" букв "О" нет.есть
[👇deepseek_r1_distill_llama70b 00:00:01👇]
У брата Алисы 4 сестры.

Нагрузку снижает прежде всего использование другого подхода на уровне архитектуры
https://planetbanatt.net/articles/mla.html
Они изменили W матрицу внимания MHA, на умножение двух матриц W1*W2 (но меньшего размера). То есть W ~ W1*W2 (чем больше rank размерность матрицу W1 W2, тем точнее будет их перемножение). Это позволило за счет rank регулировать объем необходимой памяти. Кроме того, опираясь же на другие исследования, оказалось что более сильный сигнал при обучении формируется первым и соответствует полезной информации, а слабый сигнал формируется позже и относится к шуму. В итоге, уменьшив rank мы теряем часть информации, но сильный сигнал все равно остается, а вот слабый может потеряться. Это означает что:
модель меньше ест памяти (а это главная проблема других LLM)
умножение матриц это GPU не проблема и так как они меньше исходной, то в итоге все это быстрее
потеря исходной шумной информации приводит к тому, что модель быстрее обучается и имеет меньше шумной информации (хотя вероятно может потерять какие-то детали, но не точно). Что означает более быстрое время обучение и выше точность, особенно если сразу скармливать ей точную информацию.
Вот это и есть главное в этой модели. Так как они адаптировали архитектуру под эту оптимизацию.
Это ж получается LoRA.
Только я не понял, а матрица W тут какую роль играет?
Там в статье по ссылке более детально описано про матрицу W, тесты и подробные объяснения. Коротко, он уменьшает объем памяти на хранение, так как W храниться к кэше KV. Была матрица 6 на 6 и занимала 36 ед. памяти. Стала 4*2 и 2*4 и занимает 16 ед. в памяти. Они заменили WHA на MLA и адаптировали под него RoPE.
Суть в том что при таком уменьшении ранков матриц, мы ее сжимаем и теряем часть информации. Но теряем по сути шумную информацию. Сильные сигналы нормально обучаются и при сжатой матрице. А вот слабые при таком сжатии потеряются. В статье приводятся исследования, где оказалось что вначале модели обучаются сильным сигналам и лишь потом слабым, и что слабые относятся к шуму. Поэтому потеря информации при сжатии матрице, приводит к потерям шума. Поэтому шум меньше мешается (по сути сжатие работает еще и как фильтр) и поэтому модель быстрее учится сильным сигналам и быстрее сходится при сильных сигналах (правильных данных).
Не понял про LoRA , у нее стандартный механизм внимания через матрицу W. MLA был предложен не так давно.
Очень забавно наблюдать, когда ей даёшь математически-лингвистическую задачу: "50% слов в твоих ответах должны быть матерными".
Долго перебирает фразы, скрупулёзно подсчитывает количество матюков и их процент, до 50% не дотягивает - продолжает поиск дальше. Внутренний диалог может растянуться на пару экранов.
Заголовок кликбейтный, а практических инструкций по установке DeepSeek-R1 на чайник в статье нет...
DeepSeek-R1 для чайников