Comments 5
Какая версия лучше:
bartowski: openai_gpt-oss-120b-MXFP4.gguf или
unsloth: gpt-oss-120b-UD-Q2_K_L.gguf ... gpt-oss-120b-UD-Q6_K_XL.gguf?
И почему они все примерно одного размера 63гб?
"Это связано с тем, что LLM обычно обучаются всего за одну эпоху на огромных наборах данных, в отличие от режимов обучения в сотни эпох, для которых dropout изначально был создан."
Может ЛЛМ дообучаются за одну эпоху? Как-то не верится, что миллиарды весов можно обучить за один прогон даже на большом количестве данных
Ну обучение она же вторая инициализация, модель запоминает информацию, что после слова А чаще идет слово В, при этом используется очень большой набор данных, чтобы модель не переобучилась. А дообучение это уже подгон модели под фому вопрос - ответ, стиль ответа итд.
Можно и сразу обучать модель на конечных данных, но ей будет очень тяжело. Дообучить за одну эпоху в теории возможно.
"Афтар пишы исчо!"(С)
А если серьёзно, то очень полезно, благодарю!
Для интересующихся, такие обзоры очень полезны - позволяют чётко увидеть тренд.
Интересная статья, но есть нюанс - очень плохо дружат модели с русским языком. Поставил обе и протестировал: «Твоя-моя» плохо понимают)
От GPT-2 к gpt-oss: анализ достижений архитектуры