Verbasik 5 окт в 07:41

От GPT-2 к gpt-oss: анализ достижений архитектуры

Простой

21 мин

4.5K

Искусственный интеллектМашинное обучение *

Обзор

Перевод

+22

Комментарии 5

programania 5 окт в 11:38

Какая версия лучше:
bartowski: openai_gpt-oss-120b-MXFP4.gguf или
unsloth: gpt-oss-120b-UD-Q2_K_L.gguf ... gpt-oss-120b-UD-Q6_K_XL.gguf?
И почему они все примерно одного размера 63гб?

Anton_Timofeev 5 окт в 15:05

"Это связано с тем, что LLM обычно обучаются всего за одну эпоху на огромных наборах данных, в отличие от режимов обучения в сотни эпох, для которых dropout изначально был создан."
Может ЛЛМ дообучаются за одну эпоху? Как-то не верится, что миллиарды весов можно обучить за один прогон даже на большом количестве данных

March228 6 окт в 00:25

Ну обучение она же вторая инициализация, модель запоминает информацию, что после слова А чаще идет слово В, при этом используется очень большой набор данных, чтобы модель не переобучилась. А дообучение это уже подгон модели под фому вопрос - ответ, стиль ответа итд.

Можно и сразу обучать модель на конечных данных, но ей будет очень тяжело. Дообучить за одну эпоху в теории возможно.

triller599 5 окт в 19:53

"Афтар пишы исчо!"(С)
А если серьёзно, то очень полезно, благодарю!
Для интересующихся, такие обзоры очень полезны - позволяют чётко увидеть тренд.

DrDimas 7 окт в 05:34

Интересная статья, но есть нюанс - очень плохо дружат модели с русским языком. Поставил обе и протестировал: «Твоя-моя» плохо понимают)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий