Комментарии 20
Интересно, насколько упало качество со всеми этими срезаниями углов, что зовут оптимизацией. А то помню я, как хороши были боты на заре Character.ai, и какая дубовая скукота сейчас у аналогичных сайтов.
Ни на сколько. Там есть целевой уровень ошибки (= тот же уровень качества), которого нужно достичь за минимальное время.
nanogpt challenge, кстати, за год снизили время обучения GPT-2 с 45 до 1.6 минут. А попутно еще и Muon изобрели. Это так забавно было, что не было научной публикации, а был только тред в твиттере, на который исследователи и давали ссылки.
В рамках обучения, все эти срезы углов имеют довольно незначительное воздействие. Самыми заметными вроде были переход с MHA на GQA (модели стала чуть хуже запоминать контекст, но стоимость контекста в байтах упала на порядок) и попытка внедрить YaRN (растягивание контекста как через RoPE, но на этапе обучения). В итоге с первым научились как-то жить, а второй оказался ничем не лучше RoPE.
В рамках работы модели все эти ухищрения могут уронить воспринимаемое качество очень сильно. Вообще, это отдельная дисциплина специальной олимпиады, потому что каждый раз в бенчмарках всё чудесно, великолепно и вообще снижение качества в рамках погрешности, а в действительности модель начинает внезапно говорить на клингонском или повторять текст за пользователем после 3к токенов.
Отчасти, это и случилось с CAI - они начали активно снижать себестоимость работы моделей через
Использование INT8 (вместо FP16\FP4);
Сжатие KV-кеша;
Слияния частей KV-кеша;
Переиспользования фрагментов KV (которое в некоторых условиях попросту не работает, и иногда даёт побочки);
Растягивания контекста через RoPE;
Сжатие окна attention'а.
Использование MQA вместо GQA (контекст в байтах становится ещё дешевле, но в KV начинается вакханалия).

В чём разница между MHA, GQA и MQA на простых прямоугольниках
Получилось как всегда - издержки для CAI стали меньше, цена для пользователей выросла (судя по последним новостям), качество ответов просело на голову.
С другой стороны, сказать что CAI и "на заре" был прям так хорош у меня язык не повернётся, там больше был вау-эффект от языковых моделей в целом.
Интереснее всего, что в цену gpt 2, входило оборудование, а в цену повтора, почему-то оборудование не вошло, а оно, возможно, стоит в сотни раз дороже.
Поправьте повторение про неделю и $43 000. Спасибо.
Карпати запустил лидерборд, где участники соревнуются, кто быстрее всех обучит модель до уровня GPT-2 на восьми H100.
Тратить деньги на допотопный LLM, это ж ещё надо заинтересовать народ конкурсом. Может там на сайте продаются устаревшие H100? Возьми 10 штук по цене 8.
Тратить деньги на допотопный LLM, это ж ещё надо заинтересовать народ конкурсом.
Запускающий Дум на соковыжималке ИТшник вздрагивает, поднимает голову, озирается и спрашивает: "А, кто здесь?"
В общем я понял, как тут дела обстоят на форуме. Крутить устаревшие LLM - круто, почёт и лайки, а развивать современные LLM - пузырь, критика, дизлайки. Пепе шнейне видимо всё решает. Однако в данной новости есть интересная отсылка на то, что через пару лет и современные LLM будут в тысячи раз дешевле, пока идёт развитие отрасли.
Пусть попробует на моей соковыжималке "Росинка" запустить хотя бы мотор, не то, что дум.
Это удобная лаборатория для архитектурных решений. Потратить 40-50$ по сравнению 40000-50000 на эксперимент это сродни переезду с мейнфреймов на домашние ПК, где ты можешь заниматься pet проектами, которые могут выйти в нечто большее.
Различные решения и алгоритмы часто тестируются на более простых задачах. В принципе, обучение модели GPT-2 может служить одной из таких задач. Да, это устаревшая архитектура, но значение в ИИ имеет не только архитектура модели, но и вся сопутствующая инфраструктура для ее обучения, развертывания и инфиренса. И здесь вступает в силу куча новых технологий и оптимизаций. Так что не назвал бы это чистой фалометрией, хоть со стороны так и может показаться. Я бы сказал, что это не такая уж и плохая задача чтобы построив например новый кластер, протестить на ней как все работает и насколько быстро.
Бесполезная и... странная новость. Кто-то использовал что-то более дешёвое или бесплатное, сделанное другими, а не самодельно, и затраты стали дешевле. Вам не кажется что это логично?
Гордон Мур умер
Да здравствует Гордон Мур!
Да зравствует два Гордон Мура
С учётом того, что Мур родился 97 лет назад, сейчас должно быть уже 2^49 Гордона Мура (и ещё столько же на подходе). Отталкиваюсь от его исходной версии про удвоение каждые 2 года, а не более поздней про каждые полтора.
а попробовать ее можно на ollama какой-нибудь?
Сколько стоит упомянутый вычислительный узел? У него свой был или он арендовал?

Андрей Карпати воспроизвел GPT-2 за $73 — в 2019-м это стоило в 600 раз дороже