runaway_llm1 фев в 19:47

Андрей Карпати воспроизвел GPT-2 за $73 — в 2019-м это стоило в 600 раз дороже

1 мин

31K

Искусственный интеллектМашинное обучение *

+31

Комментарии 20

Munafiqun 1 фев в 21:09

Интересно, насколько упало качество со всеми этими срезаниями углов, что зовут оптимизацией. А то помню я, как хороши были боты на заре Character.ai, и какая дубовая скукота сейчас у аналогичных сайтов.

mahmud-podzhigai 1 фев в 22:12

Ни на сколько. Там есть целевой уровень ошибки (= тот же уровень качества), которого нужно достичь за минимальное время.

nanogpt challenge, кстати, за год снизили время обучения GPT-2 с 45 до 1.6 минут. А попутно еще и Muon изобрели. Это так забавно было, что не было научной публикации, а был только тред в твиттере, на который исследователи и давали ссылки.

kraidiky 3 фев в 09:04

Не за год. Запустился челендж 05/28/24, заканчивался официально 10/04/25 на отметке 2.358 minutes, я как раз примерно в это время форкнулся, А сейчас да, уже 1.613 minutes, тоесть скорее без чуть-чуть два года. К двухлетней отметке, глядишь, за минуту перевалят. :)

ShadF0x 2 фев в 00:28

В рамках обучения, все эти срезы углов имеют довольно незначительное воздействие. Самыми заметными вроде были переход с MHA на GQA (модели стала чуть хуже запоминать контекст, но стоимость контекста в байтах упала на порядок) и попытка внедрить YaRN (растягивание контекста как через RoPE, но на этапе обучения). В итоге с первым научились как-то жить, а второй оказался ничем не лучше RoPE.

В рамках работы модели все эти ухищрения могут уронить воспринимаемое качество очень сильно. Вообще, это отдельная дисциплина специальной олимпиады, потому что каждый раз в бенчмарках всё чудесно, великолепно и вообще снижение качества в рамках погрешности, а в действительности модель начинает внезапно говорить на клингонском или повторять текст за пользователем после 3к токенов.

Отчасти, это и случилось с CAI - они начали активно снижать себестоимость работы моделей через

Использование INT8 (вместо FP16\FP4);
Сжатие KV-кеша;
Слияния частей KV-кеша;
Переиспользования фрагментов KV (которое в некоторых условиях попросту не работает, и иногда даёт побочки);
Растягивания контекста через RoPE;
Сжатие окна attention'а.
Использование MQA вместо GQA (контекст в байтах становится ещё дешевле, но в KV начинается вакханалия).
В чём разница между MHA, GQA и MQA на простых прямоугольниках

Получилось как всегда - издержки для CAI стали меньше, цена для пользователей выросла (судя по последним новостям), качество ответов просело на голову.

С другой стороны, сказать что CAI и "на заре" был прям так хорош у меня язык не повернётся, там больше был вау-эффект от языковых моделей в целом.

Wwyn 2 фев в 12:19

Интереснее всего, что в цену gpt 2, входило оборудование, а в цену повтора, почему-то оборудование не вошло, а оно, возможно, стоит в сотни раз дороже.

akimkaakimka 3 фев в 20:47

Аренда вошла видимо, иначе откуда тогда цена вообще, за 3 часа электричества столько явно даже в Калифорнии не накапает. А покупать железки ради 3 часов странно.

c0ntr0ller 2 фев в 03:02

Поправьте повторение про неделю и $43 000. Спасибо.

Vitrion 2 фев в 07:38

Карпати запустил лидерборд, где участники соревнуются, кто быстрее всех обучит модель до уровня GPT-2 на восьми H100.

Тратить деньги на допотопный LLM, это ж ещё надо заинтересовать народ конкурсом. Может там на сайте продаются устаревшие H100? Возьми 10 штук по цене 8.

PerroSalchicha 2 фев в 08:37

Тратить деньги на допотопный LLM, это ж ещё надо заинтересовать народ конкурсом.

Запускающий Дум на соковыжималке ИТшник вздрагивает, поднимает голову, озирается и спрашивает: "А, кто здесь?"

Vitrion 2 фев в 10:49

В общем я понял, как тут дела обстоят на форуме. Крутить устаревшие LLM - круто, почёт и лайки, а развивать современные LLM - пузырь, критика, дизлайки. Пепе шнейне видимо всё решает. Однако в данной новости есть интересная отсылка на то, что через пару лет и современные LLM будут в тысячи раз дешевле, пока идёт развитие отрасли.

Wwyn 2 фев в 12:20

Пусть попробует на моей соковыжималке "Росинка" запустить хотя бы мотор, не то, что дум.

MrZorg 2 фев в 09:24

Это удобная лаборатория для архитектурных решений. Потратить 40-50$ по сравнению 40000-50000 на эксперимент это сродни переезду с мейнфреймов на домашние ПК, где ты можешь заниматься pet проектами, которые могут выйти в нечто большее.

astroduck 2 фев в 10:46

Различные решения и алгоритмы часто тестируются на более простых задачах. В принципе, обучение модели GPT-2 может служить одной из таких задач. Да, это устаревшая архитектура, но значение в ИИ имеет не только архитектура модели, но и вся сопутствующая инфраструктура для ее обучения, развертывания и инфиренса. И здесь вступает в силу куча новых технологий и оптимизаций. Так что не назвал бы это чистой фалометрией, хоть со стороны так и может показаться. Я бы сказал, что это не такая уж и плохая задача чтобы построив например новый кластер, протестить на ней как все работает и насколько быстро.

cijic 2 фев в 07:57

Бесполезная и... странная новость. Кто-то использовал что-то более дешёвое или бесплатное, сделанное другими, а не самодельно, и затраты стали дешевле. Вам не кажется что это логично?

MisterClever 2 фев в 08:59

Гордон Мур умер

Да здравствует Гордон Мур!

smirnfil 2 фев в 09:30

Да зравствует два Гордон Мура

K0styan 2 фев в 11:00

С учётом того, что Мур родился 97 лет назад, сейчас должно быть уже 2^49 Гордона Мура (и ещё столько же на подходе). Отталкиваюсь от его исходной версии про удвоение каждые 2 года, а не более поздней про каждые полтора.

weerf 2 фев в 13:18

Надо пересчитать.

От исходной версии: считать удвоение каждые 2 года. А с момента нового заявления - каждые полтора.

Xao 2 фев в 10:12

а попробовать ее можно на ollama какой-нибудь?

enabokov 3 фев в 06:47

Сколько стоит упомянутый вычислительный узел? У него свой был или он арендовал?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий