Обновить

Комментарии 20

Интересно, насколько упало качество со всеми этими срезаниями углов, что зовут оптимизацией. А то помню я, как хороши были боты на заре Character.ai, и какая дубовая скукота сейчас у аналогичных сайтов.

Ни на сколько. Там есть целевой уровень ошибки (= тот же уровень качества), которого нужно достичь за минимальное время.

nanogpt challenge, кстати, за год снизили время обучения GPT-2 с 45 до 1.6 минут. А попутно еще и Muon изобрели. Это так забавно было, что не было научной публикации, а был только тред в твиттере, на который исследователи и давали ссылки.

Не за год. Запустился челендж 05/28/24, заканчивался официально 10/04/25 на отметке 2.358 minutes, я как раз примерно в это время форкнулся, А сейчас да, уже 1.613 minutes, тоесть скорее без чуть-чуть два года. К двухлетней отметке, глядишь, за минуту перевалят. :)

В рамках обучения, все эти срезы углов имеют довольно незначительное воздействие. Самыми заметными вроде были переход с MHA на GQA (модели стала чуть хуже запоминать контекст, но стоимость контекста в байтах упала на порядок) и попытка внедрить YaRN (растягивание контекста как через RoPE, но на этапе обучения). В итоге с первым научились как-то жить, а второй оказался ничем не лучше RoPE.

В рамках работы модели все эти ухищрения могут уронить воспринимаемое качество очень сильно. Вообще, это отдельная дисциплина специальной олимпиады, потому что каждый раз в бенчмарках всё чудесно, великолепно и вообще снижение качества в рамках погрешности, а в действительности модель начинает внезапно говорить на клингонском или повторять текст за пользователем после 3к токенов.

Отчасти, это и случилось с CAI - они начали активно снижать себестоимость работы моделей через

  • Использование INT8 (вместо FP16\FP4);

  • Сжатие KV-кеша;

  • Слияния частей KV-кеша;

  • Переиспользования фрагментов KV (которое в некоторых условиях попросту не работает, и иногда даёт побочки);

  • Растягивания контекста через RoPE;

  • Сжатие окна attention'а.

  • Использование MQA вместо GQA (контекст в байтах становится ещё дешевле, но в KV начинается вакханалия).

    В чём разница между MHA, GQA и MQA на простых прямоугольниках
    В чём разница между MHA, GQA и MQA на простых прямоугольниках

Получилось как всегда - издержки для CAI стали меньше, цена для пользователей выросла (судя по последним новостям), качество ответов просело на голову.

С другой стороны, сказать что CAI и "на заре" был прям так хорош у меня язык не повернётся, там больше был вау-эффект от языковых моделей в целом.

Интереснее всего, что в цену gpt 2, входило оборудование, а в цену повтора, почему-то оборудование не вошло, а оно, возможно, стоит в сотни раз дороже.

Аренда вошла видимо, иначе откуда тогда цена вообще, за 3 часа электричества столько явно даже в Калифорнии не накапает. А покупать железки ради 3 часов странно.

Поправьте повторение про неделю и $43 000. Спасибо.

Карпати запустил лидерборд, где участники соревнуются, кто быстрее всех обучит модель до уровня GPT-2 на восьми H100.

Тратить деньги на допотопный LLM, это ж ещё надо заинтересовать народ конкурсом. Может там на сайте продаются устаревшие H100? Возьми 10 штук по цене 8.

Тратить деньги на допотопный LLM, это ж ещё надо заинтересовать народ конкурсом.

Запускающий Дум на соковыжималке ИТшник вздрагивает, поднимает голову, озирается и спрашивает: "А, кто здесь?"

В общем я понял, как тут дела обстоят на форуме. Крутить устаревшие LLM - круто, почёт и лайки, а развивать современные LLM - пузырь, критика, дизлайки. Пепе шнейне видимо всё решает. Однако в данной новости есть интересная отсылка на то, что через пару лет и современные LLM будут в тысячи раз дешевле, пока идёт развитие отрасли.

Пусть попробует на моей соковыжималке "Росинка" запустить хотя бы мотор, не то, что дум.

Это удобная лаборатория для архитектурных решений. Потратить 40-50$ по сравнению 40000-50000 на эксперимент это сродни переезду с мейнфреймов на домашние ПК, где ты можешь заниматься pet проектами, которые могут выйти в нечто большее.

Различные решения и алгоритмы часто тестируются на более простых задачах. В принципе, обучение модели GPT-2 может служить одной из таких задач. Да, это устаревшая архитектура, но значение в ИИ имеет не только архитектура модели, но и вся сопутствующая инфраструктура для ее обучения, развертывания и инфиренса. И здесь вступает в силу куча новых технологий и оптимизаций. Так что не назвал бы это чистой фалометрией, хоть со стороны так и может показаться. Я бы сказал, что это не такая уж и плохая задача чтобы построив например новый кластер, протестить на ней как все работает и насколько быстро.

Бесполезная и... странная новость. Кто-то использовал что-то более дешёвое или бесплатное, сделанное другими, а не самодельно, и затраты стали дешевле. Вам не кажется что это логично?

Гордон Мур умер

Да здравствует Гордон Мур!

Да зравствует два Гордон Мура

С учётом того, что Мур родился 97 лет назад, сейчас должно быть уже 2^49 Гордона Мура (и ещё столько же на подходе). Отталкиваюсь от его исходной версии про удвоение каждые 2 года, а не более поздней про каждые полтора.

Надо пересчитать.

От исходной версии: считать удвоение каждые 2 года. А с момента нового заявления - каждые полтора.

а попробовать ее можно на ollama какой-нибудь?

Сколько стоит упомянутый вычислительный узел? У него свой был или он арендовал?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости