Клон ChatGPT в 3000 байтах на C, основанный на GPT-2 / Комментарии / Хабр

defecator 5 фев в 16:32

А для чего в начале статьи приведёт обфусцированный код ?

greefon 5 фев в 19:16

он не обфусцированный, он "сжатый", чтобы помещаться в 3К

alan008 5 фев в 19:17

Видимо для экономии количества байт (в исходнике :) )

DanisGB 6 фев в 00:33

Не обфусцированный, а сжатый до 3000 байт. (точнее 3220)

Wesha 6 фев в 02:01

сжатый до 3000 байт

..и к нему два ~~чемодана батареек~~ терабайта весов!

vvzvlad 10 фев в 02:58

Всего 100гб, что вы

MAXH0 6 фев в 06:25

Интересная реализация. Я думаю она хорошо подходит для экспериментов

Надо ещё подобрать простые, но откалиброванные, веса из какой то узкой области и баловаться с разными архитектурами нейросетей.

Syzd 6 фев в 12:37

Где взять базу знаний для нейросети GPT-2 и куда ее приложить для этого C кода?

Vasilesk 6 фев в 18:28

Не благодарите!

Краткий ответ от ChatGPT

Ответ полностью

virex 7 фев в 10:40

на гитхабе:

First download the GPT-2 neural network

bash download.sh

содержимое download.sh:

curl https://openaipublic.blob.core.windows.net/gpt-2/models/124M/vocab.bpe > vocab.bpe
curl https://openaipublic.blob.core.windows.net/gpt-2/models/124M/model.ckpt.data-00000-of-00001  > gpt2-124M.ckpt

kmatveev 9 фев в 22:26

Эта статья вызвала мой интерес не тем, что она про нейросети, а видом сжатого С-кода. Дело в том, что очень похожий стиль принят среди разработчиков на языках k и q, и интерпретаторы этих языков часто пишут в таком сжатом стиле, который мне даётся с трудом. Я подумал, что ну вот, может тут расскажут, как писать такое, поделятся секретами. А нифига, я сходил на github, и там исходники лежат в гораздо более понятном виде, и питоновский скрипт, который выполняет сжатие. Но при ближайшем рассмотрении оказалось, что питоновский скрипт делает довольно тупые действия, и автору в основном исходнике приходится самому прибегать к препроцессорной магии.

Когда я дошёл до раздела, где объясняется препроцессорная магия для матрично-скалярных и матрично-матричных операций, я сначала нифига не понимал, до тех пор, пока исходники не почитал. Дело в том, что в тексте вроде как define-ится BINARY с двумя аргументами (function и operation) в нижнем регистре, а потом в теле этого BINARY эти же аргументы стоят в верхнем регистре (FUNCTION и OPERATION), это очень сбивает с толку. Это не проблема перевода, в оригинальном тексте тоже так, в исходниках всё норм (fn и opr везде). Ну и раз уж зашла речь про BINARY, то я бы в начале проверил, что размеры матриц совпадают, fail fast и всё такое. Забавно, что он вводит поэлементное умножение и деление матриц, я такого не видел в математике, но у него находит применение в LayerNorm.

В описании математического матричного умножения у автора тоже косяк, в первом, неоптимизированном варианте остались k2 и j2.

Клон ChatGPT в 3000 байтах на C, основанный на GPT-2

Комментарии 11

Публикации