Клон ChatGPT в 3000 байтах на C, основанный на GPT-2 / Comments / Habr

@defecator Feb 5 at 13:32

А для чего в начале статьи приведёт обфусцированный код ?

@greefon Feb 5 at 16:16

он не обфусцированный, он "сжатый", чтобы помещаться в 3К

@alan008 Feb 5 at 16:17

Видимо для экономии количества байт (в исходнике :) )

@DanisGB Feb 5 at 21:33

Не обфусцированный, а сжатый до 3000 байт. (точнее 3220)

@Wesha Feb 5 at 23:01

сжатый до 3000 байт

..и к нему два ~~чемодана батареек~~ терабайта весов!

@vvzvlad Feb 9 at 23:58

Всего 100гб, что вы

@MAXH0 Feb 6 at 03:25

Интересная реализация. Я думаю она хорошо подходит для экспериментов

Надо ещё подобрать простые, но откалиброванные, веса из какой то узкой области и баловаться с разными архитектурами нейросетей.

@Syzd Feb 6 at 09:37

Где взять базу знаний для нейросети GPT-2 и куда ее приложить для этого C кода?

@Vasilesk Feb 6 at 15:28

Не благодарите!

Краткий ответ от ChatGPT

Ответ полностью

@virex Feb 7 at 07:40

на гитхабе:

First download the GPT-2 neural network

bash download.sh

содержимое download.sh:

curl https://openaipublic.blob.core.windows.net/gpt-2/models/124M/vocab.bpe > vocab.bpe
curl https://openaipublic.blob.core.windows.net/gpt-2/models/124M/model.ckpt.data-00000-of-00001  > gpt2-124M.ckpt

@kmatveev Feb 9 at 19:26

Эта статья вызвала мой интерес не тем, что она про нейросети, а видом сжатого С-кода. Дело в том, что очень похожий стиль принят среди разработчиков на языках k и q, и интерпретаторы этих языков часто пишут в таком сжатом стиле, который мне даётся с трудом. Я подумал, что ну вот, может тут расскажут, как писать такое, поделятся секретами. А нифига, я сходил на github, и там исходники лежат в гораздо более понятном виде, и питоновский скрипт, который выполняет сжатие. Но при ближайшем рассмотрении оказалось, что питоновский скрипт делает довольно тупые действия, и автору в основном исходнике приходится самому прибегать к препроцессорной магии.

Когда я дошёл до раздела, где объясняется препроцессорная магия для матрично-скалярных и матрично-матричных операций, я сначала нифига не понимал, до тех пор, пока исходники не почитал. Дело в том, что в тексте вроде как define-ится BINARY с двумя аргументами (function и operation) в нижнем регистре, а потом в теле этого BINARY эти же аргументы стоят в верхнем регистре (FUNCTION и OPERATION), это очень сбивает с толку. Это не проблема перевода, в оригинальном тексте тоже так, в исходниках всё норм (fn и opr везде). Ну и раз уж зашла речь про BINARY, то я бы в начале проверил, что размеры матриц совпадают, fail fast и всё такое. Забавно, что он вводит поэлементное умножение и деление матриц, я такого не видел в математике, но у него находит применение в LayerNorm.

В описании математического матричного умножения у автора тоже косяк, в первом, неоптимизированном варианте остались k2 и j2.

@da-nie Aug 11 at 17:57

Matrix matmul(Matrix a, Matrix b) {
  Matrix out = NewMatrix(a.rows, b.rows);
  for (int i = 0; i < a.rows; i++)
    for (int j = 0; j < b.rows; j++)
      for (int k = 0; k < a.cols; k++)
        out.dat[i * b.rows + j] += a.dat[i * a.cols + k+k2] * b.dat[(j+j2) * b.cols + k];


  return out;
}

Нет ли тут ошибки?

Matrix out = NewMatrix(a.rows, b.rows);

разве не ( y=a.rows, x=b.cols )?

Клон ChatGPT в 3000 байтах на C, основанный на GPT-2

Comments 12

Articles