Comments / Profile of perfect

PhD Munich, NLP

Как я обошел современные GPT модели с помощью GPT2-small на задачах рассуждения

Статья по той же ссылке, что и голосование :) Если получится, то можете еще и помочь апвоутом

https://huggingface.co/papers/2504.20752

Look

Могут ли трансформеры «думать»

perfect_startup Sep 2 2024 at 10:34

Неа, можете посмотреть тут https://arxiv.org/pdf/2405.20233

Тут работают напрямую с градиентами, чтобы ускорить гроккинг. Может, найдете ответ на свой вопрос

Look

Могут ли трансформеры «думать»

perfect_startup Sep 2 2024 at 10:14

Я тоже заметил странность с loss. Это может быть связано как раз с токенайзером, потому что он выделил >< и другие части в отдельные токены, то есть добавил шум. Мне кажется, что если все нормально разделить, то loss как минимум не будет расти. Или, может быть, он еще считает все pad токены - я этому тоже не уделил внимание :(

Еще есть вариант, что при обобщении, вероятности правильных токенов немного уменьшаются и уже условно не 99%, а 80% - из-за этого кросс-энтропия растет, но точность не падает.

Look

Могут ли трансформеры «думать»

perfect_startup Sep 2 2024 at 09:27

Насчет 2-ходовки, то скорее нет. Я такие эксперименты не проводил, но в целом, если у модели есть достаточно "места", то есть слоев, то она может и на большее. Условно, 1 слой для первого шага, второй для второго, и т.п. Непонятно, сколько на 1 шаг нужно слоев, но если увеличивать модель, то и способность рассуждать на большее количество шагов точно появится.

Да, в этот статье тоже используется generalization и memorization circuits. Я не стал использовать эти названия, но схемы есть на рисунках.Коротко, то memorization - когда мы просто все запоминаем, а generalization - обобщающая схема. В примерах с семьей - когда мы идем по жесткому алгоритму:

1. извлекаем связующую сущность
2. передаем 2 отношение дальше
3. ищем конечную сущность.

Look

Могут ли трансформеры «думать»

perfect_startup Sep 1 2024 at 12:30

Да, но особенность задачи в том, что мы не сравниваем величины напрямую в контексте - мы сравниваем величины сущностей. В отличии от первого случая, модели еще нужно сопоставить сущность - значение, и лишь затем сравнить значения

Look