Search
Write a publication
Pull to refresh
10
0
Roman Abramov @perfect_startup

PhD Munich, NLP

Send message

Статья по той же ссылке, что и голосование :) Если получится, то можете еще и помочь апвоутом

https://huggingface.co/papers/2504.20752

Неа, можете посмотреть тут https://arxiv.org/pdf/2405.20233

Тут работают напрямую с градиентами, чтобы ускорить гроккинг. Может, найдете ответ на свой вопрос

Я тоже заметил странность с loss. Это может быть связано как раз с токенайзером, потому что он выделил >< и другие части в отдельные токены, то есть добавил шум. Мне кажется, что если все нормально разделить, то loss как минимум не будет расти. Или, может быть, он еще считает все pad токены - я этому тоже не уделил внимание :(

Еще есть вариант, что при обобщении, вероятности правильных токенов немного уменьшаются и уже условно не 99%, а 80% - из-за этого кросс-энтропия растет, но точность не падает.

Насчет 2-ходовки, то скорее нет. Я такие эксперименты не проводил, но в целом, если у модели есть достаточно "места", то есть слоев, то она может и на большее. Условно, 1 слой для первого шага, второй для второго, и т.п. Непонятно, сколько на 1 шаг нужно слоев, но если увеличивать модель, то и способность рассуждать на большее количество шагов точно появится.

Да, в этот статье тоже используется generalization и memorization circuits. Я не стал использовать эти названия, но схемы есть на рисунках.Коротко, то memorization - когда мы просто все запоминаем, а generalization - обобщающая схема. В примерах с семьей - когда мы идем по жесткому алгоритму:

1. извлекаем связующую сущность
2. передаем 2 отношение дальше
3. ищем конечную сущность.

Да, но особенность задачи в том, что мы не сравниваем величины напрямую в контексте - мы сравниваем величины сущностей. В отличии от первого случая, модели еще нужно сопоставить сущность - значение, и лишь затем сравнить значения

Information

Rating
Does not participate
Registered
Activity