А как они справляются с задачами, подразумевающими операции над N-мерным пространством, где N>1? Представляется, что такая модель, натасканная, к примеру, на решение шахматных задач, должна справляться лучше классической LLM, у которой токены приходят на вход последовательно. Или нет?
Energy-based diffusion language models — откуда берутся, зачем нужны и как работают