Как стать автором
Обновить

Комментарии 3

Показалось очень натянуто. У графического пайплайна и LLM есть одно существенное различие - графика даёт сразу целую картинку в единицу времени, а вот LLM только один токен (и не факт что это будет целое слово)

Это действительно слегка натянуто, как я отметил в послесловии. Но мне это все равно кажется интересным. К примеру, кто-то мог бы провести исследование по использованию FFT для разложения изображения, построенного на выходном ответе. Возможно это могло бы показать консистентность ответа. Или нет.

Вот недавняя работа, где трансформер учится глобальному освещению на простых сценах: Renderformer. Там, правда, совсем небольшой контекст (размер модели) и другие ограничения, но выглядит многообещающе.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации