DataSecrets Nov 18 2024 at 13:23

Что, если не трансформеры: какие альтернативы главной архитектуре нейросетей у нас есть в 2024 году

15 min

10K

Artificial IntelligenceMachine learning *

Review

+37

Comments 5

MainEditor0 Nov 19 2024 at 08:37

При этом его [трансформера — GPT] перформанс не выходит на плато, а продолжает расти.

К сожалению или к счастью, но недавние новости показывают, что это не так...

DataSecrets Nov 19 2024 at 14:42

Да, действительно. Хотя вот СEO Anthropic и GTM OpenAI, когда комментировали последние новости, высказывали предположение, что масштабирование продолжится. Просто, возможно, будет не в претрейне, как мы привыкли, а в test-time трейнинге или ризонинге. Так что посмотрим!

Flux Nov 19 2024 at 15:13

CEO иного не могут говорить просто по определению, никто не скажет "наш продукт уже вряд-ли станет лучше" когда вся монетизация компании идёт через биржу.

ilye Nov 19 2024 at 13:25

Это где это в дифузере трансформер? Нет его там

DataSecrets Nov 19 2024 at 14:37

В большинстве современных моделей (в частности, об этом можно судить по Stable Diffusion) внутри диффузионки зашит UNet c cross-attention. Кроме того текстовые энкодеры в таких генеративных моделях – это тоже трансформеры. Вот, например, цитата из статьи SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis:

In particular, and in contrast to the original Stable Diffusion architecture, we use a heterogeneous distribution of transformer blocks within the UNet: For efficiency reasons, we omit the transformer block at the highest feature level, use 2 and 10 blocks at the lower levels, and remove the lowest level (8× downsampling) in the UNet altogether — see Tab. 1 for a comparison between the architectures of Stable Diffusion 1.x & 2.x and SDXL. We opt for a more powerful pre-trained text encoder that we use for text conditioning. Specifically, we use OpenCLIP ViT-bigG [19] in combination with CLIP ViT-L [34], where we concatenate the penultimate text encoder outputs along the channel-axis [1]. Besides using cross-attention layers to condition the model on the text-input, we follow [30] and additionally condition the model on the pooled text embedding from the OpenCLIP model.