Как стать автором
Поиск
Написать публикацию
Обновить
34
0
Data Secrets @DataSecrets

Журнал о DS и ML. Наш канал: t.me/data_secrets

Отправить сообщение

Да достаточно, конечно, но не дает представления о том, у каких именно пространств есть отображение, а у каких нет. Громов ставил свой вопрос с целью именно это выяснить

Да, действительно. Хотя вот СEO Anthropic и GTM OpenAI, когда комментировали последние новости, высказывали предположение, что масштабирование продолжится. Просто, возможно, будет не в претрейне, как мы привыкли, а в test-time трейнинге или ризонинге. Так что посмотрим!

В большинстве современных моделей (в частности, об этом можно судить по Stable Diffusion) внутри диффузионки зашит UNet c cross-attention. Кроме того текстовые энкодеры в таких генеративных моделях – это тоже трансформеры. Вот, например, цитата из статьи SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis:

In particular, and in contrast to the original Stable Diffusion architecture, we use a heterogeneous distribution of transformer blocks within the UNet: For efficiency reasons, we omit the transformer block at the highest feature level, use 2 and 10 blocks at the lower levels, and remove the lowest level (8× downsampling) in the UNet altogether — see Tab. 1 for a comparison between the architectures of Stable Diffusion 1.x & 2.x and SDXL. We opt for a more powerful pre-trained text encoder that we use for text conditioning. Specifically, we use OpenCLIP ViT-bigG [19] in combination with CLIP ViT-L [34], where we concatenate the penultimate text encoder outputs along the channel-axis [1]. Besides using cross-attention layers to condition the model on the text-input, we follow [30] and additionally condition the model on the pooled text embedding from the OpenCLIP model.

Да, вы правы, конечно. Каждый бустинг ансамбль, но не каждый ансамбль бустинг)) Возможно, автор как-то вручную контролировал выделение метода в другую категорию из-за заслуживающей отдельного внимания популярности именно бустинга как самостоятельного алгоритма, а не как части ансамблей. В оригинальном эссе об этом информации нет

Да, вы правы. Исправили в тексте!

Вот тут демо можно посмотреть, их показывали на презентации: https://x.com/estebandiba/status/1790285228981862720

Выдержка из поста:

Prior to GPT-4o, you could use Voice Mode to talk to ChatGPT with latencies of 2.8 seconds (GPT-3.5) and 5.4 seconds (GPT-4) on average. To achieve this, Voice Mode is a pipeline of three separate models: one simple model transcribes audio to text, GPT-3.5 or GPT-4 takes in text and outputs text, and a third simple model converts that text back to audio. This process means that the main source of intelligence, GPT-4, loses a lot of information—it can’t directly observe tone, multiple speakers, or background noises, and it can’t output laughter, singing, or express emotion.

With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network. Because GPT-4o is our first model combining all of these modalities, we are still just scratching the surface of exploring what the model can do and its limitations.

НЛО прилетело и опубликовало эту надпись здесь

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность