имеет bool значения. А тут float (если без квантизации). Тут граф (его топология) задается уже архитектурой сети. Дальше при обучении меняется матрица перехода, если мы говорим про полносвязные слои (не касается DALL · E, просо легкий для понимания пример), то матрица инцидентности буде треугольная матрицей из единиц и нулей. Веса — это матрица трансформации. Умножаете ее на вход в слой и всех делов.
2. Зависит от числового типа. Умножаем кол-во параметров ~12 000 000 000 на кол-во бит, кодируем архитектуру сети со всеми операциями. Столько и будет весить.
То о чем вы говорите и называется few-shot-learning или one-shot-learning. В статье говорится про zero-shot возможности DALL · E на разном сете задач.
1. Почему Вы решили, что DALL · E не способен на n-shot-learning?
2. Почему GPT-3 по-Вашему может, а DALL · E нет?
3. Есть ли какие-то архитектурные ограничения DALL · E или какая-то другая причина?
Как точно подмечено!!! Если загуглить an emoji of a baby penguin wearing a blue hat, red gloves, green shirt, and yellow pants, то я увижу именно эти картинки. Правда им всем почему-то около суток… возможно совпадение…
Близко. Это размер матрицы или тензора весов. И все зависит от типа слоя. Например, для полносвязных FC-слоев, если в предыдущем слое 512 нейронов, а в интересующем нас 1024 нейрона, то в это слое будет 512 * 1024 = 524288 обучаемых параметра, не учитывая bias'ы и обучаемы параметры в нормализациях и активациях, если такие параметры есть.
По сути количество обучаемых параметров зависит от «нейронов», ну а если более точно, то от типа операции в слое (или даже блоке) сети, bias'ов, функции активации (e.g., prelu), и типа нормализаций при этом слое.
1. Про «сомнительное утверждение». Можно прикинуть сколько визуальной информации проходит через наш мозг за жизнь.
2. Про то, сможет ли нейронка нарисовать «кресло в форме авокадо» если ей скормить 1 авокадо и 1 кресло. С чего вы решили, что 2х фотографий не будет достаточно? Зачем тысячи и сотни тысяч картинок авокадо и кресел? Картинка из оригинального пейпера GPT-3, ссылка на предыдущий пост про Итоги ИИ 2020. Тут как раз видно сколько нужно shot'ов (примеров) для адаптации предобученной GPT-3 для адаптации под конкретный домен. А именно GPT-3, является основой DALL · E
И как мне кажется примеры с «Улиткой-Арфой» и «Гостиной с двумя белыми креслами и картиной Колизея, установленной над современным камином» очень интересны и разнообразны. И показывают, что сеть справляется с этой задачей. Да не идеально. Но местами очень хорошо, и главное оригинально. А еще всего каких-то два года назад эта задача была вообще не решена. Разве это не восхитительно?
Действительно, а кто говорит о сильном ИИ? В статье рассказывается об актуальном на сегодняшний день нейросетевом методе генерации изображений из текста.
Не понял, что на входе, кроме текста, у нейросети?
Может быть только текст, а может быть и текст и начало изображения (для его продолжения):
DALL · E — это декодер-трансформер, который принимает и текст, и изображение в виде единой последовательности токенов (1280 токенов = 256 для текста + 1024 для изображения) и далее генерирует изображения авторегрессивном режиме.
Здесь нужно понимать как работают подобные трансформеры и как именно работает decoder часть encoder-decoder трансформеров. По сути вы можете интерпретировать работу DALL · E, как нейронный машинный перевод из текста в изображение. И оперировать токенами. В таком режиме (авторегрессивном) сеть способна генерировать как и новые изображения, так и заканчивать (догенеривать) уже начатые, как в примере с Гомером.
И что за 12 мрд параметров?
У нейронной сети есть своя архитектура (топология) и обучаемые парамтеры, кторые тренеруются в процессе обучения нейронной сети. У DALL · E этих обучаемых параметров ~12 000 000 000.
У меня возник вопрос… А Вы, случайно lpssp и michael_v89 не один и тот же человек?
Вот в комментариях к В работе сервисов Google произошёл масштабный сбой тоже вместе фигурируете.
Может и совпадение…
habr.com/ru/news/t/532968
2. Зависит от числового типа. Умножаем кол-во параметров ~12 000 000 000 на кол-во бит, кодируем архитектуру сети со всеми операциями. Столько и будет весить.
1. Почему Вы решили, что DALL · E не способен на n-shot-learning?
2. Почему GPT-3 по-Вашему может, а DALL · E нет?
3. Есть ли какие-то архитектурные ограничения DALL · E или какая-то другая причина?
По сути количество обучаемых параметров зависит от «нейронов», ну а если более точно, то от типа операции в слое (или даже блоке) сети, bias'ов, функции активации (e.g., prelu), и типа нормализаций при этом слое.
2. Про то, сможет ли нейронка нарисовать «кресло в форме авокадо» если ей скормить 1 авокадо и 1 кресло. С чего вы решили, что 2х фотографий не будет достаточно? Зачем тысячи и сотни тысяч картинок авокадо и кресел?
Здесь нужно понимать как работают подобные трансформеры и как именно работает decoder часть encoder-decoder трансформеров. По сути вы можете интерпретировать работу DALL · E, как нейронный машинный перевод из текста в изображение. И оперировать токенами. В таком режиме (авторегрессивном) сеть способна генерировать как и новые изображения, так и заканчивать (догенеривать) уже начатые, как в примере с Гомером.У нейронной сети есть своя архитектура (топология) и обучаемые парамтеры, кторые тренеруются в процессе обучения нейронной сети. У DALL · E этих обучаемых параметров ~12 000 000 000.
Я ответил на Ваш вопрос?
И последний вопрос: «У очков может быть только две дужки?»