All streams
Search
Write a publication
Pull to refresh
13
0
Send message

Но, уверен, что это не страшно (пошел читать статью дальше).

В 2015 году исследователями из компании Microsoft была предложена архитектура под названием Residual neural network (или ResNet)....
Благодаря такому перекидыванию данных через слои, ResNet хорошо решает проблему затухающего градиента.

Нет :)

Из оригинальной статьи по ResNet:

Driven by the significance of depth, a question arises: Is learning better networks as easy as stacking more layers? An obstacle to answering this question was the notorious problem of vanishing/exploding gradients [1, 9], which hamper convergence from the beginning. This problem, however, has been largely addressed by normalized initialization [23, 9, 37, 13] and intermediate normalization layers [16], which enable networks with tens of layers to start converging for stochastic gradient descent (SGD) with backpropagation [22].

Они решали (и решили) проблему деградации точности, которая имеет иную причину. Безусловно верно, что shortcut connections помогают бэкпропу, безусловно затухающий градиент мешает учить глубокие сети, но skip connections в ResNet-ах к этому отношения не имеют.

За статью плюс, безусловно

Как, все, что нам действительно нужно, это умножение карт признаков на выходе блока внимания, а как они получаются внутри - уже дело десятое. Отсюда и множество вариантов, как обойти использование softmax

Спасибо большое, попробую. Но на самом деле мало чего хорошего в том, что более абстрактная инструкция работает, в то время, как конкретные детальные инструкции с ограничениями - нет.

Это означает, что в большинстве случаев ваши строки должны состоять из одного или двух предложений

Ха ха, если бы! Я кастомными инструкциями его и так и эдак пытаюсь заставить быть кратким и лаконичным - не тут то было! Поначалу вроде отвечает кратко, но потом как начинает растекаться в своих ответах - без мата не остановить.

Десятки, сотни, тысячи записываются одним символом.

Речь про избыточную параметризацию аппроксимации - берете, например, полином третьей степени или выше, и подгоняете им квадратичную функцию. То же может быть и в нейнонках, и это, кстати, не обязательно приводит к оверфиту.

Ровно как и картинки генерит через dall-e по-прежнему. По крайней мере в браузере и в андроид приложении.

Не указывает ли это на то, что модели в большинстве своём априори имеют избыточную ёмкость?

С другой стороны не очень понял, как замена блока на линейный слой работает, ведь в блоках есть умножение...

Сильно зависит. Какого рода данные и чем отличаются два набора?

Мы с женой часто специально обсуждаем шкаф-купе. Он нам нафиг не нужен, просто все ждём, когда реклама появится. За три года эксперимента ни разу не было :(

Ваше утверждение, с которым можно согласиться, а можно не согласиться, никак не следует из каких-либо научных утверждений. В частности, оно не следует из этого, приведённого Вами в первом комментарии ветки:

Например, наука показала, что все люди на планете произошли от одних и тех же предков

Так, можно было бы пойти дальше и утверждать следующее: наука показала, что все биоразнообразие планеты Земля произошло в результате определённых процессов (все виды зародились здесь), откуда следует, что нельзя эксплуатировать, скажем, лошадей. Хотя такое утверждение в корне противоречит Вашему изначальному посылу про пользу для развития человечества - очевидно, эксплуатация животных значительно помогала человечеству развиваться.

Да замените вы IQ на рост человека, логика рассуждений от этого никак не изменится.

С половиной можно согласиться. Но только с половиной

Можно совместить старое с новым: вместо того, чтобы давать полную свободу в диалогах, можно генерировать варианты вопросов/ответов для игрока с учётом текущего игрового контекста. Это и сохранит привычный интерфейс, и добавит разнообразия, и при этом общение с нпс не выродится в скучную и переусложненную механику, о чем писали в комментарии выше. Имхо.

Information

Rating
Does not participate
Registered
Activity