Comments / Profile of VPryadchenko / Habr

Жду с нетерпением статьи про то, как с этими задачами справится четвёрка под капотом. Сам пробовал autogpt на версии модели 3.5 (доступа к апи четвёртой версии пока нет) для написания обзора по публикациям на определённую тему. И так и эдак формулировал задачу, контролировал процесс, подсказывал - тщетно.

Look

Гипотеза Коллатца. Взгляд со стороны двоичной системы счислений

VPryadchenko May 13 2023 at 17:21

Спасибо за статью. В тексте упоминается небезызвестный проект «Collatz Conjecture». Я вот, честно говоря, с наскоку на Хабре про него отдельной статьи не нашёл. Может быть кто-то в курсе и поделится ссылкой. А если таковой нет, то, кажется, это большое упущение. Очень интересно знать, как он работает как там все оптимизировано (простор для оптимизаций, кажется, большой). Не исключено, что развитие рассуждений, приведённых в статье, может помочь ускорить процесс поиска циклов.

Look

Как я перестал беспокоиться и полюбил абсолютную активацию

VPryadchenko May 3 2023 at 12:59

Вопрос снижения размерности пространства параметров, как и в вашем случае.

Look

О спинорах человеческим языком

VPryadchenko May 3 2023 at 06:52

Спасибо, интересное полуночное чтиво)
Не очень понял момент с коммутирование проекторов:

Однако, в силу того что любая степень проектора равняется ему самому, такая перестановка просто дублилует p, всегда оставляя справа его копию:

Можете, пожалуйста, пояснить?

Look

Как я перестал беспокоиться и полюбил абсолютную активацию

VPryadchenko May 3 2023 at 06:43

Это, безусловно, полезное свойство shortcut connections, и изначально они использовались для решения проблемы затухания градиента лет эдак за двадцать до появления ResNet архитектур. Но именно ResNet архитектуры адресуют проблему деградации точности. Поэтому, если Вы хотите сослаться на shortcut connections как способ побороть затухание градиентов - то это другая ссылка и не упоминание ResNet блока :)

Look

Как я перестал беспокоиться и полюбил абсолютную активацию

VPryadchenko May 3 2023 at 06:39

Для флага Японии, кстати говоря, достаточно одного нейрона с квадратичной функцией активации. Она, конечно же, не подходит для глубоких сетей в силу того, что производная может быть сколь угодно большой, но на практике ее можно применять для головы. В отличие от линейных функций, в т.ч. abs, квадратичная функция позволяет аппроксимировать разделяющее многообразие гиперповерхностями второго порядка, что может быть полезно, например, для локализации кластеров точек в эмбеддинг-пространстве ("натянуть" эллипсоид на гаусово многомерное распределение). Можно подумать и над вариантами функции для использования в промежуточных слоях. Как вариант, гибрид квадрата и модуля так, чтобы ограничить производную единицей.

Look

Как я перестал беспокоиться и полюбил абсолютную активацию

VPryadchenko May 3 2023 at 06:19

Называется это взрывом и затуханием градиента соответственно, и очень мешает тренировать сети глубиной более 10-11 слоев. Именно для обхода этой проблемы придумывают разные функции активации и Residual - блоки в современных нейронных сетях.

А вот с этим утверждением следует быть осторожнее. Вы, судя по ссылке, имеете ввиду блоки ReesNet архитектуры. Они были использованы не для обхода проблемы взрыва/затухания градиента. См. введение оригинальной статьи:

Driven by the significance of depth, a question arises: Is learning better networks as easy as stacking more layers? An obstacle to answering this question was the notorious problem of vanishing/exploding gradients [1, 9], which hamper convergence from the beginning. This problem, however, has been largely addressed by normalized initialization [23, 9, 37, 13] and intermediate normalization layers [16], which enable networks with tens of layers to start converging for stochastic gradient descent (SGD) with backpropagation [22].

Ключевой момент: has been largely addressed by normalized initialization. Resnet блоками же решают проблему деградации точности.

Look

Минобороны опубликовало проект изменений в положение о призыве в связи с принятием закона о цифровизации воинского учёта

VPryadchenko Apr 30 2023 at 08:03

Бывает, ждёшь доставку, а в этот момент хрен пойми кто приходит.

+18

Look

Тестируем нейросети для генерации изображений

VPryadchenko Apr 24 2023 at 21:12

А версия модели какая?

Look

Релиз Invoke AI 2.0 — интерфейса и инструментария для Stable Diffusion (win/linux/mac)

VPryadchenko Apr 24 2023 at 20:33

Как насчёт докера?

Look

Осваивают ли LLM модели мира, или лишь поверхностную статистику?

VPryadchenko Apr 20 2023 at 08:38

Именно, что не работала. Следовательно, не было никаких причин аппроксимировать плотность невозможных состояний чем-то, отличным от нуля.

Look

Осваивают ли LLM модели мира, или лишь поверхностную статистику?

VPryadchenko Apr 19 2023 at 04:59

Согласен. История ходов по сути не важна, достаточно знать оптимальный ход для текущего состояния, действительно, получается сравнительно немного вариантов.

Look

Осваивают ли LLM модели мира, или лишь поверхностную статистику?

VPryadchenko Apr 18 2023 at 16:31

Но модель моделирует не состояния, а переходы между ними - а это более мощное множество, чем множество состояний.

Look

Осваивают ли LLM модели мира, или лишь поверхностную статистику?

VPryadchenko Apr 17 2023 at 20:57

Спасибо за перевод. Поместите пожалуйста, схемы на белый фон, вместо прозрачного. При их открытии на телефоне они накладываются на текст статьи и становятся нечитабельны.

Look

Удивительные кубы Хинтона, которые позволяют каждому увидеть четырехмерный мир

VPryadchenko Apr 9 2023 at 19:06

Это гипер-грань, которая находится сзади. Вы когда куб на плоскости изображаете, тоже рисуете "квадрат внутри" - аналогичная штука.

Look

1 2 ...

7 8

10 11 ...

22 23