Жду с нетерпением статьи про то, как с этими задачами справится четвёрка под капотом. Сам пробовал autogpt на версии модели 3.5 (доступа к апи четвёртой версии пока нет) для написания обзора по публикациям на определённую тему. И так и эдак формулировал задачу, контролировал процесс, подсказывал - тщетно.
Спасибо за статью. В тексте упоминается небезызвестный проект «Collatz Conjecture». Я вот, честно говоря, с наскоку на Хабре про него отдельной статьи не нашёл. Может быть кто-то в курсе и поделится ссылкой. А если таковой нет, то, кажется, это большое упущение. Очень интересно знать, как он работает как там все оптимизировано (простор для оптимизаций, кажется, большой). Не исключено, что развитие рассуждений, приведённых в статье, может помочь ускорить процесс поиска циклов.
Это, безусловно, полезное свойство shortcut connections, и изначально они использовались для решения проблемы затухания градиента лет эдак за двадцать до появления ResNet архитектур. Но именно ResNet архитектуры адресуют проблему деградации точности. Поэтому, если Вы хотите сослаться на shortcut connections как способ побороть затухание градиентов - то это другая ссылка и не упоминание ResNet блока :)
Для флага Японии, кстати говоря, достаточно одного нейрона с квадратичной функцией активации. Она, конечно же, не подходит для глубоких сетей в силу того, что производная может быть сколь угодно большой, но на практике ее можно применять для головы. В отличие от линейных функций, в т.ч. abs, квадратичная функция позволяет аппроксимировать разделяющее многообразие гиперповерхностями второго порядка, что может быть полезно, например, для локализации кластеров точек в эмбеддинг-пространстве ("натянуть" эллипсоид на гаусово многомерное распределение). Можно подумать и над вариантами функции для использования в промежуточных слоях. Как вариант, гибрид квадрата и модуля так, чтобы ограничить производную единицей.
Называется это взрывом и затуханием градиента соответственно, и очень мешает тренировать сети глубиной более 10-11 слоев. Именно для обхода этой проблемы придумывают разные функции активации и Residual - блоки в современных нейронных сетях.
А вот с этим утверждением следует быть осторожнее. Вы, судя по ссылке, имеете ввиду блоки ReesNet архитектуры. Они были использованы не для обхода проблемы взрыва/затухания градиента. См. введение оригинальной статьи:
Driven by the significance of depth, a question arises: Is learning better networks as easy as stacking more layers? An obstacle to answering this question was the notorious problem of vanishing/exploding gradients [1, 9], which hamper convergence from the beginning. This problem, however, has been largely addressed by normalized initialization [23, 9, 37, 13] and intermediate normalization layers [16], which enable networks with tens of layers to start converging for stochastic gradient descent (SGD) with backpropagation [22].
Ключевой момент: has been largely addressed by normalized initialization. Resnet блоками же решают проблему деградации точности.
Согласен. История ходов по сути не важна, достаточно знать оптимальный ход для текущего состояния, действительно, получается сравнительно немного вариантов.
Спасибо за перевод. Поместите пожалуйста, схемы на белый фон, вместо прозрачного. При их открытии на телефоне они накладываются на текст статьи и становятся нечитабельны.
В качестве mvp зайдёт, дальше, наверное, если будет спрос, можно будет переписать, обернув opencv без прослойки в виде cv2
Пардон, перевод же
А пробовали с 3.5? Совсем провал?
Талончик-то выдали по итогу или все ещё в ожидании?
Первая задача: опиши граф для решения задачи. :)
Жду с нетерпением статьи про то, как с этими задачами справится четвёрка под капотом. Сам пробовал autogpt на версии модели 3.5 (доступа к апи четвёртой версии пока нет) для написания обзора по публикациям на определённую тему. И так и эдак формулировал задачу, контролировал процесс, подсказывал - тщетно.
Спасибо за статью. В тексте упоминается небезызвестный проект «Collatz Conjecture». Я вот, честно говоря, с наскоку на Хабре про него отдельной статьи не нашёл. Может быть кто-то в курсе и поделится ссылкой. А если таковой нет, то, кажется, это большое упущение. Очень интересно знать, как он работает как там все оптимизировано (простор для оптимизаций, кажется, большой). Не исключено, что развитие рассуждений, приведённых в статье, может помочь ускорить процесс поиска циклов.
Вопрос снижения размерности пространства параметров, как и в вашем случае.
Спасибо, интересное полуночное чтиво)
Не очень понял момент с коммутирование проекторов:
Можете, пожалуйста, пояснить?
Это, безусловно, полезное свойство shortcut connections, и изначально они использовались для решения проблемы затухания градиента лет эдак за двадцать до появления ResNet архитектур. Но именно ResNet архитектуры адресуют проблему деградации точности. Поэтому, если Вы хотите сослаться на shortcut connections как способ побороть затухание градиентов - то это другая ссылка и не упоминание ResNet блока :)
Для флага Японии, кстати говоря, достаточно одного нейрона с квадратичной функцией активации. Она, конечно же, не подходит для глубоких сетей в силу того, что производная может быть сколь угодно большой, но на практике ее можно применять для головы. В отличие от линейных функций, в т.ч. abs, квадратичная функция позволяет аппроксимировать разделяющее многообразие гиперповерхностями второго порядка, что может быть полезно, например, для локализации кластеров точек в эмбеддинг-пространстве ("натянуть" эллипсоид на гаусово многомерное распределение). Можно подумать и над вариантами функции для использования в промежуточных слоях. Как вариант, гибрид квадрата и модуля так, чтобы ограничить производную единицей.
А вот с этим утверждением следует быть осторожнее. Вы, судя по ссылке, имеете ввиду блоки ReesNet архитектуры. Они были использованы не для обхода проблемы взрыва/затухания градиента. См. введение оригинальной статьи:
Ключевой момент: has been largely addressed by normalized initialization. Resnet блоками же решают проблему деградации точности.
Бывает, ждёшь доставку, а в этот момент хрен пойми кто приходит.
А версия модели какая?
Как насчёт докера?
Именно, что не работала. Следовательно, не было никаких причин аппроксимировать плотность невозможных состояний чем-то, отличным от нуля.
Согласен. История ходов по сути не важна, достаточно знать оптимальный ход для текущего состояния, действительно, получается сравнительно немного вариантов.
Но модель моделирует не состояния, а переходы между ними - а это более мощное множество, чем множество состояний.
Спасибо за перевод. Поместите пожалуйста, схемы на белый фон, вместо прозрачного. При их открытии на телефоне они накладываются на текст статьи и становятся нечитабельны.
Это гипер-грань, которая находится сзади. Вы когда куб на плоскости изображаете, тоже рисуете "квадрат внутри" - аналогичная штука.