Информация
- В рейтинге
- Не участвует
- Зарегистрирован
- Активность
Специализация
Разработчик игр, Архитектор программного обеспечения
Ведущий
C#
ООП
ASP.NET
Microsoft SQL
Разработка игр
C++
Программирование микроконтроллеров
Разработка программного обеспечения
WPF
Unity3d
а такие бывают? Без функции активации не бывает "нейронов"
и чем же это отличается? Вам кажется, что кошка, которую вы привели станет более круглой?
Я долго вам не отвечал, я на самом деле так и не понял, что вы хотите сказать. По серьезнее можно?
Это не требует доказательства, это известно. Первая же ссылка в статье
Не очень понятно из контекста, о чем вы спрашиваете. Простой перцептрон таких состояний не имеет, это больше признак рекуррентных сетей. Настоящие нейроны? Они конечно, на порядок сложнее и да у них есть нечто аналогичное, только еще сложнее. У них есть т.н. рефрактерный период, который позволяет им хранить информацию какое время они не активировались.У меня две связанные с этим статьи, которые показывают как это свойство можно моделировать, и что оно очень важно. Если вам интересно напишите в личку, выложу текст этих статей.
Думаю в нашем случае, мы друг друга плохо понимаем. В отличии от моих других оппонентов выше. Вы описываете очень тяжело для понимания, как я понимаю некоторую свою теорию. И к иерархиям, о которых говорят выше любители аппроксимации она не относится, надо полагать.
Я совсем не говорю, что с LLM ушли куда то не туда. Они все же сделали научный прорыв. Но при этом это закрытая область и я перечисляю 4 для этого причины.
При этом, нет никаких видимых препятствий, чтобы нельзя было заменить MLP + backprop на перцептрон и существенно ускорить вычисления. Вот, что я говорю.
Ваши соображения, скорее где-то параллельны с моими, просто вы используете другую терминологию и соответственно подходы.
Наверно, выше вы не заметили, поэтому повторю свой вопрос: вы математик или программист, или то и другое? Как вы делали свои эксперименты, у вас есть код для LLM?
P.S. я нахожусь в Европе, и ссылки которые вы даете на яндекс у меня не открываются.
т.е. теперь мы говорим исключительно о механизме внимания, который по вашему принципиально отличается от рекуррентности классических RNN ? А слои по которым бегает бэкпроп тут не причем, следовательно?
С другой стороны, раз вы говорите о марковских цепях, это означает, что вы говорите о системе "без истории", т.е. ваши выводы не могут относится не к рекуррентным сетям, например, к простому MLP+backprop? И даже больше, любая не рекуррентная сеть, не совсем понимаю что это значит, но то что вы называете "Система нашла выход из этого, через разрывы марковской цепи" не сможет этого сделать.
Уж точно не худшую, чем у бэкпропа. А история да, очень поучительная, особенно в той части, как много людей не читают оригиналы. Автору статьи, большое спасибо, за точную и выверенную информацию, а не распространение мифов, как повально делают (увы, в том числе, тут же на хабре)
Давайте я тогда спрошу проще, вы в курсе, что в LLM токены (там нет понятия букв) появляются одна за другой, через рекуррентный шаг, сколько токенов, столько рекуррентных шагов и делает LLM?
У меня возник вопрос, вы математик или программист, или то и другое? В ваших рассуждениях есть важные слова про энтропию, но пока ничего о ИНС. Как вы делали свои эксперименты, у вас есть код для LLM?
Вы не правы дважды. Перцептрон не то, что может описывать иерархии, ему достаточно для этого одного слоя. Так же перцептрон имеет архитектуры и с большим числом слоев, только они ему как собаке пятая нога, но возможность есть, для тех кто не понимает для чего слои у ИНС. Во-вторых, в данном случае, вы говорите не об иерархиях, а о рекуррентности ИНС, ваше d это число рекуррентных шагов . Впрочем, думаю, все же скоро опубликую вторую статью, что более точно расставить акценты, поэтому следите как говорится за обновлениями, убирать незнание с каждым отдельно - затратно по времени.
Так Вы и подкрепляйте, когда говорите глупости о перцептроне )) То что вы привели какие то графики - они вообще не понятны, о чем они и что доказывают не ясно совершенно.
Совершенно не понятно откуда вы это взяли.
Вы в курсе, что перцептрон это не дерево с иерархическими связями? Перцептрон это система уравнений, неравенств если точнее. Вас совсем не смущает, что вы смешиваете совсем разные математические понятия?
Да ладно, оставьте вы перцептрон в покое, вы о нем ничего не знаете. Вы покажите как интерпретировать в простом MLP работу backpropagation. Откуда у вас взялись иерархические деревья в системе уравнений?
Вы понимаете, что система уравнений имеет большую вычислительную мощность, чем все ваши иерархии, которые вы придумываете из-за своего антропного фактора мат. аппарату, который совсем не про это.
Могу даже уточнить
Из оригинала, книги Розенблатта "Перцептроны", раздел 10.3, и следующий 10.4. , Перцептроны с нелинейными передающими функциями
Видимо вы боретесь с ветряными мельницами - никакой экспоненциальной проблемы в перцептронах нет и никогда не было, в отличии от поделок для аппроксимации. Да, и нелинейность - это не ответ на несуществующий вызов. Поэтому это дискуссия дважды пустая ..
Видимо не дальше аннотации? Иначе бы увидели, что 1000 A элементов ничем принципиально не отличается от 500 000 A элементов.
Неверно, что? Вы или говорите или молчите, отгадывать ваши ребусы у меня нет времени. работа от Poggio именно этот тезис и обосновывает, если вы этого не понимаете прочитайте еще раз, или скажите на чем еще вы акцентируете свое внимание в этой статье, что это перестаете видеть
Из оригинала, книги Розенблатта "Перцептроны"
Благодаря Вашей ссылке, этот вопрос частично снят. И мне теперь нужно изменить формулировку на "делались попытки это показать" (если дойдет дело в Introduction я эту статью в своей статье так и упомяну). Ответ же в статье именно такой же, но якобы строже. Но авторы заблуждаются. Учитывая, что я не математик, а статья исключительно математическая, я пролистал мат. часть ... но честно говоря мне этого и не нужно, они строят отдельно математическую теорию оторванную от практики и говорят "Finally, we make some concluding remarks in Section 6, pointing out a quantitative measurement for three notions of sparsity which we feel may be underlying the superior performance
of deep networks."
т.е. они предложили теорию, и она может объяснять, а может не объяснять. Реальный пример, который демонстрировал бы их математические выкладки - они не представили.
Поэтому я с уверенностью, могу их послать бороться и опровергать других математиков, которые работали с Розенблаттом, которые тоже математически доказывали, что использование нелинейной функции активации не дает ничего особенного.
Что же касается сути - в чем они заблуждаются - тут нужно много букв. Это нужно объяснять не в комментариях, и нужно подумать как, т.к. такие детали вряд ли будут интересны "жителям хабра". Но если вкратце заблуждение в том, что они не знают как правильно интерпретировать работы сети, и что нейронные сети совсем не подчиняются правилам деревьев, на основе которых они строят свою теорию. Бинарные деревья любой вложенности возникают в одном слое, и для этого совсем не нужны несколько слоев.
Единственно, вопрос в инвариантности - это интересно, но так как другое смазано не верным посылом, эффект распыляется ... нужно подумать, где там есть рациональное зерно.
Но в целом вот этот посыл "Проклятие размерности", на который вы видимо пытались все время указать - ведет к заблуждениям, это фиктивная проблема.
Спасибо. Я предпочитаю читать с конца )), дайте мне недельку - две :)
Уже похоже на аргумент, поэтому уточните, что именно за работа Poggio. И какую тогда задачу, для которой может быть эффект "экспоненциально сложнее" вы или как я понял, с ваших слов, вы ссылаясь на Poggio имеете введу?
Я же тоже не исключительно MNIST имею введу, или для вас задача четности, о которой тут шла речь, тоже частный случай? Если так, то назовите эту задачу, она классическая? Имеется введу задача на которой хорошо видно, что бэкпроп экспоненциально лучше перцептрона Розенблатта? Пойдем от обратного теперь, хоть одну? (только не нужно ссылок на Минского :) - бэкпроп ничего не сделал лучше по отношению к критике Минского, который конечно же был во всем прав - поэтому мы можем лишь обсуждать лишь сравнимые вещи, скажем так в области возможного, что оставил нам Минский)
Они противоречат фактам, которые мне известны, но раз мы наконец то перестали утверждать о всеобщности (с обоих сторон, как я теперь полагаю?), то найти область применения одного и другого (без вот таких вот выпадов, что бэкпро это некст левел, экспоненциально лучше всегда и т.п.) уже похоже на конструктив и я готов продолжать такого рода дискуссию.
Конечно, нет. Потому что один глас в пустыне не слышен, да и он не уровня Исуса )
С работами выше я ознакомлюсь, не скажу, что быстро, но посмотрю. Но сразу могу ответить на это
Это не соответствует фактам. Про экспоненциально лучше это просто глупость, если вам не нравится мое авторство (да, в отличии от вашего признания, я пишу научные статьи), то могу сослаться и на других:
Kussul E., Baidyk T., Kasatkina L., Lukovich V. Перцептроны Розенблатта для распознавания рукописных цифр
Дальше зависит от задач, где то чуть-чуть лучше, где то чуть-чуть хуже, но всегда существенно быстрее, естественно, для перцептрона. И с kuza2000 началось конструктивное обсуждение в личке и мы это в очередной раз проверяем. Но т.к. для kuza2000 неизвестна другая сторона - перцептрон, нужно время. (да, наоборот, опыта с бэкпропом у меня меньше, т.к. он теоретически не перспективен, и я на нем поставил крест (научными работами) еще во время магистратуры). Поэтому да, спустя 20 лет я уверен в том, что говорю. И ничего, не изменилось бы, если бы не LLM. Но как и написал тут в статье на хабре, а она имеет статус "мнение", если бы не массовые фейк ньюс о LLM (это послужило даже поводом, дать нобелевку за бэкпроп), то это не стоило бы моего внимания. Но тем не менее допускаю, что какие то тонкости с бэкпропом не знаю.
Вы уж выберите или не заметили, или нет аргументов. Потому что ровно в этой фразе я их и спрашиваю. Ну и потом вы вроде претендуете на научный диалог, а там ничего кроме аргументов и быть не может, поэтому "спрашивать аргументов" - это нонсенс, они или у вас есть или нет? Видимо, все же нет. Мне было на секунду, показалось, что вы сможете родить мышь, но нет даже этого.
Пожалуй я так и сделаю. Хорошо, что признались в намеренном позерстве.
Так может быть вместо того, чтобы строить свои догадки обо мне и том как я якобы отношусь к исследователям (хотя я нигде про это не написал, а вы сделали выводы на голом месте; к исследователям у меня претензий нет, т.к. они в отличии от тех о которых я писал в статье, таких глупостей про перцептрон не пишут, разве что один - Ф. Уосермен) - лучше привести те аргументы, которые вы знаете? И заметить другие мои слова в статье и прочитать их буквально, а не придумывать за меня?
"И если бы кто-то спросил, в чём [фундаментальные] проблемы нейросети с одним слоем, я был бы рад ответить "
Пока не вижу вашего желания, вижу лишь то, что Вы начали с позерства.
И нет о сверточных сетях я не знаю, было бы интересно узнать, что именно вы имеете введу. Вы или оппонируйте, приводя аргументы, или не позёрствуйте, пока выглядит совсем наоборот, что вы цепляетесь за какие то поверхностные представления. А то что вы считаете якобы строгим, на проверку оказывается простым балабольством? Может говоря о сверточных сетях вы имеете введу ровно то ,что я и написал: "каждый следующий слой дает иерархическое выделение признаков"? Ну тогда внимательнее читайте и если отвечаете, то по сути.
P.S. И да - это вопли, перестаньте вопить.