Search
Write a publication
Pull to refresh

Comments 8

Может на фоне всех этих инвестиций в течении 10 лет будет какое-нибудь открытие аля трансформеров в 2017

Если бы нейронками занимались не только программисты, то не зацикливались бы на трансформерах.
Как по мне, OpenAI просто повезло. Так как в реальности ни Илья Суцкевер, ни видимо создатели трасформеров не понимают, что они сделали.
Я пытался найти, на что же они опирались. В статье "Внимание, все что нам нужно", видно что один из разработчиков Google просто решил, что достаточно оставить механизм самовнимания.
При этом даже не понимая, почему оказался прав.

Если рассматривать сетки, то каждый живой нейрон является странным аттрактором. Исходя из этого, абстракции его иерархии, тоже являются странными атракторами.
Трансмформеры - очень близко реализуют ряд свойств странного аттрактора.

  • самоподобие (это как раз и есть механизм самовнимания), хотя и на локальном уровне

  • сильная зависимость от начальных условий (при том же обучении)

  • фазовое пространство, так как модель при непрерывном обучении колеблется вокруг весом к которым сходиться.

  • влияние временных характеристик, были заменены на окна (что ограничило длину цепочки токенов).

Чего нет.

  • полноценных временных харатеристик. В этом плане к этому ближе SSM модели, которые показали недавно отличные результаты. Хотя и они лишь частично реализуют это.

  • хаотичных систем, так как флуктуация является важным элементом. Рандомная температура тут не подходит - так как это выбивает сходимость весов за пределы фазового пространства модели. А так же его отсутствие - является причиной того, что модель может оказаться в яме ломального миминимума.

  • нет иерархии самоподобия, через другие модели. Например, на более высоком уровне два полушария имеют схожий паттерн самовнимания. При этом лобная доля, играет важную роль в усилении или ослаблении связей (модулятор), чтобы маршрут нейронов нешл по более короткому или длинному пути. В этом плане трасформеры - это статика. Особоенно после заморозки модели, после ее обучения.

Это малая часть. Если разбирать больше, то там еще много всего.
Надеюсь, что квантовые компьютеры не забросят. Так как, именно они являются важной частью создания полноценны нейронных сеток, где в основе лежит не просто статический вес, а странный аттрактор. Где сами можно по как раз делать хаотичные системы с микро флуктуациями на уровне весов, что является важной частью фрактальных аттракторов.

Сейчас есть попытки сделать сетки на базе странных аттракторов, но это первые попытки обучить несколько нейронов для демо. И они явно очень прожорливые, так как симулирует работу странного аттрактора у нейрона, заменяя его на целую архитектуру.

А Суцкевер же прямо так и говорил в интервью, когда только-только трансформеры заработали. Что-то типа: "Мы до сих пор в шоке, что эта фигня может хоть как-то вменяемо работать на практике"

Так сам по себе аттрактор ничего не даст нейросети - это лишь просто одно из качеств сети, которое не обязательно может быть.

Структур сетей можно придумать неограниченное количество, и с хаосом и без. Это несложно. Проблема возникает тогда, когда нужно придумать эффективные алгоритмы обучения таких сетей - и доказать, что эти алгоритмы в принципе могут сеть хоть чему-то научить.

Следующая проблема - масштабировать сети. Можно сделать, например, полносвязную сеть, где каждый нейрон связан с каждым - это будет максимальный уровень эффективности, но мы не сможем построить в видимой вселенной сеть больше чем из двадцати нейронов.

Дальше вопрос производительности точно также встаёт. Отсюда все эти квантования, VAE и т.п. - иначе нужны были бы годы на генерацию одного ответа.

Так что даже в текущей архитектуре сети очень сильно есть куда развиваться.

Сам аттрактор уже многое дает для нейросети. Странный аттрактор - это фрактальный аттрактор, где как раз механизм внимания и является по сути фракталом.
Построение фазового пространства в данном случае, как раз позволяет понять эффективные механизмы обучения и улучшить сходимость. Об этом как раз была недавно статья, тут выкладывал ее перевод
https://t.me/c/1714947028/13149
Проблема не придумать с хаосом или без. Проблема понять, как правильно. И пока просто придумывают - это так и остается проблемой. Потому что именно понимание - является ключом к эффективности.
Не нужно каждый нейрон связан с каждым. У нас это не так - есть пирамидальные клетки, звездчатые и т.д. И они прекрасно справляются. Там роль играет совсем другое. И все это отлично переноситься, как раз при правильном описании фазового пространства и реализации странного аттрактора. Все верно - это свойства качества сети, которыми трансформеры обладают лишь частично.
Нет здесь развития - тупик тут. Надо менять подход. Я сейчас разбираю как раз аудио речи, разбив ее на паттерны как у людей так и у животных - там явно прослеживаются фракталы на уровне градиентов частот, и явно есть фазовое пространство (с точки зрения биологии человека ограниченное движением языка). И более высокий уровень иерархии - тоже должен быть странным аттрактором, что мы и наблюдаем у текстов. И архитектуры реализующие их. тоже должны соответствовать требованиям странных аттракторов.
https://t.me/c/1714947028/13176
Тут пример того, о чем я говорю в речи. Постепенно пытаюсь построить странный аттрактор русского языка и затем сначала сравнить его с другими языками людей и затем с животными (пробовал сместить у тех же ворон и дельфинов форманты и тон, чтобы он соответствовал человеку - совсем иначе звучит сразу на слух)
https://t.me/greenruff/1927
Поэтому я готов утверждать. что трансформеры сработали, потому что реализуют большинство важных свойств странных аттракторов при обучении.
Суцкевер не является автором трансформеров. он использовал их явно без понимания почему именно эти свойства важны.
Вы можете хоть в миллион раз масштабировать систему - это не даст толку. Потому что на верхнем уровне иерархии не будет паттерна самоподобия (внимания), которая в нашем случае реализуется через лобные доли (как модулятор нейронных путей - переключатель активностей связей на другие внимание и участки в неокортексе).

Проблема в том, что аттракторы являются следствием центральных предельных теорем, которые говорят, что сумма множества хаотичных событий всегда даст на выходе одинаковое простое распределение. Иначе говоря, аттракторы русского языка, китайского языка и языка дельфинов будут одинаковы. Но это вовсе не означает, что вы сможете расшифровать язык дельфинов через них - потому что структура распределения вероятности не позволяет восстановить сам поток событий. Про это и говорил Суцкевер, в частности. Мы можем загнать в нейросеть миллион картинок с котиками - но это не означает, что мы получим внутри сети какого-то мета-котика или что мы познаём котиков на глубинном уровне. Всё, что мы получим - это какой-то рандомный набор битов, которые сеть считает "котиком на 26.44%". И нет никаких гарантий, что мы сможем из этих битов что-то получить в обратную сторону. Но мы смогли. Но как именно - мы не знаем. Но именно поэтому нейросети и рисуют шесть пальцев - потому что они не знают, что такое пальцы, а лишь знают какие-то наборы паттернов, которые они сами для себя классифицировали как пальцы.

То же самое будет с языком дельфинов - на текущем уровне развития математики вы никак не сможете доказать, что нейросеть неправильно трактует язык дельфинов, сравнивая его через хаос с языком человека. Так что до аттракторов ещё слишком далеко, с текущим уровнем хаоса бы разобраться 😁

Сейчас бы заниматься языковыми моделями и называть их ИИ, а не это всё. А потом скормить 60 надуманных математических задачек и получить только 3/60 решённых.

В оригинале Блумберга

  • Нет официальных сообщений

  • Ссылки на некоторых анонимов в компаниях

  • Ссылка на мнение менеджера по этике

Sign up to leave a comment.

Other news