Pull to refresh
5
0
Send message

Что будет с ненатянутым тросом висящем вертикально в воде? Он начнёт собираться складками и извиваться из-за изменяющихся точек приложения архимедовой силы?

Если мы условно рассечем его на тонкие блины

Не учитываете давление внутри троса. Давление в нижнем блине будет больше, так как он находится на большей глубине и должен находиться в равновесии с большим давлением воды. Из-за этого возникает действующая вертикально сила на верхней и нижней поверхностях "блина".

Нет, не возникает.

Приложите силу направленную вертикально вверх к нижнему концу вертикального троса. Что произойдёт?

Вот именно. Давление воды на вертикальную границу троса горизонтально, как оно может вытолкнуть?

Хех. То есть вся выталкивающая сила для вертикального троса будет приложена к его нижнему торцу? Не возникают сомнения?

Если мы разобьём трос на элементы, то давление (не в смысле сила/площадь, а скалярное значение давления сплошной среды) внутри троса будет выше для элементов лежащих ниже. Разница этих давлений создаёт выталкивающую силу действующую на каждый элемент троса.

200 км - это если он просто висит. Если попытаться по нему что-то поднять, то уже порвётся. Так что для полезного применения числа нужно урезать.

Подозреваю, что из-за трения о воду, которое сильно добавит нагрузку при вытаскивании троса.

https://ru.wikipedia.org/wiki/Удельная_прочность Тут есть табличка с длиной разрыва под собственным весом. Для алюминия - 20км, для кевлара - 200км.

Они используют в качестве запросов только 10 разных вопросов. А GPT не имеет состояния кроме входного буфера, то есть все получаемые ими шутки стартуют только с 10 разных состояний GPT и разнообразие ответов определяется случайностью при выборе предложенных сетью токенов.

Для более разнообразных начальных состояний сети, разнообразие результатов будет больше. Что и случилось.

Для человека аналогия того, что они делают будет примерно такой: тюк киянкой по голове, чтобы вызвать небольшую ретроградную амнезию, задаём вопрос "Скажи шутку", тюк, "Скажи шутку", и так далее.

некоторые горячие головы

Интересно, что в числе таких "горячих голов" встречаются люди вроде Скотта Ааронсона: он занимается теорией квантовых вычислений и вычислительной сложности. Сейчас работает в OpenAI над некоторыми способами увеличения безопасности применения ИИ, то есть прекрасно представляет, что GPT - это перемножение матриц и нелинейные преобразования. Но это не мешает ему удивляться первому в истории человечества артефакту, способному вести вполне осмысленный диалог на множество тем.

Для небольших машин Тьюринга (2 символа, число состояний меньше 5) проблема останова разрешима, так как известно значение BB (busy beaver: максимальное число шагов, которая машина может сделать до остановки). Если программа работает большее число шагов, значит она никогда не остановится.

Но - да, с практической точки зрения толку от этого нет, так как BB(n) (где n - число состояний машины) растёт быстрее любой функции вычислимой на машине Тьюринга. Начало последовательности BB(n): 4, 6, 13, ≥4098, >10↑↑15, а что дальше - неизвестно.

Последнее значение записано в стрелочной нотации Кнута и обозначает 10^10^10^10^10^10^10^10^10^10^10^10^10^10^10.

Впрочем, при супероптимизации с той же практической точки зрения можно отбрасывать программы выполняющиеся дольше какого-то времени или использующие большее количество памяти, чем нужно.

Еще раз - мт НЕ ТРЕБУЕТ бесконечной ленты. Да, в определении лента бесконечная - но это так говорится просто для удобства и отсутствие бесконечной ленты ни как не влияет на выразительную силу системы,

"НЕ ТРЕБУЕТ бесконечной ленты" == "Максимальная длина ленты ограничена", я правильно понимаю? Потому что потенциальная бесконечность - это, по определению, способность превзойти любое наперёд заданное число. Или это про актуальную бесконечность? В любом случае в нашем физическом мире ни то ни это нереализуемо.

Так, сфокусируемся на этом. Приведите пример задачи, которую может решить МТ с лентой, которую можно наращивать только ограниченно, и не может решить конечный автомат с количеством состояний соответствующем максимальной длине ленты МТ.

Надо ли говорить какие были результаты теста?

Ага, поэтому психометрические тесты должны проводится подготовленным психологом, который не только даёт бумажку, но и оценивает состояние тестируемого и мотивирует его. Собственно так и написано в условиях проведения WAIS, например.

Если вы ленту нужного размера подклеете - то компьютер сможет это сделать.

К абстрактной МТ подклеивать ленту не нужно (она там и так бесконечная). К кремниевому чипу никто "приклеивать ленту" не будет. Возьмут другой чип, с нужным объемом памяти. Это никак не делает первый чип Тьюринг-полным. Абстрактная модель вычислений: машина Тьюринга, не отображается без искажений на реальность. Именно поэтому она абстрактная, а не стоит в парижской палате мер и весов.

Казалось очевидным, что во фразе "бесконечно проще" под "бесконечно" подразумевается просто бесконечность на ЕЯ

Что такое "просто бесконечность на ЕЯ"? На очень много? RWKV не демонстрирует ни очень ни много по сравнению с трансформерами.

То, что вы рассказываете о принципиальной разнице в вычислительных возможностях верно в пределе стремящемся к бесконечности. Мы-же, сюрприз, имеем дело с конечными последовательностями. Здесь имеет значение вычислительная сложность, а не принципиальная вычислимость.

но мы можем заменить коэффициенты рациональными и тогда "память" сети станет бесконечной, а сеть - тьюринг-полной.

Что значит "можем"? Можем рассмотреть абстрактную модель LSTM с рациональными коэффициентами? Да, можем рассмотреть. Можем сделать реализацию LSTM сети с BigInt в качестве коэффициентов? Да, можем. Получить от этого "бесконечное преимущество" LSTM сетей? Нет, не сможем (иначе бы уже сделали). Сложность расчётов будет расти быстрее чем польза от дополнительной памяти.

как вообще сформулировать данную проблему.

В смысле "Как обеспечить тренировку сети с (практически) неограниченной внешней памятью?" Вполне возможно, что сеть соответствующей структуры сама разберётся как использовать эту память. Как GPT-4 использует внешние тулзы для выполнения поиска по интернету, математических подсчетов и т.п, после небольшого дополнительного обучения (или без него, но менее стабильно).

При этом ограничения принципиальны - и ни какое дальнейшее развитие автомобиля их устранить не сможет и проходимости робота автомобиль ни когда даже близко не достигнет.

Автомобиль с колёсами диаметром, ну скажем, десять километров легко пройдёт везде. Но практическая реализация такого автомобиля...

С тем же успехом можно предполагать что к тому моменту еще откроют телепортацию, антигравитацию и много чего другого фантастического.

То есть мозги у нас работают на непостижимой магии? Или как это понимать?

Что именно компьютеру не дает быть идеальной мт (ну если принять, что компьютер работает корректно и без сбоев, конечно)?

То что не даёт компьютеру распарсить грамматику a(n раз)b(n раз) при n=10^100^100 (ну или любое другое конечное число превосходящее число состояний реализуемых в нашей вселенной): физические ограничения.

Верно. И, чтобы реализовать такой автомат, вам необходима тьюринг-полнота (ну, если быть более точным - зависит от задачи, но в общем для любой вычислимой ф-и нужна).

Тьюринг полнота чего? Компьютер со 128 битами, который мы моделируем конечным автоматом очевидно не Тьюринг-полный (если не очевидно, рассмотрите компьютер с двумя битами: один для программы, другой для данных). Компьютер с полностью забитой оперативкой и дисковой подсистемой тоже не Тьюринг-полный. Попробуйте рассчитать на нём точное значение какой-нибудь быстро растущей функции вроде стрелочных обозначений Кнута (которая вполне себе Тьюринг-вычислима) для нетривиальных значений аргументов.

бесконечно проще лстм сетей

Нет в нашем физическом мире бесконечностей. Опять путаете абстрактные модели вычислений и их реализацию. Лстм сети благополучно забывают то, что не помещается в их память. А их память ограничена так как они работают не с действительными числами, а с их приближениями.

Сети типа GPT очевидно ограничены в возможностях, но это не принципиальные ограничения, а практические ограничения (сеть эквивалентная мозгу может быть физически нереализуемой). А насчёт того, что 20 лет не могли прицепить память, а значит ещё 20 лет не смогут - посмотрим. По моим оценкам это произойдёт в ближайшие 5 лет (я имею в виду полноценно прицепить, чтобы она участвовала в обучении, векторные базы данных уже цепляют, как я и говорил).

Вас, видимо, смущает "бесконечная лента" в определении

Меня она не смущает. Я просто не смешиваю абстрактные понятия и физические реализации.

С точки зрения вычислительных свойств МТ этого не требуется - ну в конце концов, иначе бы ваш компьютер просто не работал

Вы это серьёзно? Программы для компьютеров работают потому, что написаны так, чтобы не выходить за пределы соответствия между абстрактной МТ и физическим компьютером (то есть не переполнять память). А не потому, что компьютер - это идеальная реализация МТ.

а вот размер КА (или нейронной сети) зависит экспоненциально

Опять путаете абстракцию и физическую реализацию. Реализация КА не обязана иметь по одному физическому элементу на состояние. Система из 128 бит и обвязки может реализовать конечный автомат с 2^128 состояниями (если правила для этих состояний имеют регулярную структуру, что и случится, если этот КА эквивалент программы).

Спасибо, я похоже разобрался как получились ваши выводы.

С-но если мы можем синтезировать такие программы, то мы можем и вычислять любые вычислимые функции. Чего КА не может.

Синтез программы (не обязательно корректной) - это написание одного текста (программы) на основе другого текста ((не)формального описания задачи), а не выполнение функций программы. Если у нас есть описание задачи в виде конструктивного доказательства существования решения, то генерация соответствующей программы будет механической благодаря соответствию Карри — Ховарда, а значит реализуемой на конечном автомате (естественно для программ ограниченной длины). Принципиальная разница между конечным автоматом и машиной Тьюрига проявляется только для входных данных, которые могут превзойти по длине любое наперёд заданное число, то есть для потенциально бесконечных входных данных. То есть для физически нереализуемых ситуаций.

Классический пример: распознавание языка a(n раз)b(n раз): ab, aabb, aaabbb, и так далее. Физически, последовательности длиной 10^100^100 символов мы не сможем обработать ни на чём, но теоретически можем обработать на машине Тьюринга и конечном автомате соответствующего размера (который сломается на последовательности большей длины).

Именно поэтому в реальности мы пользуемся именно мт (нашими компьютерами)

В реальности нет бесконечностей, а значит и нет машины Тьюринга. Есть компьютеры с ограниченным объемом памяти, которые функционально эквиваленты конечным автоматам.

Есть алгоритмы, для которых рост должен быть экспоненциален. [...] Это при идеалньой кодировке - т.е. речь просто о существовании такой сети.

Это в полной мере относится и к людям. Люди не могут мысленно выполнить алгоритм требующий терабайта для промежуточных данных. Но это не мешает им писать такие алгоритмы и рассуждать об их поведении.

А какой смысл говорить сетях, использующих внешнюю память?

Потому что большие языковые модели уже используются для управления роботами и внешняя среда вполне может служить такой памятью.

рекуррентные сети являются теми же КА.

Об этом уже говорили, цитирую: "то что сетку можно сделать т-полной подключив память это вещь очевидная и всем понятная, но как это сделать - думают еще годов с 80-х. Прогресс примерно нулевой пока."

Я забыл сказать, что комбинации векторных баз данных с нейросетями уже вовсю используют.

Мы по кругу ходим, нет?

Наверно. Я не могу понять откуда взялась информация, что размера конечного автомата GPT недостаточно для синтеза программ (естественно не любых). А вы это не объясняете.

И чтобы повышать точность аппроксимации [...] надо наращивать размер автомата [...]. А мт - не надо.

Дык. Потому что МТ - это абстракция с бесконечной лентой и физически она не существует.

А то, что для сложения чисел из ограниченного диапазона нужна какая-то огромная точность, из-за которой размер сети должен экспоненциально расти, - это неверно. Достаточно того, чтобы правильный токен имел максимальную активацию, значительно отличающуюся от следующего кандидата.

Сложение чисел произвольной длины для нерекуррентных сетей, не взаимодействующих с внешним миром (чтобы использовать его как внешнюю память), конечно невозможно. Тут я согласен.

фидфорвард сеть - это конечный автомат

И? Все физически реализуемые компьютеры - это конечные автоматы. Мозг, в принципе, - это тоже конечный автомат (с астрономически большим числом возможных физических состояний).

Разница только в удобстве рассмотрения с той или иной точки зрения. Для всех практических задач компьютер можно рассматривать как машину Тьюринга. А почему сеть с сотней миллиардов параметров и 65536^100000000 состояний (для half-float представления активаций) нужно рассматривать как конечный автомат, а не, скажем, универсальный аппроксиматор?

В примерах по ссылке максимальное число - 100

Да, эксперимент со сложением пятизначных чисел в статью не вошёл. Не обратил на это внимание.

А вот если вы захотите, чтобы ответ был абсолютно точным - то вам придется сделать достаточно большой скрытый слой. Как раз размером с 10^5*10^5)

Как вы получили этот вывод? В статье ясно показывается, что сеть не запоминает все входные данные. А для получения достаточной точности сложения с помощью преобразования Фурье нужно намного меньше весов.

Ну и математически это невозможно - потому и не пронаблюдает

Это какая-же теорема такое утверждает?

Information

Rating
Does not participate
Registered
Activity