"Без карандаша и бумаги" значит без внешней памяти (включая монетку), то есть в тех-же условиях как и GPT. Ну и алгоритм с монеткой скажет, что скобки сбалансированы на такую строку ")))(((".
Хотя - да, поправить легко - следить, чтобы монетка не сдвигалась левее начального положения. Так что я пожалуй переоценил сложность задачи. Рабочей памяти тут нужно немного (но у GPT нет и её). Вот если разных видов скобок будет 5 и больше, то тут уже и у людей возникнут проблемы.
На вход подаётся одна из 10 миллиардов последовательностей (от 00000+00000 до 99999+99999). Сеть должна или запомнить все десять миллиардов значений a+b mod 10000 или создать компактное представление функции.
Вы видимо перепутали со всем множеством соответствующих ф-й,
Количество всех возможных функций из двух пятизначных чисел в пятизначное число вообще-то непредставимо большое: (10^10)^(10^5), так что перепутать сложно.
чтобы его "смоделировать", нужно минимум столько параметров, сколько памяти потребуется для выполнения данного алгоритма
Ага, поэтому даже люди поручают выполнение алгоритмов программам. Кстати, процитированное рассуждение относится к нерекуррентным сетям без внешней памяти (да, GPT - практически такая сеть). Для сетей с внешней памятью (например бумага и карандаш) достаточно хранить сам алгоритм.
Хех. "Только подогнать аппроксимацию" по всего-лишь триллиону точек в двухтысячемерном пространстве состоящем из 65536^2000 элементов, это как-то не звучит. Или исходная функция (то есть наши коллективные мозги со всеми их знаниями) не очень сложная, ну или "только подогнать аппроксимацию" это не так уж и просто (квадриллион или около того операций с плавающей точкой, которые для этого потребовались, на что-то намекают).
"Аппроксимация" в дискретном пространстве последовательностей токенов тоже выглядит как-то подозрительно.
где всё происходит так как будто неравенство Белла нарушается
Да, вместо неравенства Белла можно подставить что угодно, и супердетерминизм это "объяснит". Никаких механизмов, которые бы объяснили именно неравенства Белла пока неизвестно.
супердетерминизм - это нелокальная теория скрытых параметров
Нет, нелокальные скрытые параметры - это одно (сверхсветовые коммуникации "за сценой"), а супердетерминизм - другое (космический заговор, где всё происходит так как будто неравенство Белла нарушается, хотя на самом деле оно не нарушается).
Вот никак не пойму, каким образом вся эта имитация абстрактного мышления вытекает из языкового моделирования.
Да и никто не понимает. Существуют гипотезы пытающиеся объяснить почему (некоторые) сети с огромным числом параметров могут обобщать (generalize) входные данные, вместо того чтобы запоминать конкретные примеры (overfit), но общепринятого мнения на это счёт нет, насколько я знаю.
Ну и чем отличается (и отличается-ли) имитация абстрактного мышления от абстрактного мышления тоже никто точно не знает.
Обычно такие вещи называют "inductive bias", а не "логика работы". В случайно инициализированной сети какую-то логику можно найти только в сильно заточенных на предметную область сетях вроде свёрточных (которые не особо хорошо работают на тексте, в отличии от трансформеров, которые неплохо работают и с изображениями). Inductive bias-же означает в примерно каком направлении будет развиваться сеть при обучении. По-моему, говорить, что "оно не само", это примерно как говорить, что человек не сам нашёл магазин, если ему сказали, что он где-то в той стороне. Вроде-бы и правильно, но оттенок смысла какой-то не такой.
Угу, примерно как полносвязная сеть делает абсолютно то же что и GPT. То есть, если бы мы хоть каким-то физически выполнимым способом могли получить аналог GPT на n-граммах/полносвязных сетях, то оно бы делало то же самое.
Именно поэтому эффективны трансформеры - по сути всю логику сети задает именно человек
Не только трансформеры. В RWKV используется другая структура.
Нет там никаких "одновременно в двух состояниях". Точнее, это описание — упрощение для массового читателя, чтобы не разводить математику. Кубиты в квантовых компьютерах приготавливаются во вполне определённых квантовых состояниях, гейты детерминировано переводят эти состояния в другие квантовые состояния. Недетерминированность (то есть то, что пытаются описать словами "одновременно в двух состояниях") возникает при измерении состояния кубита или при его взаимодействии со средой. А квантовое превосходство возникает из-за того, что размер описания состояния системы из взаимодействующий кубитов растёт экспоненциально с увеличением числа кубитов. Так что на классических компьютерах это долго считать.
Смотрите: пропускаем фотон через линейный поляризатор расположенный под 45 градусов к горизонтали, если фотон прошёл через поляризатор, то он вроде как сколлапсирован и находится в состоянии поляризации 45 градусов. Теперь пропускаем его через поляризатор расположенный под 90 градусов… И, сюрприз, фотон у нас опять "одновременно в двух состояниях": может пройти через поляризатор, а может не пройти.
что элементарные частицы находятся во всех возможных состояниях (суперпозиции), пока мы на них не смотрим
Не находятся они "во всех возможных состояниях". Они находятся во вполне определённом квантовом состоянии, которое может быть описано как линейная комбинация измеримых состояний. Фотон, линейно поляризованный под углом 45 градусов, не находится одновременно в состоянии поляризации 0 градусов и 90 градусов (или 30 и 120, или 45 и 135), он поляризован под углом 45 градусов (но узнать это мы не можем, если сами этот фотон не создали в этом состоянии).
Последние результаты моделирования показывают, что если "поагонизировать" лет 5, то можно будет выходить и начинать пахать землю в мире с уполовиненым населением и огромными проблемами с технологической инфраструктурой.
Так некуда им "сгорать", они уже "сгоревшие" (c момента бариогенеза). Вся энергия, что могла излучиться, излучилась и теперь существует в виде реликтового излучения.
Точнее, если распад протона возможен и если получится найти его катализатор (возможно магнитный монополь), то — да, "сжигать" протоны получится.
Не стоит доверять онлайн IQ тестам (99,9 перцентиль - это около 150).
Скорость расширения пространства - это не та же самая скорость, что у движущихся предметов. У них даже размерности разные: 1/с и м/с.
"Без карандаша и бумаги" значит без внешней памяти (включая монетку), то есть в тех-же условиях как и GPT. Ну и алгоритм с монеткой скажет, что скобки сбалансированы на такую строку ")))(((".
Хотя - да, поправить легко - следить, чтобы монетка не сдвигалась левее начального положения. Так что я пожалуй переоценил сложность задачи. Рабочей памяти тут нужно немного (но у GPT нет и её). Вот если разных видов скобок будет 5 и больше, то тут уже и у людей возникнут проблемы.
А вы сможете? Скажем для последовательности из 8000 скобок с максимальной вложенностью 20. Без карандаша и бумаги, конечно.
Вопрос риторический: не сможете (за приемлемое время). Рабочей памяти не хватит.
На вход подаётся одна из 10 миллиардов последовательностей (от 00000+00000 до 99999+99999). Сеть должна или запомнить все десять миллиардов значений a+b mod 10000 или создать компактное представление функции.
Количество всех возможных функций из двух пятизначных чисел в пятизначное число вообще-то непредставимо большое: (10^10)^(10^5), так что перепутать сложно.
Цитирую: " В случае подгонки вы в итоге получается огромную хештаблицу с соответствующими требованиями к количеству коэффициентов.
В случае же найденной закономерности вы эффективно эти нереальные объемы данных сжимаете до вполне разумных размеров."
Сеть сжала 10 миллиардов последовательностей токенов (сложение с 5-ю знаками 10^5*10^5 возможных входов) в компактный алгоритм.
Байтовый свёрнутый шитый код.
Ага, поэтому даже люди поручают выполнение алгоритмов программам. Кстати, процитированное рассуждение относится к нерекуррентным сетям без внешней памяти (да, GPT - практически такая сеть). Для сетей с внешней памятью (например бумага и карандаш) достаточно хранить сам алгоритм.
Делает. Вот тут проанализировали, что получилось после "подгонки аппроксимации" на сложении двух чисел по модулю: https://arxiv.org/abs/2301.02679
Получился алгоритм сложения чисел по модуля, основанный на преобразованиях Фурье.
Хех. "Только подогнать аппроксимацию" по всего-лишь триллиону точек в двухтысячемерном пространстве состоящем из 65536^2000 элементов, это как-то не звучит. Или исходная функция (то есть наши коллективные мозги со всеми их знаниями) не очень сложная, ну или "только подогнать аппроксимацию" это не так уж и просто (квадриллион или около того операций с плавающей точкой, которые для этого потребовались, на что-то намекают).
"Аппроксимация" в дискретном пространстве последовательностей токенов тоже выглядит как-то подозрительно.
Да, вместо неравенства Белла можно подставить что угодно, и супердетерминизм это "объяснит". Никаких механизмов, которые бы объяснили именно неравенства Белла пока неизвестно.
Нет, нелокальные скрытые параметры - это одно (сверхсветовые коммуникации "за сценой"), а супердетерминизм - другое (космический заговор, где всё происходит так как будто неравенство Белла нарушается, хотя на самом деле оно не нарушается).
Да и никто не понимает. Существуют гипотезы пытающиеся объяснить почему (некоторые) сети с огромным числом параметров могут обобщать (generalize) входные данные, вместо того чтобы запоминать конкретные примеры (overfit), но общепринятого мнения на это счёт нет, насколько я знаю.
Ну и чем отличается (и отличается-ли) имитация абстрактного мышления от абстрактного мышления тоже никто точно не знает.
Обычно такие вещи называют "inductive bias", а не "логика работы". В случайно инициализированной сети какую-то логику можно найти только в сильно заточенных на предметную область сетях вроде свёрточных (которые не особо хорошо работают на тексте, в отличии от трансформеров, которые неплохо работают и с изображениями). Inductive bias-же означает в примерно каком направлении будет развиваться сеть при обучении. По-моему, говорить, что "оно не само", это примерно как говорить, что человек не сам нашёл магазин, если ему сказали, что он где-то в той стороне. Вроде-бы и правильно, но оттенок смысла какой-то не такой.
Угу, примерно как полносвязная сеть делает абсолютно то же что и GPT. То есть, если бы мы хоть каким-то физически выполнимым способом могли получить аналог GPT на n-граммах/полносвязных сетях, то оно бы делало то же самое.
Не только трансформеры. В RWKV используется другая структура.
Нет там никаких "одновременно в двух состояниях". Точнее, это описание — упрощение для массового читателя, чтобы не разводить математику. Кубиты в квантовых компьютерах приготавливаются во вполне определённых квантовых состояниях, гейты детерминировано переводят эти состояния в другие квантовые состояния. Недетерминированность (то есть то, что пытаются описать словами "одновременно в двух состояниях") возникает при измерении состояния кубита или при его взаимодействии со средой. А квантовое превосходство возникает из-за того, что размер описания состояния системы из взаимодействующий кубитов растёт экспоненциально с увеличением числа кубитов. Так что на классических компьютерах это долго считать.
Смотрите: пропускаем фотон через линейный поляризатор расположенный под 45 градусов к горизонтали, если фотон прошёл через поляризатор, то он вроде как сколлапсирован и находится в состоянии поляризации 45 градусов. Теперь пропускаем его через поляризатор расположенный под 90 градусов… И, сюрприз, фотон у нас опять "одновременно в двух состояниях": может пройти через поляризатор, а может не пройти.
Нет, состояние — это состояние (в данном случае 1/√2 (|0>_A |1>_B — |1>_A |0>_B) ).
А скрытые параметры нужны, чтобы детерминировано перейти от квантового состояния системы (см. выше) к результату измерения.
Впрочем, не знаю что имел в виду diakin, говоря "состояние", может быть действительно что-то классическое.
Не находятся они "во всех возможных состояниях". Они находятся во вполне определённом квантовом состоянии, которое может быть описано как линейная комбинация измеримых состояний. Фотон, линейно поляризованный под углом 45 градусов, не находится одновременно в состоянии поляризации 0 градусов и 90 градусов (или 30 и 120, или 45 и 135), он поляризован под углом 45 градусов (но узнать это мы не можем, если сами этот фотон не создали в этом состоянии).
Последние результаты моделирования показывают, что если "поагонизировать" лет 5, то можно будет выходить и начинать пахать землю в мире с уполовиненым населением и огромными проблемами с технологической инфраструктурой.
Так некуда им "сгорать", они уже "сгоревшие" (c момента бариогенеза). Вся энергия, что могла излучиться, излучилась и теперь существует в виде реликтового излучения.
Точнее, если распад протона возможен и если получится найти его катализатор (возможно магнитный монополь), то — да, "сжигать" протоны получится.