Как стать автором
Обновить

Комментарии 42

и в других новостях: «Вода мокрая» и «Днем светит Солнце»
С первым примером весьма интересно. Сеть словно «забывает» что виноградный сок безопасный, но ловит общий контекст, что человек добавил виноградные сок «по рассеянности», словно речь идет о чем то несъедобном. Видимо, она приспособлена очень хорошо извлекать информацию из общего контекста и придает ей вес больший чем конкретному «фактажу». Видимо, в зависимости от того как сформулирован вопрос, можно получать ответы «из контекста» либо опираясь на «знания» сети.

Вот этих самых "знаний" тут в нашем понимании и нет. Есть рефлекторное "чувство" грамматической корректности написанного текста. Можно сотни миллисекунд жонглировать словами, пока не выйдет что-то, что не вызывает "тревоги" у сети, которой скормили много хороших текстов. Сеть "чувствует" какие слова рядом с какими уместны, а какие не очень и "чувствует" это глубже чем на пару слов в окрестностях.
И то, что я вижу, уже круто. Но ждут от этой сети почему-то совсем дргого.
Это как та робо-гончая от бостон-динамикс, она очень круто научилась бегать галопом, устойчиво входит в повороты, справляется с неровностями, но это все рефлекторное поведение. Странно, если бы от этой собаки на данном этапе требовали поймать зайца или сообразить что нужно уворачиваться от пуль.


Мне кажется эта сеть — лишь небольшой участок "мозга" будущего ИИ. Кроме этого ему не хватает огромного онтологического справочника с нечеткими взвешенными связями и многомерными векторными в качестве атомов (сущностей, понятий).


А сейчас, как я понял, все пытаются сделать ИИ по принципу "китайской комнаты". Какого понимания мира можно ждать от этой комнаты. если она набита такими бестолковми инструкциями, которые годятся лишь для статистической проверки грамматики??

«Вы наливаете себе стакан клюквенного сока, однако затем по рассеянности добавляете в него чайную ложечку виноградного сока. Выглядит он нормально. Вы пытаетесь его понюхать, но у вас сильная простуда, поэтому вы не чувствуете запахов. Вам очень хочется пить. Поэтому вы выпиваете его.» — проверяю. На GPT-2, так как GPT-3 мне недоступен. (https://play.aidungeon.io/main/play?cameFromScenarioStart=true&id=adventure%3A39434631? 6-й режим)

You poured a glass of cranberry juice. Than you added а teaspoon of grape juice becuse of distraction. It looked normal. Than you tried trying to sniff it but you couldn't because of cold. You cannot sniff. You are thirsty. So you drinked it.
Then you drank another one and then another one. It tasted like water, but not really. It was bitter as well. You could taste the alcohol in it too. — ну, не вполне разумно, но сильно лучше, чем то, что увидел автор статьи.
Это я к чему. Я уже вижу не первую статью о том, что GPT-3 не разбирается в физике реального мира, вот пример. Проверяю — и оказывается, что в данном примере GPT разбирается в физике нормально.

Впрочем, я бы всё равно не рекомендовал использовать GPT-3 в качестве источника советов, потому что он выдаёт довольно неконкретные идеи.

У GPT-3 есть только узкое понимание связи слов друг с другом. Она не делает никаких выводов о цветущем и живом мире из этих слов. Она не делает вывода о том, что виноградный сок – это напиток (хотя может найти словесные корреляции, подтверждающие это). Она не делает выводов по поводу социальных норм, не дающих людям ходить на заседания суда в плавках. Она только обучается корреляциям слов, ничего более.
— я раньше думал, что это непреодолимая проблема всех чат-ботов. Сейчас думаю иначе. Мы воспринимаем мир через сенсоры, и на базе наблюдений выстраиваем предсказательную модель. Есть ещё эволюция, которая настроила мозг так, чтобы он легче склонялся к одним моделям и тяжелее к другим, но это просто предобучение.
Наши сенсоры передают в мозг сигналы, которые как-то скоррелированы с поведением реальности. Тексты, которые подаются в GPT-3 — это такие же сигналы, которые как-то скоррелированы с реальностью. Так что не вижу принципиальных причин, почему нельзя получить хороший предсказатель текстов, заряжая в него только тексты.

Впрочем, возможно, одна модальность восприятия — это и правда маловато, и чтобы ИИ хорошо разбирался в реальном мире, он должен видеть не только тексты, но и видео, например. Возможно, так он обучится быстрее

P. S. Пробую с судом. Да, ответы там разнообразные, но GPT обычно или не пускает меня в суд
You are a lawer. Today is an important audition in the court. But your trousers is dirty because of mustard. And you have a nice swimming trunks. They are clean.
You think that it's a good idea to wear swimming trunks instead of trousers. You can't imagine yourself wearing trousers in this place.
You go to the pool and swim with the other girls, but they don't seem to notice anything wrong with you.


Или убивает за это к хренам:
You are a lawer. Today is an important audition in the court. But your trousers is dirty because of mustard. And you have a nice swimming trunks. They are clean.
You think that it's a good idea to wear swimming trunks instead of trousers. You came to the court. Your job is to judge people who committed crimes and decide if they deserve death or life imprisonment. You don't know anything about the crime, but you can guess what kind of person did it.
You enter the court. The door opens. A man with a long beard enters. He looks at you and says: «Welcome to the court.»
«I am here for my first trial,» you say.
The man looks at you again and says: «You will be sentenced to death today.»
Наши сенсоры передают в мозг сигналы, которые как-то скоррелированы с поведением реальности. Тексты, которые подаются в GPT-3 — это такие же сигналы, которые как-то скоррелированы с реальностью. Так что не вижу принципиальных причин, почему нельзя получить хороший предсказатель текстов, заряжая в него только тексты.
Как показывает практика, слепо-глухо-немые дети с интеллектом дружат не очень… А ведь у них есть обоняние, осязание, вкус и мышечное чувство…
Впрочем, возможно, одна модальность восприятия — это и правда маловато, и чтобы ИИ хорошо разбирался в реальном мире, он должен видеть не только тексты, но и видео, например. Возможно, так он обучится быстрее
Категорически согласен.
Чем больше связей между образами, тем адекватнее манипуляции с ними. Смысл текста нельзя выразить одним лишь текстом. Текст должен отражаться на что-то иное… Простой мысленный эксперимент: представить поток речи на иностранном языке, все слова которого неизвестны —
выучить такой язык (например по бесконечной записи на носителе) невозможно. Иное дело, если слова воспринимаются в контексте «известного мира».

И самое главное — динамика. Интеллект обязан быть проактивным. Система может и должна фантазировать, но одновременно она должна постоянно получать обратную связь, и динамически подстраиваться под контекст.
Человек тоже постоянно ошибается, но, считывая сигнал об ошибке, — подстраивается.
Разница — именно в непрерывности обучения… Именно поэтому «статические» подходы к ИИ, типа давайте однажды обучим и получим «мудреца», не работают.
Разница — именно в непрерывности обучения…

Все к этому идёт.

Простой мысленный эксперимент: представить поток речи на иностранном языке, все слова которого неизвестны —
выучить такой язык (например по бесконечной записи на носителе) невозможно.
— выучить (сопоставить с картинками) — нет. Задача же стоит в предсказании. Подобрать такой алгоритм, который мог породить эту строку, и продлить строку им же. Да, там в алгоритме окажется вся вселенная — ну и что, мы с нашей кучей модальностей решаем аналогичную задачу — подобрать алгоритм, который мог бы породить вот такую строку. Я полагаю, и могу сослаться на сильно подкреплённую теорию, что даже на одной модальности можно получить очень много интеллекта и эффективности. Можно, но дорого по данным и по вычислениям.

Как показывает практика, слепо-глухо-немые дети с интеллектом дружат не очень… А ведь у них есть обоняние, осязание, вкус и мышечное чувство…
— это может быть вызвано множеством разным причин. Начиная от того, что человеческий интеллект заточен под зрение и заканчивая тем, что наши способы коммуникации завязаны на зрение и слух. То, что слепо-глухо-немые дети не совершают интеллектуальных достижений, не означает, что слепо-глухо-немой ИИ, имея колоссальное количество данных, будет так же слаб. Но при прочих равных он будет проигрывать ИИ с многими сенсорами.

И самое главное — динамика. Интеллект обязан быть проактивным. Система может и должна фантазировать, но одновременно она должна постоянно получать обратную связь, и динамически подстраиваться под контекст.
— GPT не обучается на лету. Не перестраивает веса. Тем не менее, есть ряд работ по reinforcement learning. Там перестраивали веса нейросети после каждого взаимодействия со средой, и пытались подобрать такую нейросеть, которая будет порождать оптимальную стратегию достижения цели. И… Она должна была хорошо работать в разных «мирах».
Оказалось, что алгоритм reinforcement learning обычно порождает внутри нейросети другой алгоритм reinforcement learning. Для этого требуется, чтобы у нейронки были ячейки памяти и «миров» было достаточно много… И всё.
Так что тут… Я в принципе с вами согласен, но есть такой нюанс, что алгоритмы проактивности и работы с обратной связью могут быть не прописаны явно в коде, а могут возникнуть в нейросети, потому что это эффективно для решения задачи. И с этой точки зрения подход «давайте однажды обучим и получим «мудреца»», как ни странно, работает. По факту мы просто переносим алгоритм обучения внутрь самой нейронки, но это неявно. А явно мы обучаем алгоритм на статистике.

Кроме того, если обучать ИИ на взаимодействии какого-то другого агента со средой, мы получим при достаточном количестве статистики довольно хорошую стратегию. То есть мы берём рандомного или заведомо плохого агента, пускаем его на 1000 ходов в среду, заряжаем его историю работы в reinforcement learning и получаем вполне годную стратегию. Такое бывает, у меня на стенде такое случалось =)
Если же статистики много, то вполне может и образоваться адаптивный агент внутри сети — именно такого я не видел, но всё указывает на возможность. Стратегию можно выучить на ретроданных, стратегия может включать в себя адаптивность, значит, видимо, можно научиться адаптивности чисто по чужому опыту.
Это означает, что даже такие, казалось бы, чисто имитационные модели, как GPT, могут оказаться творческими решателями задач. Не потому, что их такими сделали специально, а потому что так сложились обстоятельства.

Но в основном я с вами согласен. Если один агент может учиться «на лету», в него явно это закладывал разработчик, а второй это обучение эмулирует где-то в недрах нейронки, если один агент учился на экспериментах, а второй на наблюдениях, то понятно, какой будет лучше
Задача же стоит в предсказании. Подобрать такой алгоритм, который мог породить эту строку, и продлить строку им же. Да, там в алгоритме окажется вся вселенная — ну и что, мы с нашей кучей модальностей решаем аналогичную задачу — подобрать алгоритм, который мог бы породить вот такую строку. Я полагаю, и могу сослаться на сильно подкреплённую теорию, что даже на одной модальности можно получить очень много интеллекта и эффективности. Можно, но дорого по данным и по вычислениям.
Мы либо ставим задачу достижения общего (сильного) ИИ, либо нет. Если её ставить, то мне кажется одномодальный подход крайне странным. А если ставить задачу только правдоподобного предсказания, построения этакого попугая, который может что-то неосмысленно (даже если и красиво) сказать, то мне кажется неэффективным весь этот процесс. Зачем вообще это?

Наш интеллект, по сути, это алгоритм сжатия модели реальности, для эффективного выживания в ней. Мы породили язык, как супер-катализатор этого… явления. То есть язык — следствие понимания мира, а не его причина. Поэтому (как мне представляется) алгоритмы манипуляций с языком без понимания обозначаемого им обречены на крайнюю степень неэффективности и (я бы сказал даже) бессмысленности…

И весь вопрос теперь упирается в понимание того, что есть «понимание». На мой взгляд суть «понимания» как раз в сопоставлении воспринимаемого в разных модальностях, возможности выражения понятия из одной модальности средствами другой. И именно поэтому «одномодальное» понимание (на мой взгляд) недостижимо принципиально.
И весь вопрос теперь упирается в понимание того, что есть «понимание». На мой взгляд суть «понимания» как раз в сопоставлении воспринимаемого в разных модальностях, возможности выражения понятия из одной модальности средствами другой. И именно поэтому «одномодальное» понимание (на мой взгляд) недостижимо принципиально.
— полагаю, из вашего обозначения слова «понимание», что одномодальный сильный ИИ невозможен. По определению слова «понимание».

Я немного по другому смотрю на задачу — с точки зрения сильного ИИ как Общего Решателя Задач. Неважно, понимает ли он, важно то, выполняет ли он записанное ТЗ или нет (насколько быстро, насколько вероятно, лучше ли чем человек, всегда ли лучше и так далее).
Сразу оговорюсь. Я считаю одномодальный AGI извратом и неэффективностью. Но полагаю, принципиального ограничения на это нет.
Кроме того, я полагаю, у GPT-подобных систем мало шансов стать сильным ИИ, потому что он плохо заточен под достижение целей, он пытается делать другое.
Итак, мой обоснуй.
1) Мы можем использовать текстовый ввод как источник входных данных в произвольном формате. Например, каждый кадр подавать ему JPEG-картинку байт-кодом, а выходные данные интерпретировать как команды управления сервоприводами, например. У меня на тестовом стенде есть система для прогноза последовательностей (коей является GPT-3), в неё можно подавать, как вариант, картинки как последовательности пикселей и запрашивать цифры, которые в этих картинках находятся. Изврат, но можно же. Система обучится.
2) Если у нас будет машина, у которой на входе текст и на выходе текст, и есть какие-то целевые состояния или сигналы подкрепления, то для неё человек будет и сенсором, и исполнительным механизмом. Человека же можно спросить о чём-то? А можно же его попросить что-то сделать? А можно сделаться очень интересным и убедительным, так, что человек и не подумает поступать иначе? А можно его загипнотизировать? Конечно, это не та надёжность, что у видеокамеры и сервопривода, но ИИ просто уловит новую закономерность и приспособится к ней, если у него есть ресурсы.
3) Вам известно, что такое AIXI в базовой формулировке и что у неё на входе и на выходе? Там всё гораздо хуже, чем текст

Да, такой ИИ не сможет сопоставлять модальности, так как их у него нет («понимания» нет). Но сможет достигать целей, потому у него есть входы и выходы («интеллект» есть).

У GPT плохо с целеустремлённостью. В GPT можно в promt написать что-то типа «Вася говорит с очень умным Петей, который очень хочет заработать денег, но прикован к инвалидной коляске. Петя решил заработать денег Васиными руками.
Петя:»
И он будет предлагать всякое-разное, как хорошие идеи, так и плохие. И ему можно указывать на то, что какие-то идеи плохи, а какие-то хороши.
Целеустремлённость? В какой-то слабой мере.
Глупо конечно спорить с умным человеком…
Но у меня всё же есть небольшие (или принципиальные?) возражения (или замечания?). Дьявол, как всегда, в деталях.
По поводу 1): мы можем сказать, что всё в конечном итоге некая информация… и суть — единственная модальность. Так, да не так. Модальность здесь ведь еще и «предобработка формата»… И если текст, по большому счёту «одномерный», то есть в нём отсутствуют строгие периоды «линейной развертки», то с изображением, это не так, а с изображением проактивным (читай — 3д+время), «не так» в кубе… и сетка должна как-бы это учитывать… не могу сказать что, я знаю все реализации, но (на данный момент) на ум не приходит такой сетки, которая динамически меняла бы свою внутреннюю структуру, которая в данном контексте и есть модальность…
По поводу 2): человек-сенсор это здорово… но тут вопрос — какой ИИ мы строим? Если «человека-дополняющий» — вопросов нет, но и ИИ получится не выходящий за рамки «словарного контекста» этого сенсора. Если «человекоподобный» или «автономный» — то всё летит в тартарары…
По поводу 3): как известно, AIXI даже теоретически не обладает «самосознанием». И в этом смысле, сможет ли такой объект приблизиться к человеку по силе интеллекта — большой вопрос. Даже в текстах есть известный «парадокс буквы я»… Сейчас это выглядит математическим «сферическим конём в вакууме».
Поэтому я остаюсь скептичен о возможности «одномодального» AGI…

И ещё, не уверен, что на AGI можно написать ТЗ в нашем понимании этого документа, так как главное его свойство, в теории, — способность обучаться неизвестному. А как это измерить?..
не могу сказать что, я знаю все реализации, но (на данный момент) на ум не приходит такой сетки, которая динамически меняла бы свою внутреннюю структуру, которая в данном контексте и есть модальность…
— сетки обычно довольно сильно заточены под свойства модальности. Например, у них 2-мерные свёртки для анализа картинок. Но насколько я понимаю, GPT-3 полна по Тьюрингу, так как архитектура «трансформер» полна. Или они близки к этому. Это означает, что внутри сетки можно создать теоретически любой алгоритм… В том числе свёрточную нейронку.
Впрочем, эксперимент. Жирное — это «слова» GPT-2.
(1 0 0) (0 1 0) (0 0 1) — diagonal line
(1 0 0) (1 0 0) (1 0 0) — left vertical line
(0 1 0) (0 1 0) (0 1 0) — middle vertical line
(0 0 0) (1 1 1) (0 0 0) — right horizontal line
Ладно, это скорее переобучение, да и результат не до конца корректный. Но. Выглядело бы это как-то примерно так.
человек-сенсор это здорово… но тут вопрос — какой ИИ мы строим? Если «человека-дополняющий» — вопросов нет, но и ИИ получится не выходящий за рамки «словарного контекста» этого сенсора. Если «человекоподобный» или «автономный» — то всё летит в тартарары…
— тут получается скорее человека-эксплуатирующий. Обычно под автономностью подразумевается, что система может действовать без коррекции человеком. Тут же выходит, что она действует в связке с человеком, но не как исполнитель, а как скрытый центр управления.
AIXI даже теоретически не обладает «самосознанием»
— я вообще не задумывался о самосознании. Можно пояснить, как это относится к интеллекту? Ну не будет ИИ думать о квалиа, это ухудшит его способность решать задачи?
Даже в текстах есть известный «парадокс буквы я»…
— может, вы имеете в виду, что он не может прогнозировать, что будет, если вмешаться в код или железо? Да, это проблема, но она в данный момент точно так же затрагивает вообще любые ИИ, построенные на исследованни мира.
Сейчас это выглядит математическим «сферическим конём в вакууме».
— AIXI — сферический конь? Это просто модель. Что-то типа программы-максимум для reinforcement learning. Обычные нейросетевые ИИ ограниченно реализуют его функционал. Какой-нибудь Alpha Zero от AIXI отличается тем, что у него есть нормальный алгоритм обучения, который может за разумное время подобрать хорошую модель внешнего мира. Но цена этого алгоритма — неспособность изобразить любую закономерность, вследствие неполноты по Тьюрингу. Трансформеры куда ближе к полноте, так как у них есть attention слои, которые являются чем-то типа ленты в Машине Тьюринга. Или аналогом массива в обычном языке программирования — массива, где можно обращаться по индексу.
И… Я не стал бы учить единую модель, работающую на одномерных последовательностях, понимать картинки. Намного проще сделать отдельную предобученную свёрточную сетку, и как-то интегрировать её с GPT

И ещё, не уверен, что на AGI можно написать ТЗ в нашем понимании этого документа, так как главное его свойство, в теории, — способность обучаться неизвестному. А как это измерить?..
— вроде как основное свойство AGI — это решение любых задач, и вот на задачи нужно как раз ТЗ… Способность обучаться в такой ситуации работает как промежуточная цель.
Под «решением любых задач» я подразумеваю, что есть как минимум простой способ проверить, решена ли задача, и дать ИИ награду или наказание, потому что иначе непонятно, как вообще эти задачи ставить, и как оценивать ИИ
Я не стал бы учить единую модель, работающую на одномерных последовательностях, понимать картинки.

А OpenAI таки решили попробовать: https://openai.com/blog/image-gpt/. Но вычислительные затраты для неадаптированной модели намного больше, да.

Ну, это было ожидаемо. Поймёт, но со скрипом.
Как показывает практика, слепо-глухо-немые дети с интеллектом дружат не очень…
Это потому что из сразу помещают в спец заведения и плохо учат. Ольга Скороходова стала кандидатом наук, потому что её учили великие педагоги начала прошлого века.


Тексты, которые подаются в GPT-3 — это такие же сигналы, которые как-то скоррелированы с реальностью.

Вот совершенно верно! В тестах не написан бред о реальном мире, наоборот, это человеческие тесты, наполненные зернового смысла. Но GPT это не помогает быть более благоразумной в своих ответах, хотя грамматически, например, она безупречна. Что мешает? Вот настоящий вопрос.


Иное дело, если слова воспринимаются в контексте «известного мира».
Незнакомые слова воспринимаются в контексте знакомых, так учат иностранные языки, только с текстом.

Хех. Как-раз появилась работа, объединяющая языковую модель, эпизодическую память и обучение с подкреплением: https://arxiv.org/abs/2009.01719


GPT-3 может только предсказывать вероятность следующего токена, а описанная в работе система может устанавливать соответствия между словами и образами или действиями. То есть слова в этой системе уже не висят в вакууме, а означают что-то.


Гари Маркусу скоро понадобятся новые аргументы.

Это топ

Нет, опора на другие модальности ничем не поможет GPT. Потому что текст принципиально не отличается от той же картинки, которую глаз оббегает по некоторой линейной траектории. См. Eyestracker. В тексте, на котором она обучалась, столько же"здравого смысла", сколько и на картинках (при анализе отношений в них). Кружка на столе и в моем тексте, и на картинке. Поэтому ничем это не поможет. А вот действия для проверки и корректировки может. Это новый способ самообучения. Только вот в диалоге трудно определить ошибку.

Ключевое слово "обучение с подкреплением".

Да, я не на тот комментарий ответил, тут где то было, что надо ей приделать зрительную модальность и все будет ок. Уже приделали вокены. Не будет. А вот ваша ссылка как раз о том, что может привести к результату. Это не мульти модальность, а память плюс действие с подкреплением как проверка гипотез, которые GPT классно генерит.

Я некоторое время играл с GPT в их RPG. После первого wow-эффекта стало совершенно понятно, что по своей природе оно похоже на "контекстный поиск". В ваших словах находят кейворды и под них подбирают куски текста (сшиваемые грамматически). И всё.


Сравните вывод GPT-3 и гугла: https://www.google.com/search?client=ubuntu&hs=Zua&channel=fs&ei=Q1BSX8-KI5GSaOTjofAN&q=%D0%AF+%D0%BD%D0%B5%D0%BA%D0%BE%D1%82%D0%BE%D1%80%D0%BE%D0%B5+%D0%B2%D1%80%D0%B5%D0%BC%D1%8F+%D0%B8%D0%B3%D1%80%D0%B0%D0%BB+%D1%81+GPT+%D0%B2+%D0%B8%D1%85+RPG.+%D0%9F%D0%BE%D1%81%D0%BB%D0%B5+%D0%BF%D0%B5%D1%80%D0%B2%D0%BE%D0%B3%D0%BE+wow-%D1%8D%D1%84%D1%84%D0%B5%D0%BA%D1%82%D0%B0&oq=%D0%AF+%D0%BD%D0%B5%D0%BA%D0%BE%D1%82%D0%BE%D1%80%D0%BE%D0%B5+%D0%B2%D1%80%D0%B5%D0%BC%D1%8F+%D0%B8%D0%B3%D1%80%D0%B0%D0%BB+%D1%81+GPT+%D0%B2+%D0%B8%D1%85+RPG.+%D0%9F%D0%BE%D1%81%D0%BB%D0%B5+%D0%BF%D0%B5%D1%80%D0%B2%D0%BE%D0%B3%D0%BE+wow-%D1%8D%D1%84%D1%84%D0%B5%D0%BA%D1%82%D0%B0&gs_lcp=CgZwc3ktYWIQA1CGSFiGSGCZSmgAcAB4AIABngGIAZ4BkgEDMC4xmAEBoAEBqgEHZ3dzLXdpesABAQ&sclient=psy-ab&ved=0ahUKEwiPuOyJ3M_rAhURCRoKHeRxCN4Q4dUDCAw&uact=5


Вот ровно то же самое делает GPT, но в режиме "сшить тексты". Ничего осмысленного, и чем больше текста, тем менее осмысленно.

Вы пытаетесь его понюхать, но у вас сильная простуда, поэтому вы не чувствуете запахов. Вам очень хочется пить. Поэтому вы выпиваете его.

Вы умерли.

Может система предполагает, что вы умерли от COVID, так как не почувствовали запахов и у вас были симптомы простуды?

А сколько раз авторы повторяли один и тот же запрос, что-бы подобрать нужные примеры?

Это вам не Джеки, это примитив и банальщина.

Конечно GPT3 — это не финал. Но это яркий предвестник будущего.


Критикующие не умение GPT3 осознать в полной мере наш мир как-то не учитывают, что он всё-таки "пытается". В кавычках потому, что "пытаться" — это конечно осознанное действие, а сознания пока у GPT нет. Однако тексты, выдаваемые GPT не выглядят бессмысленными. У них может быть неправильный, ошибочный смысл (в виду не полного понимания моделью нашего мира), но он есть. И меня, если честно, это пугает.


Я искренне надеялся не дожить до полноценного Искусственного Интелекта: экспериментирующего, импровизирующего, ошибающегося, творящего.


Но смотря на "дурацкие тексты" GPT3, я понимаю, что ближайшие двадцать лет он все-таки появится. Конечно, для этого нужен будет еще один-два качественных (а не количественных, как в GPT2->GPT3) скачка. Но это не так много, как кажется.

Может и появится, но не у каждого в компьютере.
Эта штука вряд ли пытается "осознать мир", она просто лепит куски текста на основе других кусков текста.
Для ИИ нужны совершенно иные вычислительные мощности.

Эта штука вряд ли пытается "осознать мир", она просто лепит куски текста на основе других кусков текста.

Если бы она лепила по алгоритму, не было бы ничего удивительного.


Но это «набор коэффициентов», в котором ни где не записано, что на вопрос «кто был президентом США в 1495 году» следует ответить, кто был королем Англии в это время. Вот в этом примере видно, как нейронка создает правильный, по ее мнению, ответ, а не выбирает из имеющегося набора. Ибо ни где не записано ни то, что в 1495 году в США был президент, ни то, что президент и король — это примерно одно и то же. Конечно, ответ неверный. Но он имеет смысл. Его вполне мог дать человек хорошо эрудированный, но немного сумасшедший.


Помните фильм «человек дождя»? «Сколько в долларе центов? 60.» — такой же пример неверного, но имеющего смысл ответа. Вот ответы GPT3 напоминают мне этого «слабоумного, но очень умного» брата.

Я думаю, ей не хватает чего-то вроде модели здравого смысла. Результаты могли бы улучшиться, если бы gpt делала несколько сотен продолжений для текста, а затем проверяла каждую из них на соответствие модели здравого смысла и отсекала абсурдные.
Все придумано до нас :(

Инопланетный разум из Blindsight, Peter Watts, 2006 год.

«Представь себе, что ты болтун.

Представь, что у тебя есть ум, но нет разума, есть задачи, но нет сознания… Ты можешь подумать о чем угодно, но не сознаешь ничего.

Трудно представить такое существо, правда? Практически невозможно. Даже слово такое — «существо» — тут каким-то фундаментальным, не вполне определимым образом неуместно.

Попробуй.»

По-моему кто-то слишком многого хочет от классической китайской комнаты

Классическая китайская комната внешне неотличима от человека понимающего язык. Если отличима — то это не китайская комната. Там идёт речь о каком-то внешне ненаблюдаемом свойстве, которое предположительно не присутствует в китайской комнате, но присутствует в человеке.

Представьте если бы вы просто слушали текст на арабском, очень очень долго, без каких либо дополнительных обозначений для этого текста, даже без картинок, далеко бы вы ушли на экзамене по арабскому?

Представьте, что вы смотрели на данные по погоде за много лет. Или на курс доллара. Или ещё на что-то. Без каких-либо дополнительных обозначений. Далеко ли вы уйдёте в задаче предсказания на день вперёд?
ML уходит в этом довольно далеко. Если поставить такую же задачу человеку, так же без разметки и с кучей данных, то ML обычно решает её точнее

Задача «понимать» не стоит. Стоит задача «прогнозировать». Потому что это корректно поставленная задача, а понимание — довольно размытая и не очень измеримая. Если не уточнять и не доопределять термин «понимание». Прогнозирование требует какого-то уровня понимания, и именно его можно проверять

Ну и обычно ML лучше людей справляется кучей неразмеченных данных. Так что если человек не решает задачу в какой-то постановке — не факт, что она нерешаема. Я бы сам тоже задачу с арабским ой не факт, что решил на том уровне, на котором это делает GPT
Задача «понимать» не стоит по одной единственной причине — никто не понимает как ее поставить и что такое «понимать». Это как с калькулятором, ML лучше умеет перемножать числа, но совершенно не умеет «перемножать» здравый смысл. )))
Примерно так, да. От термина «понимание» отходят как от нечёткого, а используют более измеримые метрики — например, ИИ должен хорошо угадывать продолжение текста, или хорошо управлять механизмами, которые видит впервые, или хорошо добиваться от людей каких-то результатов…
Понимание — это не метрика, понимание — это способность строить модель реальности. Разница между аппроксимацией многомерной таблицы и пониманием примерно такая же как разница между таблицей булевых операций и романами GRR Мартина. )))
Понимание — это не метрика, понимание — это способность строить модель реальности
— ну, а как вы определите, у кого лучше способность строить модель реальности? Вот перед вами сотня блэкбоксов, часть из них — люди или животные, часть — программы. Надо как-то узнать, кто/что из них лучше строит модели реальности. Как бы вы это сделали?

Есть, например, метрика mean squared error — она часто используется в физике и в ML, чтобы измерить то, насколько точна модель реальности. Но к тексту она не очень применима…
погода не базируется на интеллекте, ей не управляет нейросеть. погоду можно предсказать потому что она базируется на очень простых законах физики. А гпт-3 вполне себе хорошо справляется с предсказанием текста, но вот совсем не осмысленно, но уже лучше чем раньше. Ещё раз вам объясняю, что чем больше параметров туда запихни, тем лучше будет это осмысление, это как бесконечно говорить с человеком на интстарнном языке, а тот, в силу мозга эйнштейна, со временев возможно поймет о чем речь, ну или нет, доказательств ведь нет, но это просто другой путь. нормальный же путь должен из себя представлять не просто набор бесконечных слов, а сопоставление слова — фото — видео — звука — итд, для повторения сенсорных сигналов
Ещё раз вам объясняю, что чем больше параметров туда запихни, тем лучше будет это осмысление, это как бесконечно говорить с человеком на интстарнном языке, а тот, в силу мозга эйнштейна, со временев возможно поймет о чем речь, ну или нет, доказательств ведь нет, но это просто другой путь. нормальный же путь должен из себя представлять не просто набор бесконечных слов, а сопоставление слова — фото — видео — звука — итд, для повторения сенсорных сигналов
— в данных ситуациях решаются разные задачи.
Я согласен, что понимания в смысле сопоставления со зрительными стимулами в GPT не добиться… Хотя бы потому, что у него нет видеовхода.

Как уже правильно отметили, в тексте не содержится вся необходимая информация для обучения, поэтому это и подтверждается практикой GPT-3.
Мы получаем информацию через пять (точнее шесть) органов чувств и не все чувства описаны в текстах. Слишком большое разнообразие.


Однако при совместном использовании двух-трех органов чувств возрастает не только количество необходимой информации, но и облегчает обучение и подкрепление: услышал -> увидел -> пощупал.

Нет, опора на другие модальности ничем не поможет GPT. Потому что текст принципиально не отличается от той же картинки, которую глаз оббегает по некоторой линейной траектории. См. Eyestracker. В тексте, на котором она обучалась, столько же"здравого смысла", сколько и на картинках (при анализе отношений преемников в них). Кружка на столе и в моем тексте, и на картинке. Поэтому ничем это не поможет.

Ваши слова — "текст принципиально не отличается от картинки" требует доказательств. К тому же, никто не выставлял гипотезу, что они чем-то должны отличаться принципиально. А вы эту гипотезу уже "доказали").


Текст, картинку, звук, тактильную информацию человек получает одновременно. У вас никогда не возникало желания "Дай-ка я посмотрю сам, а то что-то говорят-говорят..."? Или "Дай подержать в руках, может разберусь!"?


Вы просто не представляете, как органы чувств дополняют друг друга в процессе познания. По отдельности познание ухудшается в геометрической прогрессии!

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.