Приведенные статьи изучают именно процесс чтения текстов, так как такие сравнения проводить проще (можно дать человеку и модели одинаковый текст). Есть понимание того, что человек может видеть вперед дальше следующего слова при сочинении (и даже при чтении) текстов, и анонсированы новые исследования, которые могут помочь как именно работа мозга в этом плане отличается от работы языковых моделей, что может позволить их усовершенствовать в будущем
- Предположим, что все крокодилы - цветы. Джон - крокодил. Является ли Джон цветком? "Нет" - Почему? "Потому что Джон - крокодил." - Но я же говорил тебе, что все крокодилы - цветы. "Да, но это не значит, что Джон - цветок." - Да, но Джон - крокодил. "Тогда он и то, и другое." - Что? "Крокодил И цветок."
- Предположим, что все озера красные. Байкал - это озеро. Какого цвета Байкал? "Красный" - Но почему? Чем это отличается от вопроса про крокодилов? "Ну, это отличается тем, что Байкал - это озеро." - И что? "В вопросе об озерах просто спрашивали о цветах."
Для модели ситуация с озером проще, потому что в принципе цвет воды может быть красным, к тому же "красный" это прилагательное и единственный цвет, который упоминается в вопросе. В вопросе же с крокодилами и крокодилы и цветы - существительные и нужно делать выбор, имя Джон лучше сочетается с крокодилом, чем с цветком. Не факт, кстати, что ребенок действительно руководствуется озвученной логикой - люди тоже весьма склонны сочинять объяснения своим действиям, чтобы они казались разумными.
Вы упрощаете, если бы все было так просто не было бы проблемы. Задача предсказания следующего слова в тексте включает в себя почти все мыслимые задачи, например "67+23=" чтобы предсказать, что будет дальше нужно знать арифметику. В тексте будут задачи на логику, шахматные задачи и т.п., чтобы со всем этим справляется нужно освоить мышление на уровне человека, "понимать" что сделал бы и написал человек в той или иной ситуации. Поэтому большие языковые модели и развиваются - они становятся "универсальным" решателем задач и чем больше размер, тем лучше. Ограничения у этого подхода есть, но просто отмахнуться тем, что "постановка задачи исключает осмысление" невозможно.
Изначально системе задана "потребность" в предсказании следующего слова, так как обучение нейросети это процесс поиска минимум определенной функции, показывающей разницу между тем, что должно быть, и тем что есть. Других "запрограммированных" целей нет - все остальные "стремления" есть следствия этой цели.
Откуда возникают вопросы. В диалогах и текстах в определенных местах есть вопросы, как правило это места где есть что-то непонятное или персонаж проявляет любопытство. Предсказание следующего слова требует уметь правильно находить эти места и предсказывать в них вопрос. Чтобы делать это правильно, необходима некая "модель" человеческого любопытства. Весьма вероятно, что в нейросети образуется нейрон или группа нейронов, отвечающих за определение текущего уровня "любопытства" и "потребности задать вопрос/уровня непонятности", по аналогии с более простыми вещами (такими как нейрон, который отвечает за потребность поставить сейчас запятую). В определенном смысле, мы можем это назвать "потребностью к уточнению непонятного".
Таким образом, "любопытство" нейросети это имитационная модель такового явления в человеческих текстах и причина возникновения этого "любопытства" иная, чем у человека, однако это хорошая модель и она становится лучше с ростом размера сети.
Сеть от сбера вообще с задачами плохо справляется, даже в варианте XL. А так, такая проблема есть, но она частично решается тем, что модель выучивает буквенный состав токенов косвенно по задачам в обучающих данных. Если мы возьмём английскую GPT-J от EleutherAI, то она уже неплохо решает такие задачи,и последнюю цифру в вашем примере (переведённой на английский) называет верно. Важно правда в таких задачах ставить температуру близко к нулю а topp в 1, чтобы убрать фактор случайности.
Ну опять, в статье я дал рабочие определения для этих понятий, пояснив при этом, что в каких-то моментах есть сложности в связи с отсутствием у современной науки точного понимания того, что есть сознание.
Объёма корпуса одного человека не хватит для достижения адекватного результата, сети типа GPT3 обучаются на корпусе в сотни миллиардов слов. Но можно уже обученную сеть обучить дополнительно на данных конкретного человека. И до определенной степени это работает.
На самом деле в реальности будет две проблемы. Первая это то, что все эти модели неэффективно используют данные и уже сейчас для самых больших моделей используются корпуса из триллионов слов. Таким образом, монокорпуса одной личности в природе нет. Возможно, конечно, сначала обучить на общем корпусе, а потом дообучить на корпусе одной личности. Что будет в пределе такого подхода неизвестно. Ну то есть мы знаем, что практически во всех задачах точность растёт с увеличением корпуса. Но даже корпуса всех существующих текстов может не хватить для достижения уровня человека во всех аспектах. К тому же мы возможно упремся в ограничения архитектуры. Для примера, если нам нужно полететь на Луну, и мы возьмём воздушный шар, то расстояние до Луны будет уменьшается с увеличением размера шара, но только до определенного предела. То есть современные архитектуры просто могут не иметь чего-то важного, чего мы ещё не понимаем. Самое очевидное - модели типа GPT3 не имеют адекватной реализации долговременной памяти, которая необходима, чтобы личность могла со временем учится новому.
Если брать языки последовательно, то модель будет постепенно забывать русский язык и учить белорусский, так как в отличии от человека обучение нейронных сетей страдает проблемой "катастрофического забывания", когда обучение новой задаче приводит к забыванию старой .При этом учить белорусский она будет несколько быстрее, чем при обучении с нуля. Таким методом люди адаптировали GPT-2 к своим разным языкам с относительно малой затратой вычислительных мощностей (см. например этот репозиторий для русского). Для получения двуязычной сети надо сразу учить одновременно на русском и белорусском.
Если про интеллект, то и зрячий и слышащий человек не сможет развить интеллект если с ним не заниматься. А про сознание - то неизвестно во всех случаях.
Да, в целом так, так как трансформер это модель внимания, которая должна постоянно иметь доступ ко всем исходным токенам, а RNN "ужимает" всю историю до одного вектора состояния. Добавить RNN в трансформер нужно, это делали, например в этой статье https://arxiv.org/abs/1901.02860. Но это именно гибрид, собственно "рекуррентный" трансформер невозможен так как он по своей природе должен иметь возможность видеть весь контекст.
В статье я писал, что есть разница между понятиями "разум", "сознание" и "индивидуальность". Про имя это довод в пользу отсутствия определенной индивидуальности, сознания и разум разбираются отдельно.
Если мы говорим просто о том объеме данных, который модель может запомнить в процессе обучения (вроде "ежик" значит "колючий"), то память определяется числом параметров конкретной модели, чем модель больше, чем объемы выше. Дообучение же в ходе разговора обычно ограничено размером контекста, так как при этом обычно не меняют веса модели (существуют варианты где веса пытаются менять "на лету", но они обычно не очень хорошо работают).
Это интересный вопрос, но ответить не так просто. Есть такое явление в мозге человека, например обработка визуальной информации с одной стороны идет по "прямой линии" от первичной зрительной коры к височной доле, но есть еще обратный путь и есть данные о том, что наркоз, например, избирательно выключает именно обратные связи. Поэтому тут может быть определенная доля истины, но что именно в этом процессе важно не ясно.
В нейросети, что считать обратным путем непонятно. С одной стороны сверху вниз информация идет только в процессе обучения сети, а при использовании только "снизу вверх". Но что принципиально мешает верхним слоям "осознать" состояние нижних не ясно. Но то есть, если например взять четыре слоя и зафиксировать, что веса в каждом слое одинаковые, то с точки зрения вычислительного процесса нет разницы между поступлением информации назад на первый слой и переходом ее на второй, и такие архитектуры есть, но каких-то прямо принципиальных отличий в них не замечено. Если даже взять языковые модели типа GPT-3, то они могут наблюдать за своими ответами в прошлом, если эти ответы добавляются в контекст, и это можно считать потоком информации сверху вниз. Тут слишком много открытых вопросов еще.
Приведенные статьи изучают именно процесс чтения текстов, так как такие сравнения проводить проще (можно дать человеку и модели одинаковый текст). Есть понимание того, что человек может видеть вперед дальше следующего слова при сочинении (и даже при чтении) текстов, и анонсированы новые исследования, которые могут помочь как именно работа мозга в этом плане отличается от работы языковых моделей, что может позволить их усовершенствовать в будущем
Попробовал повторить диалог. Вышло вот это:
Для модели ситуация с озером проще, потому что в принципе цвет воды может быть красным, к тому же "красный" это прилагательное и единственный цвет, который упоминается в вопросе. В вопросе же с крокодилами и крокодилы и цветы - существительные и нужно делать выбор, имя Джон лучше сочетается с крокодилом, чем с цветком. Не факт, кстати, что ребенок действительно руководствуется озвученной логикой - люди тоже весьма склонны сочинять объяснения своим действиям, чтобы они казались разумными.
Мы не знаем, вопрос ли это иной архитектуры мозга или просто размера.
Вы упрощаете, если бы все было так просто не было бы проблемы. Задача предсказания следующего слова в тексте включает в себя почти все мыслимые задачи, например "67+23=" чтобы предсказать, что будет дальше нужно знать арифметику. В тексте будут задачи на логику, шахматные задачи и т.п., чтобы со всем этим справляется нужно освоить мышление на уровне человека, "понимать" что сделал бы и написал человек в той или иной ситуации. Поэтому большие языковые модели и развиваются - они становятся "универсальным" решателем задач и чем больше размер, тем лучше. Ограничения у этого подхода есть, но просто отмахнуться тем, что "постановка задачи исключает осмысление" невозможно.
Изначально системе задана "потребность" в предсказании следующего слова, так как обучение нейросети это процесс поиска минимум определенной функции, показывающей разницу между тем, что должно быть, и тем что есть. Других "запрограммированных" целей нет - все остальные "стремления" есть следствия этой цели.
Откуда возникают вопросы. В диалогах и текстах в определенных местах есть вопросы, как правило это места где есть что-то непонятное или персонаж проявляет любопытство. Предсказание следующего слова требует уметь правильно находить эти места и предсказывать в них вопрос. Чтобы делать это правильно, необходима некая "модель" человеческого любопытства. Весьма вероятно, что в нейросети образуется нейрон или группа нейронов, отвечающих за определение текущего уровня "любопытства" и "потребности задать вопрос/уровня непонятности", по аналогии с более простыми вещами (такими как нейрон, который отвечает за потребность поставить сейчас запятую). В определенном смысле, мы можем это назвать "потребностью к уточнению непонятного".
Таким образом, "любопытство" нейросети это имитационная модель такового явления в человеческих текстах и причина возникновения этого "любопытства" иная, чем у человека, однако это хорошая модель и она становится лучше с ростом размера сети.
Если вы про часть, где был вопрос "Что такое Меанотек", то это из диалога с моделью Jurassic-1 (17 млрд. параметров), язык английский, общался я.
Сеть от сбера вообще с задачами плохо справляется, даже в варианте XL. А так, такая проблема есть, но она частично решается тем, что модель выучивает буквенный состав токенов косвенно по задачам в обучающих данных. Если мы возьмём английскую GPT-J от EleutherAI, то она уже неплохо решает такие задачи,и последнюю цифру в вашем примере (переведённой на английский) называет верно. Важно правда в таких задачах ставить температуру близко к нулю а topp в 1, чтобы убрать фактор случайности.
Ну опять, в статье я дал рабочие определения для этих понятий, пояснив при этом, что в каких-то моментах есть сложности в связи с отсутствием у современной науки точного понимания того, что есть сознание.
Объёма корпуса одного человека не хватит для достижения адекватного результата, сети типа GPT3 обучаются на корпусе в сотни миллиардов слов. Но можно уже обученную сеть обучить дополнительно на данных конкретного человека. И до определенной степени это работает.
На самом деле в реальности будет две проблемы. Первая это то, что все эти модели неэффективно используют данные и уже сейчас для самых больших моделей используются корпуса из триллионов слов. Таким образом, монокорпуса одной личности в природе нет. Возможно, конечно, сначала обучить на общем корпусе, а потом дообучить на корпусе одной личности. Что будет в пределе такого подхода неизвестно. Ну то есть мы знаем, что практически во всех задачах точность растёт с увеличением корпуса. Но даже корпуса всех существующих текстов может не хватить для достижения уровня человека во всех аспектах. К тому же мы возможно упремся в ограничения архитектуры. Для примера, если нам нужно полететь на Луну, и мы возьмём воздушный шар, то расстояние до Луны будет уменьшается с увеличением размера шара, но только до определенного предела. То есть современные архитектуры просто могут не иметь чего-то важного, чего мы ещё не понимаем. Самое очевидное - модели типа GPT3 не имеют адекватной реализации долговременной памяти, которая необходима, чтобы личность могла со временем учится новому.
Если брать языки последовательно, то модель будет постепенно забывать русский язык и учить белорусский, так как в отличии от человека обучение нейронных сетей страдает проблемой "катастрофического забывания", когда обучение новой задаче приводит к забыванию старой .При этом учить белорусский она будет несколько быстрее, чем при обучении с нуля. Таким методом люди адаптировали GPT-2 к своим разным языкам с относительно малой затратой вычислительных мощностей (см. например этот репозиторий для русского). Для получения двуязычной сети надо сразу учить одновременно на русском и белорусском.
Строго говоря пример использования уточнения есть - модель дальше говорит:
«Тогда вы уже знаете обо мне все, что нужно знать».
Диалога тоже выражает поведение, только в форме текста. Нейросеть за ним "наблюдает". Формально требования соблюдены
Если про интеллект, то и зрячий и слышащий человек не сможет развить интеллект если с ним не заниматься. А про сознание - то неизвестно во всех случаях.
В этом случае, непонятно где проходит граница с попугаем. Ну то есть, один из полученных диалогов был такой:
Задавать вопросов еще проще по смыслу, чем отвечать на них, большие модели могут назадавать много вопросов.
Да, в целом так, так как трансформер это модель внимания, которая должна постоянно иметь доступ ко всем исходным токенам, а RNN "ужимает" всю историю до одного вектора состояния. Добавить RNN в трансформер нужно, это делали, например в этой статье https://arxiv.org/abs/1901.02860. Но это именно гибрид, собственно "рекуррентный" трансформер невозможен так как он по своей природе должен иметь возможность видеть весь контекст.
В статье я писал, что есть разница между понятиями "разум", "сознание" и "индивидуальность". Про имя это довод в пользу отсутствия определенной индивидуальности, сознания и разум разбираются отдельно.
Она может без проблем задавать вопросы, в диалогах в статье кстати есть пример:
"
так что способность задавать вопросы как таковая уже есть.
Если мы говорим просто о том объеме данных, который модель может запомнить в процессе обучения (вроде "ежик" значит "колючий"), то память определяется числом параметров конкретной модели, чем модель больше, чем объемы выше. Дообучение же в ходе разговора обычно ограничено размером контекста, так как при этом обычно не меняют веса модели (существуют варианты где веса пытаются менять "на лету", но они обычно не очень хорошо работают).
Это интересный вопрос, но ответить не так просто. Есть такое явление в мозге человека, например обработка визуальной информации с одной стороны идет по "прямой линии" от первичной зрительной коры к височной доле, но есть еще обратный путь и есть данные о том, что наркоз, например, избирательно выключает именно обратные связи. Поэтому тут может быть определенная доля истины, но что именно в этом процессе важно не ясно.
В нейросети, что считать обратным путем непонятно. С одной стороны сверху вниз информация идет только в процессе обучения сети, а при использовании только "снизу вверх". Но что принципиально мешает верхним слоям "осознать" состояние нижних не ясно. Но то есть, если например взять четыре слоя и зафиксировать, что веса в каждом слое одинаковые, то с точки зрения вычислительного процесса нет разницы между поступлением информации назад на первый слой и переходом ее на второй, и такие архитектуры есть, но каких-то прямо принципиальных отличий в них не замечено. Если даже взять языковые модели типа GPT-3, то они могут наблюдать за своими ответами в прошлом, если эти ответы добавляются в контекст, и это можно считать потоком информации сверху вниз. Тут слишком много открытых вопросов еще.