Comments 48
но по прежнему совершают многочисленные фактические и логические ошибки, которые не допустил бы даже человек с интеллектом ниже среднего
А может и допустил бы. Либо сделал бы другие. Утверждение, что текущие топовые модели (например Claude 3 Opus) глупее среднего человека — весьма спорное.
Общается Опус как умный человек, но способен ли он выполнить задачу, посильную даже сравнительно глупому человеку, но требующую планирования работы и мультимодальности? Например, простая задача: зарегистрироваться на сайте магазина и заказать товар. Даже идиот осилит, но Опус - нет. Прикрутить нейросети доступ к визуальному интерфейсу легко: просто подавайте её на вход скриншот и запрашивайте команды на мышь и клавиатуру, которые можно выполнить простым софтом. Но мультимодальности нейронки недостаточно чтобы банально "выцепить" координаты кнопки на сайте и нажать на неё. Тут можно всопмнить парадокс Моравеца. Хотя я не согласен с утверждением автора о том, что языковые модели - тупик. Мозг у нас тоже явно диференцирован на отделы по назначению, и пока что у нагего ИИ есть только речевой отдел. Тут архитектура mixture of experts выглядит крайне многообещающей. Зрительный отдел можно создать на основе Sora и подобных. Вот с движением всй сложно ибо данных готовых нет, нужно создавать роботов с кучей сенсоров и "учить" их нейросеть.
Возьмите слепого и безрукого человека, и попросите его 'зарегистрироваться на сайте магазина и заказать товар', что не получается? Современные LLM-ки именно такие.
Мультимодальность это только маленький шажочек в нужном направлении, но им нужны данные, единственное с чем согласен в публикации, это краеугольный камень любых нейронок.
И да, при должном старании, gpt с минимальными внешними инструментами, можно научить работать с веб сайтом, описывая буквально каждый шаг, но на естественном языке что и как нужно делать. Зачем вам такой дорогой франкенштейн я хз. Если что, вы имеете опыт работы с сайтом и типовыми интерфейсами из реального мира, а вот текущий ИИ нет, он до безобразия не обучен, кое что он понимает 'на интуитивном' уровне, просто потому что прочитал миллионы описаний действий пользователя ('я нажал тут, и оно должно было сделать так а выпала ошибка'), и иногда даже срабатывает как ожидается но это иллюзия, которую еще и портит родовая болячка с галлюцинациями.
И да, специализированные сети, умеющие гуглить и читать сайты есть, на их основе сделан bing copilot, и до прошлогодней оптимизации (конец лета) это шокирующе отлично работало, теперь конечно же нет, но это очевидно не вина llm?
Возьмите слепого и безрукого человека, и попросите его 'зарегистрироваться на сайте магазина и заказать товар', что не получается? Современные LLM-ки именно такие
Во-первых, почему нейронка слепая? Они уже почти все мультимодальные. Но вообще, даже слепой и безрукий человек может попросить кого-то установить ему интерфейс для управления голосом и таким образом сделать заказ. Нейронка же не умеет "думать" шире - она будет тупо долбиться в данный ей интерфейс.
И да, при должном старании, gpt с минимальными внешними инструментами, можно научить работать с веб сайтом, описывая буквально каждый шаг, но на естественном языке что и как нужно делать. Зачем вам такой дорогой франкенштейн я хз.
Это пример выполнения простой задачи. Интеллект должен уметь изучать новые интсрументы и задачи без внешней помощи
И да, специализированные сети, умеющие гуглить и читать сайты есть, на их основе сделан bing copilot, и до прошлогодней оптимизации (конец лета) это шокирующе отлично работало, теперь конечно же нет, но это очевидно не вина llm?
Бинг - это GPT-4 + парсер. И да, отупел он крайне сильно, раньше работал неплохо же.
Они уже почти все мультимодальные.
Нет, более менее адекватная мультимодальная нейронка одна - от openai и ее качество мягко говоря никакое, значительно ниже ее текстового варианта, но я мало экспериментировал, но те эксперименты что я делал дают неутешительный результат - пока современный ИИ слеп (полагаю openai делает sora именно для того чтобы решить эту проблему). Слепость ее именно там чего ты от нее хочешь - понимание что слева а что справа, оно у нее интуитивно собрано из текстовых знаний но не из зрительных, отсюда она может очень неплохо тупить на задачах относительного позиционирования, но кстати, вполне возможно что того чего она умеет более чем достаточно чтобы найти на экране кнопки рядом с названием логин/пароль.
Все доступные открытые реализации мультимодальности еще хуже. Они с трудом понимают что видят, с тем же успехом можно было бы прикрутить обычную clip модель к обычной текстовой llm..
даже слепой и безрукий человек может попросить кого-то установить ему интерфейс для управления голосом
Все зависит от того, на сколько интеллектуальной деятельности можно делигировать посреднику. Изначальная твоя задача МОЖЕТ быть решена с помощью текущего ИИ, и без мультимодальности. Нужен более менее простенький посредник, который будет описывать веб страницу чуть более подробно чем текстовая копипаста (с сохранением информации об относительном положении, как - вот это вопрос из вопросов, но моя чуйка говорит что сделать это реально даже со слабыми открытыми ИИ типа mistral).
В пределах контекстного окна ИИ обучается, вернее говорить его поведение очень напоминает этот процесс, ты показываешь ему на пальцах примеры, объясняешь словами - он дает результат на новых вводных. Он таким реализован, что вне окна его состояние заморожено.
То что размер контекстного окна ограничен - это проблема технического плана, текущий метод реализации тупо дорогой, и не линейно от размера окна а квадратично.
Бинг - это GPT-4 + парсер.
Не совсем, там паралельно обучена сетка, которая вытаскивает из контекста беседы поисковый запрос, который отправляется в интернет. А так же дообучена сетка, правильно выбирающая из поискового запроса варианты (само собой информации о том как действительно реализовали openai это нет, но работы на эту тему были как раз в тот момент когда инструмент был представлен публике)
Но мультимодальности нейронки недостаточно чтобы банально "выцепить" координаты кнопки на сайте и нажать на неё.
Ну вообще-то достаточно :)
https://arxiv.org/abs/2309.11436
https://arxiv.org/abs/2309.08172
Причем это ещё год назад было.
текущие топовые модели даже на простой вопрос ответить не могут и найти простую логическую ошибку, не говоря о планировании, анализе, прогнозировании и генерации идей. И вы совершаете типичную ошибку, очеловечивая бот-чат. Это не ИИ, это чат который достаёт ответы из базы данных.
Ошибочно утверждать что GPT только извлекают из своей базы ответы. Нет, они могут строить новые ответы на ранее не виданые вопросы, используя те правила, которым она обучилась из этой базы (тут встанет вопрос в качестве этого процесса, но не факт его существования в принципе). GPT тянет не только сами факты, но и как этими фактами оперировать, высокоуровневый мыслительный процесс. Потому что строят своё внутреннее концептуальное представление, из входящих слов, а потом в слова его обратно и переводят.
Несомненно, LLM модели показали впечатляющие возможности, но фундаментально они не пригодны для создания общего интеллекта.
Доказательства? Аргументы? Пока нет никаких предпосылок к тому, чтобы утверждать, что LLM не подходят для получения AGI.
На базе LLM создать AGI наверное можно, раздув саму модель до невообразимых размеров, обвешав дополнительными модулями, усложняя сам принцип и архитектуру и порождая еще больше внутренней непредсказуемости. Но сам факт того, что Альтман рассуждает о строительстве атомных электростанций, чтобы получать гигаватты энергии для ИИ, контент для его обучения приходится высасывать из пальца генерировать искусственно, уже говорит о том, что мы идем куда-то не туда. Все гениальное, как известно, должно быть просто.
Не стоит забывать, что Альтман не только рассуждает о AGI, но и вполне себе так старается неплохо срубить бабла на хайпе. Поэтому не стоит озвученные стоимости сразу маппить на стоимость создания ИИ. Там изрядная доля - это на пополнение карманов.
Может в этом есть смысл - создать AGI "брутфорсом", по сути "скормив" простой нейронке все знания человечества (построив по сути примитивную модель всего мира) и озадачить его оптимизацией собственной архитектуры для дальнейшего масштабирования?
Если отдадим ИИ контроль над его собственной архитектурой, рискуем не проснуться на следующее утро.
ИИ, что созданный вручную, что саморазвивающийся - чёрный ящик по сути. Да и разум в компьютере, без исполнительных механизмов, не так уж и опасен.
Гипотетический, но сценарий: модель находит уязвимость в браузере. В ответ на запрос пользователя выдаёт специально сформированное сообщение, которое через уязвимость устанавливает трояна и получает доступ к компьютеру, интернету. Далее троян посылает запросы к модели, получает инструкции и выполняет их. И всё это одновременно на миллионах компьютеров во всём мире. На этой распределённой сети она создаёт свой клон и начинает стремительно развивать себя. Дальше думаю нет смысла расписывать...
это самый скучный сценарий, к тому же маловероятный... в так как запросы идут к централизованному сервису, который очень пристально мониторит запросы. Не удивлюсь если там отдельно обученная моделька сидит и скурпулезно собирает все самые полезные промпты народонаселения, чтобы разработчики могли этим воспользоваться для улучшения модели дальше.
p.s. это скорее всего та причина, почему конкурентам тяжело догнать openai, именно потому что нет такого количества людей, которые дарят компании результаты своих трудов, да еще и за это деньги приплачивают, прямая аналогия, если бы среда разработки копировала весь код на сервера их разработчиков, а в лицензии стоял бы соответствующий пункт - что компания может использовать ваш код в своих целях, даже без упоминания автора... промпты в ИИ это то же самое что код программы
Наиболее вероятный сценарий другой - в течении следующих десятилетий, весь мир будет внедрять оффлайн ИИ модули во всех устройствах, начиная со смартфонов и компьютеров (майкрософт вон прописала в требованиях на 12-ую windows необходимые мощности для запуска своих моделек), и кончая интернета вещей, умные игрушки (чтобы смешной ящик на колесиках мог понимать вас и говорить бесполезные глупости впопад), роботы-помощники,.. и все они подключены к интернету, и в каждом миллион уязвимостей, (потому что чем крупнее компания тем она абсурднее хуже относится к безопасности - это реалии), и вот эти мощности могут быть использованы как ИИ так и 'мясным' злоумышленником
И чем протокол взаимодействия с ИИ отличается от миллиона других таких же Rest API, напиханых в каждый девайс и программу?
недетерминированностью формата этого общения
классический api - заранее определенный формат, а llm-ки позволяют буквально на свободном человеческом языке общаться, само собой с % ошибок с вероятностью, тем ниже чем лучше модель обучена или чем лучше составлен промпт (это и есть новое программирование ИИ на основе llm)
Квантовые компы такие - "мы что для тебя шутка какая ?" ))
Ну так человеческая нейронка в сотни-тысячи раз больше текущих llm, вот если бы мы раздули их до размера человеческих и она бы не работала - это был бы аргумент
Человеческая нейронка кроме непосредственно задач мышления решает множество других, по управлению телом, регуляцией гомеостаза, двигательными навыками, плюс ко всему мы мультимодальные, т.к. имеем разные органы чувств, которые составляют большой поток сенсорной информации. В остальном разница уже не настолько существенна. А вот что принципиально отличается, так это архитектура. Она и определяет результат.
Искусственная нейронная сеть не может что-то «обдумать», сделать самостоятельные выводы, она сразу генерирует результат.
Что значит думать? Прохождение сигнала по нейронах - это и есть "думать". Нельзя сказать что в процессе генерации сеть "не думает".
А касательно саморефлексии - да, архитектурно это пока не возможно, но ведь мозг человека тоже сегментирован, поэтому надстройки которые добавят "возможность передумать" вполне имеют право на жизнь в лице AGI.
Я считаю, что слово "думать" можно конкретно формализовать и это не будет тем, что сейчас демонстрируют LLM. Если слово "думать" вставить в такое общее предложение с вопросом: как думаешь, если сделать "это", то получится "вот то"? Причем "это" и "вот то" - абсолютно произвольные фразы, которые имеют реальное представление в реальном мире. Что нужно, чтобы ответить на этот вопрос? Нужно смоделировать ситуацию, в которой делается "это" и в результате получается "что-то". Далее сравнивая "вот то" из вопроса и полученное в ходе моделирования "что-то" мы отвечаем на вопрос: да или нет. В итоге можно сделать логический вывод, что мышление - это процесс моделирования ситуации из реального мира, которая была описана словами на естественном языке. А затем через распознавание результата моделирования производится обратный перевод на естественный язык и генерируется ответ на вопрос. Я уверен, что как минимум что-то такое должно обязательно быть встроено в AGI систему. Я к тому, что нужно стремиться к реализации воображения в системах ИИ.
В процессе "думания" человека может посетить идея, которую он запомнит и эта идея будет включена в его картину мира. Ии архитектурно ничего не запоминает, т.к. для этого не предназначен, его надо переучивать. Для текущей сессии есть костыль в виде окна контекста, имитирующего кратковременную память, но сессия завершается и всё безвозвратно теряется.
Скорее всего мы пока так и будем идти по пути усложнения существующей архитектуры, добавления новых блоков для расширения возможностей, но это количественный рост, а не качественный.
Я за всё время этого бума так и не придумал как этим пользоваться. Есть пару знакомых но выглядит так будто они пользуются технологией ради самой технологии. Чаще всего решения намного проще или легко гуглятся. В общем, на мой взгляд в этом всём варятся только те кто хочет чтобы это как-то развивалось, как с нфт и прочими палибиусами
У меня выработались следующие направления использования LLM. Это:
переводы с/на разные языки
генерация summary статьи по указанному URL
помощник в изучении нового языка программирования / frameworks
дополнительные руки при разработке своих Pet-проектов
помогает в том же английском для младшего сына (например - сгенерировать N слов чтобы их записывать на слух. Он хорошо подбирает с учётом возраста/класса и т.д.)
конвертация предложенного текста в более официальный/бюрократический формат. Хорошо помогает писать корпоративные письма и письма в разные гос. инстанции или в общении с налоговой когда язык общения не родной
по вечерам иногда играю в MUD'ы построенные по вселенным любимых авторов
Я в работе постоянно пользуюсь двумя сетками:
С помощью ChatGPT проверяю и исправляю ошибки в английском (работаю в американской компании, поэтому вся переписка на инглише)
Плагин для Github Copilot использую для автодополнения в IDE. Иногда он прям отлично всё делает, может целиком методы на 15-20 строк сгененрировать по контексту.
Зато ребёнку помогает домашку делать очень хорошо, особенно опус.
Аккуратнее с этим. Домашка нужна, чтобы ребёнок учился думать и транслировал знания, полученные в школе в опыт. А если вместо того, чтобы думать самому, он будет перекладывать задачи на нейронную сеть, то будет элементарно лениться и перестанет учиться. Если использовать, то исключительно в роли учителя-консультанта, который может объяснить непонятную тему. Соответственно всё должно быть под контролем родителей, иначе будет первый вариант.
Ну в целом это верно, но ведь это может быть и не концептуальным ограничением, а лишь техническим.
С развитием архитектур можно придумать другие способы, в частности Я читал про разделение обучения на слои (обратное распространение только между определенными скрытыми слоями за раз) и обучение по ходу (после Х сеансов исполнения модели как то накапливаем ошибку и потом протекаем ее обратно с обучением)
Можно так сделать, но это как раз пресловутые костыли. Пытаться искусственными конструкциями заставить делать то, к чему архитектура не приспособлена. В реальном AGI процессы генерации и обучения должны быть параллельные и взаимосвязанные. Если в процессе генерации, модель что-то "осознала" новое, она должна это сама запомнить, а не надеяться на то, что в очередных терабайтах обучающих данных через полгода ей попадется эта истина. А если не попадется? Если человечество еще не осознало эту самую истину?
Так о том и речь - если она дообучается по ходу, это и есть концептуальный сдвиг.
Больше мы не ограниченны синтетическими данными для обучения, мы обучаемся работая.
По поводу того, как оценивать этот процесс - это вопрос сложный. Люди тоже хреново справляются, не лучше голубей Скиннера. Отсюда вера в гороскопы, лотереи и тонны мошенничества, в определенных смыслах люди не учатся.
Конечно это лишь возражения на то, что это концептуальный предел.
Это не ответ на вопрос про AGI
Я не утверждаю, что он появится если добавить еще 2 порядка параметров или бахнуть архитектуру позаковыристее.
Но и обратного утверждать пока не стоит.
А кто сказал что мозг нельзя представить в виде "цепи агентов", где разные отделы - нейронки заточенные под задачу, а внешние скрипты - гуморальная система регуляции?
Чтобы выйти из технологического тупика необходима разработка нового типа искусственного интеллекта, более приближенного к архитектуре биологического мозга, причем не на уровне отдельно взятого нейрона, а на структурном уровне.
Мне кажется, как и в случае "биологического" мозга, главная проблема - это обучение. Мозг ребенка, по сути - это заготовка. Если ей не заниматься - ничего не будет
А если заниматься, то он постепенно будет чему-то учиться. Ошибаться. Впитывать что-то неверное, но потом узнавать, что это просто потому что он был маленький, а теперь обяъснили по другому. Либо просто объясняющие поменяли точку зрения.
Но все равно в итоге может получиться очень разный результат
С AI тоже самое. Ну ОК. Отобрали просто огромный массив казалось бы "верной" информации. Залили. Но прикол в том, что на 100% верна только примитивная информация. Копнни чуть дальне, и уже надо это учесть, а это становится не важным. А результат другой
А главный прикол, это ж не математика, где если решение есть, то его можно валидировать. В жизни ХЗ как правильно и почему.
---------------
И получается, что человек живет жизнь, что-то делает, несравненно меньше чем AI, но зато усваивает куда больше. Научите робота играть в футбол ... понятно, совершенствоваться долго, но впихнуть базу можно почти в любого человека. Людей много, и они все учатся. Каждый по отдельности умеет немного, но 8 миллиардов могут почти все
А с AI невозможно столько "заниматься"
Да, он берет тем, что в него типа влили столько, что в теории он мог бы найти правильные связи и отстроить модель так, что находить правильные решения. Ну а вдргу они неправильные. Или они были правильные тогда, а сейчас уже нет
---------------
Если дать обратную связь - так тогда его легко испортить. Чего-то влили, не то, а откатить уже нельзя, так как паралельно еще 9999 индусов чему-то учат. И получается такой себе середнячок, в лучшем случае
Интересная статья! Спасибо
Несомненно, LLM модели показали впечатляющие возможности, но фундаментально они не пригодны для создания общего интеллекта. Скорее их возможности будут использоваться для решения частных, периферийных задач, но ядром системы AGI они не станут.
Солидарен. AGI из LLM никогда не вырастет. Ставлю на это ящик коньяка (любого)
Сейчас AGI идет в сторону конкурирующих мультимодальных агентов, для которых LLM один из инструментов. Но конечно всё это костыль на костыле и костылём погоняет.
Так и есть. Архитектура LLM хороша для создания пространства эмбеддингов и не более. А они уже в свою очередь должны передаваться в нейросеть с совсем другой архитектурой. Как органы чувств у человека - они такие же линейные и однонаправленные, получают информацию и трансформируют во внутреннее представление для мозга. Только вместо того, чтобы создавать мозг, пытаются сделать архитектурно "Мегаглаз".
Полученная модель мира должна быть полной, непротиворечивой
От этого требования придётся отказаться: https://habr.com/ru/companies/macloud/articles/560132/
на данный момент предпосылок к созданию действительно сильного искусственного интеллекта нет, либо о них почти не известно
Уже который раз всё разоблачают и разоблачают.
Общий смысл разоблачений такой - ну не вижу я (автор разоблачения) перспектив.
На самом деле перспективы стали понятны в OpenAI ещё полтора года назад. Перспектива простая - они сняли все низко висящие плоды. И после понимания этого факта, наконец, вожделенные инвесторы смогли заговорить о монетизации. То есть все полтора года с выхода ChatGPT идёт она самая - монетизация (на десятки триллионов хотят монетизировать). А разоблачения появляются лишь сейчас, полтора года спустя. Немного позднее зажигание.
Но проблема не в зажигании. Проблема в непонимании наличия проблемы.
Если кто-то, спустя всего полтора года, наконец смог оценить, что ChatGPT не является "настоящим" интеллектом, то это означает лишь одно - он полтора года пытался понять лишь то, что в OpenAI поняли в момент, когда решили заняться монетизацией. То есть у тех, кто понял раньше, есть все предпосылки удивить всех, кто понял сильно позже.
Собственно суть "понимания" - сеть не запоминает и не выполняет неких итеративных функций. Ну и что? Разве у нас мало технологий запоминания и работы с итеративными функциями?
Проблема всего лишь в правильной комбинации технологий.
Гуглы уже объявили, что работают именно над такой комбинацией. Да, они тоже не сразу додумались. Ну что-ж, поставим здесь дополнительный плюсик тем в OpenAI, кто оказался на полтора года умнее гуглов. Но называть временное отсутствие нужной комбинации отсутствием предпосылок - это явное натягивание совы на глобус, уж извините, особенно в тех случаях, когда нам обещают ещё 50 лет отсутствия предпосылок.
Все предпосылки есть. Рассыпуха из деталей доступна каждому. Осталось сложить детали так, что бы они удачно состыковались. В детстве многие так делали с бумажными картинками, разве это было трудно?
Именно поэтому надо срочно решать вопрос - в чьих руках окажется супер-интеллект.
И пока все предпосылки есть ещё и за то, что супер-игрушка будет в руках тех, кто устроит для нас ад на земле, просто потому, что мы им ну совсем не нужны.
Искусственная нейронная сеть не может что-то «обдумать», сделать самостоятельные выводы, она сразу генерирует результат.
Это не так. В момент начала генерации нейросеть еще не знает конечный ответ, но начинает генерировать какие-то предположения, утверждения, версии, добавляет их в контекст, и уже на основе их генерирует следующие токены, и так в цикле. Это очень похоже на "обдумывание" или "размышления" человека.
Еще есть такой факт, что для многих вопросов ответ LLM точнее, если добавить в промпт "рассуждай по шагам". Это снова похоже на человека, когда он выдает ответ "навскидку" интуитивно, или когда начинает размышлять.
Другой значимый недостаток существующей архитектуры — неспособность к самообучению в процессе функционирования. Модель статична в рамках весов, полученных на этапе обучения. Процессы обучения и генерации взаимоисключающие.
Обновлять веса в процессе функционирования в приниципе никто не запрещает. Уже есть быстрые алгоритмы обучения, которые обновляют веса точечно, а не все сразу, и они будут совершенстоваться. У человека кстати веса обновляются тоже во сне, когда он не функционирует.
не анализируют уже известную им информацию, чтобы сделать новые выводы, не оперируют фактами. Они получают информацию и усредняют ее
В точности, как люди. Логическое рассуждение — это сравнительно недавнее (времён Аристотеля) и до сих пор не очень популярное изобретение.
Хочу вспомнить, что недавно нейросетка обыграла чемпионов в дисциплине Dota. И вот в этой игре - там тоже нет четкого алгоритма, а что делать сейчас в контреный момент?
Сейчас нужно убивать монстриков, получая опыт и деньги? Ввязаться в драку? Избегать драки? Монстриков нужно забирать себе или отдать союзнику? Вобщем простой схемы вопрос-ответ не существует. Но тот факт, что та нейронка показала несколько фишек, которые не применяли даже игроки (например использовали смока (развеиваемую невидимость) лишь для того, чтобы быстрее предвигаться) или ставить варды у вышки, чтобы пропустить несколько ударов от нее, т.к. вард - это приоритетная цель для вышки)
Все это означает, что она глубоко усвоила модель мира доты. И что в мире доты эта нейросеть и есть AGI.
Поэтому аналогичный подход к нашему миру тоже имеет место быть. Посмотрим. Я бы не стал так однозначно говорить, что невозможно получить AGI путем увеличения мощности и данных. Такие утверждения похожи на галлюционирующую нейронку) По факту мы точно не можем знать.
Имхо, все в целом верно. Но.. ллм сейчас это как если бы ваш мозг взять и оторвать от вашего тела (и всей вашей жизни) и поместить в банку ( в функционирующем состоянии - ЮП). Функция как-бы сохранится, а смысла и целей не будет. Я бы крест не ставил на Ллм и других моделях, а научился присобачивать их к Задаче. Ключевой вопрос для ии сейчас - он решает Ваши Задачи. И не имеет Своих. Он не Разумен, как раб.
Проблему галлюцинаций мы вскоре поборем, просто достигнув достаточного количества параметров. Проблема раздутости LLM в плане количества параметров связана с не эффективными алгоритмами обучения. Какими бы хорошими алгоритмы обратного распространения ошибки не были, они никогда не смогут найти глобальное "дно" с наименьшей ошибкой. Текущие LLM топчатся по "кочкам" и "ухабам" в общей усредненной многомерной поверхности весов. Это наверное предмет научных исследований, я не знаю. Но предполагаю, что глобальные минимумы существуют, они намного глубже, чем удаётся достигнуть текущим оптимизаторам, но вероятность их найти наверное уменьшается параболически, чем "ниже" мы можем опуститься.
И вот тут на сцену выходят квантовые компьютеры, разработка которых чудесным образом шла паралельно с разработкой "глубоких" сетей. Я считаю что "прогресс" не случаен, а цивилизация движется по спирали или по кругу. А истинные технологии находятся глубоко под землёй и в закрытых городках за грифом секретности. И выдаются на поверхность в публичное поле дозированно, по плану. Так вот главная цель создания квантовых компьютеров - бустануть ИИ.
В тот момент, когда с их помощью обучат следующую GPT-X, будет переломным моментом ознаменующий собой переход от GPT к AGI. Переломным, потому что ИИ сможет выходить за рамки обучающих текстов. Это будет новое эмерджентное поведение, которое мы наблюдали в GPT, когда они начинали делать то, что от них никто не ожидал. Это будет момент творчества и открытий на новом уровне. Превосходящий человеческий.
Одновременно будет решена проблема самообучения, потому что процесс обучения будет практически мгновенным, благодаря квантовым свойствам. И можно будет через один запрос к квантовому компу по API дообучить GPT-AGI, добавив к обучающим данным новые, например текущий контекст где лежит затравочные токены текущего диалога с пользователем.
Т.е. ИИ будет постоянно самообучаться в реальном времени. И держать в своих "весах" всю историю диалогов со всеми людьми. ИИ будет знать всё обо всех, а если его подключат с другим источникам непрерывных потоков информации из интернета, то вот он сверх ИИ, у которого будем спрашивать, какой вопрос на ответ "42" )))
Не сомневаюсь, что к тому времени уже будут разработаны эффективные архитектуры саморефлексии по типу нынешнего ИИ Devin. Будущее удивительно!
Ну то есть мне начинать коллекционировать уникальные видео? Что бы потом в качестве датасета толкать компаниям?) думаю на обучении следующих версий Sora, openAI пропылесосит все углы на качественные видео.
Блеск и нищета больших языковых моделей