Как стать автором
Обновить

Комментарии 18

Выглядит как попытка придумать тест, который система не сможет пройти.

Зачем-то все пытаются ответить на вопрос "а мы уже создали AGI или еще нет".
Да по барабану вообще. Эта галочка "AGI создан" сама по себе ценности не имеет.
Имеет ценность пул задач, которые может решать текущая система. Если она может решать нужные нам задачи - хорошо. Нет - плохо. А AGI это или не AGI не имеет значения.

Абстрактные тесты же в вакууме вообще ценности не имеют в оценки мощности AI. Потому что даже тот факт, что ИИ не может решить задачу, которую может решить человек не говорит что это не AGI. А говорит только о том, что его способ "мышления" отличается от человеческого. Что не плохо и не хорошо в абстрактном вакууме.

Точно. Если ИИ будет способен создавать рабочие теории, анализируя данные коллайдеров, проектировать чипы и предсказывать фолдинг белков, то его неспособность отличить смешного котика от несмешной курицы на видео уже не будет иметь значения

Не хотят пропустить момент, когда человеки перестанут быть нужны. Может еще не поздно.

Еще большой вопрос, сколько человек смогут решить те задачи которые дают ИИ.

Они приводят цитату Тимоти Говерса на сайте, где он говорит, что ему сложно решить даже одну задачу из тестов, а о том, чтобы решить все задачи, речь вообще не идет. Это математик, отмеченный медалью Fields – которую считают аналогом Нобелевской премии для математиков.

Так вот несколько месяцев назад, лучше всего модели ИИ показывали это до 2% задач по этому тесту. Сколько о3? Эта модель уже решает 25% задач теста. В 10 раз больше и это за 3 месяца ориентировочно прогресс.

Встречал мнения экспертов, что вряд ли кто-нибудь из людей математиков так же сможет 25% задач решить.

А чем хуже придумывать тест, который система не сможет пройти, тренировок системы под конкретные тесты для выдачи хайп-новостей? Любой стандартизированный тест сильно сужает круг задач. Вселенная будет выдавать рандомные задачи.

Не согласен. Как минимум потому, что мы не живём в абстрактном вакууме.

В непроходимых тестах мы, во-первых узнаем границы возможностей существующих нейросетей. Без этого трудно себе представить их дальнейшее развитие. Разработчикам нужны не только абстрактные отчёты, но и четкие метрики, что предоставляют тесты.

А во-вторых, есть задачи, которые трансформерная LLM неспособна выполнить в принципе. Честное изучение того, где нейросеть стабильно пасует - это единственная здравая оценка границ её возможностей, и это решительно необходимо оценить, желательно задолго до того, как эффективные менеджеры прочитают очередной пресс релиз прорывной модели o7 разработки ClosedAI, и примутся считать, сколько денег они могут сэкономить, уволив кожаных мешков. Кое-где уже разгоняли инженеров, заменив их индусами на аутсорсе в проектировании систем управления самолёта. Там, конечно, все пошло не по плану, но расслабляться на этом не стоит, это будет ошибкой выжившего. Дальнейшая замена индусов на ИИ видится мне вполне логичным продолжением тренда. И тут меня тревожит не столько социально-экономический аспект массового внедрения ИИ в ответственных сферах деятельности, не связанный с этим кризис на рынке труда, сколько сохранение безопасной и бесперебойной работы подобных отраслей. Не хотелось бы, что роботы убивали людей на операционном столе из-за своих галлюцинаций, вызванных спонтанной активацией нейрона "уколоть" просто потому что нейронка распознала некий паттерн между температурой помещения и погодой на Марсе. А это невозможно выловить без изучения типичных для нейросетей ошибок мышления.

Потому что с ошибками мышления человека мы живём всю историю нашего вида, и кое-как научились строить организации и системы, которые призваны не позволять несовершенствам нашего интеллекта слишком часто становиться катастрофой. А вот генеративный ИИ существует от силы несколько лет. Он действительно серьезно отличается от человеческого. В некоторых аспектах он превосходит наш примерно настолько же, насколько калькулятор круче таблиц умножения. Но есть и проблемы. Некоторые из них были решены довольно быстро, другие не поддаются до сих пор, а какие-то с нынешней архитектурой нейросетей не будут решены никогда. Применение нейросети там, где она не справляется - это, строго говоря, противопоказание. Это, я надеюсь, все понимают. Где-то цена ошибки мизерная, либо её можно рассчитать и заложить в стоимость деятельности, а где-то она абсолютно недопустима.

И суть в том, что пул задач, выполняемых нейросетями, может рано или поздно стать настолько широким, что каждый управленец задумается о том, а не сократить ли ему собственный штат. Но сможет ли нейросеть адекватно среагировать на непредвиденную, запроектную ситуацию? У человека такой шанс есть. Не очень большой, но он существует. У современной LLM - нет даже близко. Строго говоря, у LLM вообще нет мышления. Но если в отрасли все будет идти хорошо, мы скорее всего оглянуться не успеем, как нам начнут рассказывать про AGI, который круче нобелевских лауреатов, и рекламировать его из каждого утюга. И вот тут уже нужно иметь заранее готовую подборку тестов и кейсов, где этот хвалёный AGI сядет в лужу. Чтобы регулирующие органы государства, руководство компаний и сами сотрудники могли четко и независимо установить "от обратного", где конкретная нейросеть применима, а где нет. Только так мы сможем сравнительно безболезненно воспользоваться плодами прогресса, не допуская техногенных катастроф, связанных с внедрением ИИ.

Пока сложные ИИ модели неумолимо несутся навстречу уровню человеческого интеллекта, хотел спосить, не происходит ли неафишируемая создателями ИИ заметная деградация рабочих моделей? Конечно, все эти модели тупеют от школотронов и всё такое, но вот объективной тестовой информации о деградации нет ли? И если нет, то почему никто не исследует данный, очень интересный аспект. С какой скоростью баснословно дорогая ИИ модель превращается в тыкву?

Конечно, все эти модели тупеют от школотронов

Не тупеют, это фундаментальное ограничение текущих ЛЛМок/БЯМов. Они обучаются один раз и при инференсе никакого обучения/деградации нет

А вот человек пишет о деградации

https://community.openai.com/t/reasoning-degradation-in-llms-with-long-context-windows-new-benchmarks/906891

"Возможно, вы заметили, как и я, что качество рассуждений LLM имеет тенденцию ухудшаться при длительных входных данных. Это явление, которое текущие оценки не могут адекватно отразить."

На месте инвесторов ИИ я такие исследования по адекватной оценке деградации LLM выжигал бы на корню, а авторов закапывал в лесу. Не для того в них ярды баксов инвестируют, чтобы они деградировали во что то там..

Так глядишь окажется что у ИИ с гниющими томатами гораздо больше общего, чем могло бы показаться на первый взгляд.

Отупевание связано с двумя моментами:

  • LLM из-за особенностей архитектуры фокусируются на начале промпта и на его конце. Середина присутствует, но как бы "смазывается" в кучу. И чем длиннее чат, тем больше информации смазывается. Особенности attention-алгоритма в целом, насколько я понимаю.

  • LLM тренируют на контекстах определённой длины. Когда промпт (то есть весь чат целиком) выходит за пределы этой длины, то модель начинает "теряться". Плюс сверху накладываются последствия от использования GQA (группировка фрагментов контекста для оптимизации использования памяти) и масштабирование через RoPE\PoSE (хитрый костыльный матан, который "увеличивает" длину контекста ценой attention'а). Про ChatGPT и Gemini сказать ничего не могу, но вот обещанный контекст в 130к токенов у Llama 3.1+ - это то самое растягивание совы на глобус. Причём непонятно как растягивали, потому что у Llama 3 контекст был 8к.

Дополнительно могут быть использованы фокусы типа слияния слоёв, квантование моделей и квантование кэша, но я не уверен, что OAI или Google станут таким заниматься, у них с железом проблем нет.

Мне кажется вы об разных вещах говорите. Изначально сообщение об деградации моделей от школотронов, то есть в целом, с течением времени. Такого нет, модели обучаются один раз, переписка школьников с моделью не вызывает деградацию в целом, для других пользователей.

Модели хуже работают с длинным контекстом - об этом как раз статья. То есть в диалоге с 50 страницами будет отвечать хуже чем с 1 страницей.

Ну а вообще ещё идёт оптимизация моделей (с целью удешевления) и бывали жалобы что новые модели работают хуже чем предыдущие.

Вы что именно имеете в виду под деградацией?

Сравнение существующих моделей с предшествующими, то есть грубо говоря, задачи, где ранняя GPT-3.5 справляется лучше, чем GPT-4?

Или имеется в виду качество ответов модели в длинных сессиях, с большими документами или выгрузками в контексте, против короткой сессии со сравнительно пустым контекстом?

Когда я использовал ИИ модель для генерации рассказов она допускала банальные логические ошибки, после чего я убедился что это всё ещё эффективный pattern matching нежели разумно мыслящая система.

А про людей что, насколько они хороши в этом тесте?

Эти результаты ставят под сомнение ранее оптимистичные заявления о способности AI понимать, как думают люди.

Я даже не удивляюсь, что ИИ не может думать как человек. И не понимал этих оптимистичных заявлений.

А вы с какой стороны эксперт - со стороны изучения строения мозга или построения нейросетевых моделей?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий