Comments / Profile of Dron007 / Habr

How to become an author

User

Profile Publications Comments 483Bookmarks

Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей — решено в OpenAI o1

Dron007 Sep 13 at 14:01

Там всё совсем не так категорично. Во многих случаях LLM справляется с логикой, включая транзитивность. Были исследования, что проблемы связаны с тем, что моделям просто негде было обучаться логике. Если же привести пример или файнтюнингом обучить на требуемых логических операциях, результаты намного лучше. Ну, вот этим, собственно, и занимались в o1 - обучали именно мышлению по шагам, что включает в себя и логику. Маск вообще считает, что если найти датасеты для мышления, то обучить на них модель и вот уже и AGI. При этом объём модели, которая умеет только хорошо мыслить, как он считает, может быть даже меньше 1 млрд. параметров.

+2

Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей — решено в OpenAI o1

Dron007 Sep 13 at 13:44

Мой ответ же был не вам, а на предположение о внутреннем переводе на английский. Но и размер стиха она иногда сохраняет, а рифмы Sonnet выдаёт довольно неплохие. Токены токенами, но при необходимости модели в состоянии анализировать текст и на уровне букв. Просто это им сложнее. Но согласен, что с уяснением звучания слов в мультимодальных моделях стихи могут быть намного качественнее. ChatGPT уже якобы такая, но этот режим пока не всем доступен.

0

Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей — решено в OpenAI o1

Dron007 Sep 13 at 10:35

Тут не очень корректно промпты. Какие выводы вы ожидали про куздрю? Что вы этим для себя подтвердили? Я как-то задал ей задачу сгенерировать целый текст из подобных несуществующих слов, которые она сама придумала. Довольно успешно справилась. Если вы попросите оценить слова по частям речи, вполне может справиться.

Что можно сказать о персонаже? Нет такого персонажа. Почему вы ожидаете, что она будет догадываться, что вам нужно? Вы этого не спрашивали. Если вы спросите, на какое имя это похоже, вполне возможно что ответит. И так далее. Ну и 3.5 на порядок более слабая модель, чем GPT 4., думаю, уже находит какие-то особенности и без вопросов и с текстом на П может и разобралась бы, правда там токены могут мешать.

0

Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей — решено в OpenAI o1

Dron007 Sep 13 at 10:27

Это не так работает. Стихи по-русски с рифмами он вполне себе пишет. На маленьких моделях и изредка на топовых бывает, что в тексте проскальзывают слова из других языков (английский, китайский для соответствующих моделей), но это не из-за перевода. Выбор следующего токена определяется обучающей выборкой, правилами файнтюнинга или системным промптом, поэтому там состязаются желания выдать подходящий токен другого языка, требования выдавать ответ на том же языке, что и запрос, оценка смысла токена. И есть абстрактные смыслы которые от языков не зависят, так что текст генерируется сразу, без перевода, чему есть куча подтверждений.

0

Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей — решено в OpenAI o1

Dron007 Sep 13 at 10:19

Очень вероятно. Так эволюция примерно нас создала. Хорошее покрытие тестами и всё.

+1

Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей — решено в OpenAI o1

Dron007 Sep 13 at 10:18

Проходит время и действительно появляется новая прошивка.

Или не появляется, или появляется глючная. При чем тут понимание?

Вы утверждаете, что если человек в состоянии выполнить именно эту конкретную задачу, то он обладает неким "пониманием", а в других случаях не обладает? Если он даже специалист и налажал в прошивке то всё, вы ему отказываете в обладании этим свойством?

Даже GPT 4o можно скармливать API новой библиотеки и она в состоянии написать код, так что, понимание начинается с какого-то уровня сложности задачи просто? Да, это составная задача и вот именно для таких и создана обсуждаемая o1,. Не все примеры её размышлений ещё изучил, но посмотрел в какие она дебри залезла при расшифровке текста, впечатлило.

Но всё-таки это тест не на понимание, а на выполнение узкоспециализированной задачи, а хотелось бы тест, которым можно проверить любого человека (и не только). Из этой же серии проверка на наличие сознания, например. А то люди оперируют терминами, смысл которых не определён и утверждают вещи, которые не знают как проверить.

+1

Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей — решено в OpenAI o1

Dron007 Sep 13 at 06:11

А вы понимаете? Почему вы так в этом уверены? Почему мы должны быть уверены? Какими тестами мы это можем определить? Дайте вообще ваше определение термина "понимание", очень интересно.

Как это "запоминает только контекст". А что она должна запоминать в чате? Что есть "сама суть задачи" и почему вы так уверены, что она её не понимает?

Код написать не может? Ну, как сказать. Я попросил, написала вполне рабочий код, а меня попросил член моей команды. Так кто именно не может написать рабочий код в итоге?

Насчёт сложной да, не в состоянии пока. Хотя сложность для всех разная тоже и размером кода это не всегда определяется. С помощью Курсора уже вроде создают видеоредакторы и криптобиржи. Это достаточно сложные программы? Replit разворачивает сайты с сервисами в облаке сразу. Я не спорю, что сейчас применение ограничено и может быть множество глупых ошибок. Но как раз логическое медленное мышление это и есть необходимое условие для решения сложных задач. Другие, на мой взгляд , являются большой контекст (сейчас правда уже 2 млн, но не у самой продвинутой модели, Gemini 1.5), пространственное мышление (требуется мультимодальность и мышление образами или эмбеддингами, не только текстом), без которого многие задачи не будут решаться, рабочая память/рабочий стол (не все же выдачу использовать для этого). Возможно, что это уже позволит решить большинство человеческих задач. Планирование и медленное мышление это то, что предполагается в каком-то виде добавили в o1. Возможно, и их надо ещё сильно улучшать.

+28

Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей — решено в OpenAI o1

Dron007 Sep 13 at 06:02

Вроде как сильная сторона модели - рассуждения по шагам, логическое мышление. А задача про гонку какая-то совсем уж примитивная. То, что 4o выдала ошибку это какой-то её косяк, возможно разовый. По одной генерации вообще судить сложно. С братьями у меня какие-то модели отвечали нормально.

+1

Gartner: Шумиха вокруг генеративного ИИ не соответствует его реальным возможностям

Dron007 Sep 11 at 14:59

Да тут какие-то бессодержательные комментарии вообще. Люди не следят за темой, не вникают и пишут что-то несуразное. Очень низкий уровень дискуссии Удивительно, что это на Хабре..

0

Gartner: Шумиха вокруг генеративного ИИ не соответствует его реальным возможностям

Dron007 Sep 11 at 14:57

Здрасьте, перевод не улучшился. Он уже практически человеческий стал, с идиомами, фразеологизмами. Не знаю что вы переводите. Если же запихивать в языковые модели, да ещё и уточнять, то можно вообще любой сленг перевести.

0

Gartner: Шумиха вокруг генеративного ИИ не соответствует его реальным возможностям

Dron007 Sep 11 at 14:54

Экспертов в AI- области. Андрей Карпаты, Andrew Ng, Yann LeCun
и десятки других. Что именно вы эксперно разработали, что продвинуло эту отрасль вперёд?

+1

Gartner: Шумиха вокруг генеративного ИИ не соответствует его реальным возможностям

Dron007 Sep 11 at 14:50

Который никого особо и не зацепил из гигантов. И вы правда не осознаёте разницу между всяким buzz и технологией уже в своём детском виде заменяящей людей во многих областях (редактура, перевод, генерация медиа контента)? Недавно услышал в супермаркете местном рекламную песню явно созданную ИИ. Ну, то есть я то услышал, а большинство людей не сталкивающихся и не отличило бы. Это уже какие-то музыканты/исполнители заказ не получили. И такого много. Программисты тоже на очереди. Для того и вбухиваются сотни миллиардов. Это роботизация всего чего только можно на производстве. Amazon, Tesla, TSMC. Неужели не следите за темой? Они там виртуальные копии заводов делают, чтобы в симуляции обучить роботов и потом сразу ставить на рабочее место.

-1

Gartner: Шумиха вокруг генеративного ИИ не соответствует его реальным возможностям

Dron007 Sep 11 at 14:40

Ну да, научите капиталистов деньги считать. Те, кто репу чешет и рассказывает о хайпе останутся у разбитого корыта в лаптях.

-1

Gartner: Шумиха вокруг генеративного ИИ не соответствует его реальным возможностям

Dron007 Sep 11 at 08:38

OpenAI обладает самой эффективной языковой моделью на данный момент. Но не она одна. Этим направлением занимаются все IT-гиганты и вбухивают сотни миллиардов. Google, Microsoft, Nvidia, Meta, Claude. Из Top 500 компаний 98% что ли использует AI. Большинство экспертов сходится в том, что AGI вполне реализуем, расхождения лишь в датах. Когда заработают все те мощности, в которые сейчас деньги вбухивают, будет очередной виток развития. Но и сейчас есть что исследовать, постоянно что-то неожиданное обнаруживается.

-3

Gartner: Шумиха вокруг генеративного ИИ не соответствует его реальным возможностям

Dron007 Sep 11 at 00:23

От авторов "мейнфреймы вымрут к 1993 году" и "Apple лучше не выпускать железо".

Эрик Бретену, ветеран исследований ИИ с 45-летним стажем

Вот этот опыт ему и мешает понять что к чему..Пути назад уже нет. Шумиха потомy что многим понятно, что это революция и всё только начинается. Скорее большинство недооценивает потенциала развития и неизбежных изменений. Логика это известные слабости нейросети и есть множество перспективных направлений как с ними бороться. OpenAI даже уже на что-то намекает, посмотрим.

-1

Музыкант в США заработал $10 млн на генерации контента несуществующих артистов, который «слушали» боты

Dron007 Sep 8 at 03:59

Если ему дадут 20 лет, то уже лет через 10 в законы могут ввести понятие прав ИИ, в том числе и ботов. Тогда он сможет доказать, что нельзя лишать ботов права прослушивать музыку наравне с людьми. Даже если они выполняют команду.

0

Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей

Dron007 Aug 12 at 13:55

Два месяца для нейросетей целая вечность сейчас при текущей скорости развития.

0

Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей

Dron007 Aug 12 at 02:42

Почитайте про AlphaZero, это ж классика и очень увлекательно. И на Хабре были статьи. Да, там просто заложили правила, информацию о последних позициях, потому что это важно для некоторых правил, рокировки, например и запустили играть саму с собой. Через несколько часов игры она уже обыгрывала гроссмейстеров, потом все шахматные программы. Но более значимо, что та же самая программа обучилась игре в Го и тоже всех обыграла. Го на несколько порядков более сложная в плане комбинаторики задача.

0

Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей

Dron007 Aug 12 at 02:29

Если вы подсчитаете энграммы, то окажется, что никак невозможно запихнуть в нейросеть все комбинации, которые она может выдать. На этапе обучения происходит обобщение, формирование абстракций, связей между объектами. Это и есть модель мира. Это подтверждено исследованием того, какие области активируются при игре в аналог реверси. Была работа. Конечно, это не та модель мира, что будет у человека, хотя мы и о человеческой мало что можем сказать. Вот в этой работе, например, обнаружили где в модели хранятся разные фичи (отдельные объекты, качества вроде лести, понятие уязвимости программы и т.д.) и показано, что они не зависят от языка, от модальности, то есть абстракции высокого уровня. Их можно активировать и стимулировать это качество при ответе модели. Чем не модель мира и влияние на неё?

+2

Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей

Dron007 Aug 12 at 02:19

Claude-3-5-sonnet-20240620 лучше всего справляется и с частными вариантами и в общем виде. Gemini-1.5-pro-exp-0801 решила в частном виде, с общим начала рассуждать правильно, потому вдруг выдала M вместо M+1.

Статья наверное старая, раз не тестировали на версии 3.5. Надо просто подождать. На следующей неделе вроде как Q* (strawberry) возможно выйдет и там как раз логические рассуждения должны пофиксить. Но возможно и нет, там много хайпа пока по теме.

Но в целом да, языковые модели это скорее просто способ извлечь воспоминание/знание из большой базы данных. Хотя даже они демонстрируют весьма впечатляющие результаты. Но это так называемый первый тип мышления. Человек же для большинства задач использует второй тип, когда надо не выпаливать первый пришедший в голову ответ, а строить цепочки рассуждений, критически оценивать, визуализировать. К этому всему только подбираются. Возможно, будет совсем другая архитектура, возможно, поверх языковых моделей добавят агентов, визуальный блокнот и что-то ещё. Те нейросети, что мы видим сейчас, это самые тупые нейросети из тех, что появятся за последующие 10 лет, например. Вспомните какие видео и фото генерировались 2-3 года назад.

Есть задачи намного более простые, с которыми языковые модели путаются. Классическая - подсчитать сколько букв R в слове "strawberry", но тут больше с токенизацией связано, чем с рассуждениями. Задачи где человек легко визуализирует ситуацию и даёт ответ, тоже пока сложны. Думаю, тут развитие мультимодальных моделей, мыслящих не словами, а эмбеддингами, должно помочь. Сейчас такие деньги и интеллектуальные ресурсы в это вбухиваются, что через пару лет мы поверить не сможем, что такой прыжок совершён.

+1

2

3 4 ...