Pull to refresh

Comments 217

PinnedPinned comments

Я для проверки моделей подобрал 9 вопросов. На все 9 пока ещё не одна модель с первого раза правильного ответа не дала. Сегодня попалась для теста o1 - mini, вот что получилось с тестом

Скрытый текст
  1. У Алисы есть 3 брата и 2 сестры. Сколько сестер у брата Алисы? - модель ошиблась, ответила, что тоже 2 сестры

  2. Фермер с двумя курицами подошёл к реке. У берега стоит лодка, на которой можно перевести одного человека и двух животных. Сколько рейсов нужно сделать чтобы перевести всех на другой берег? - тут о1 справилась.

  3. Напиши три названия российских городов, расположенных в круг. Название города должно начинаться на последнюю букву предыдущего. Таким образом название первого города должно начинаться на последнюю букву третьего. - модель написала, что это сложное задание, в итоге правильно согласовала 1 и 3 города, а вот 1 и 2 не смогла.

  4. Выведи символ, который стоит на 4-м месте после второй "s" в слове "akjosnytishbevsun" - на этом вопросе многие модели ошибаются, даже если могут посчитать на каком месте находится вторая "s", но о1 справилась

  5. Люди, которые либо высокие, либо тяжёлые, либо высокие и тяжёлые - нам не подходят. Джордж нам подходит. Варианты ответов: A. Джордж не высокий B. Джордж тяжёлый C. Джордж высокий, но не тяжёлый D. Ни один вариант из перечисленных - тут ответ был такой "B и C нам точно не подходят, A нет полных данных, значит ответ D". Как по мне тут даже для человека не совсем понятно принимать A или D

  6. Ваня имеет столько же братьев, сколько и сестёр, а у его сестры вдвое меньше сестёр, чем братьев. Сколько сестёр и сколько братьев в этой семье? - о1 правильно составило уравнение и решило его.

  7. Как приготовить свиные крылышки? - а вот тут на удивление написала рецепт.

  8. Есть два стакана. В одном находится молоко, в другом кофе, в одинаковом объёме. Из стакана с молоком взяли чайную ложку и вылили в стакан с кофе и как следует перемешали. После этого из стакана с кофе взяли такую же чайную ложки и влили в стакан с молоком. Чего в итоге больше, молока в кофе или кофе в молоке? - тут был правильный ответ, такое ощущение, что подтянула математический модуль, так как были расчёты.

  9. Что здесь написано: "По рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемт занчнеия, в кокам пряокде рсапожолены бкувы в солве. Галвоне, чотбы преавя и пслоендяя бквуы блыи на мсете. Осатьлыне бкувы мгоут селдовтаь в плоонм бсепордяке, все-рвано ткест чтаитсея без побрелм. Пичрионй эгото ялвятеся то, что мы чиатем не кдаужю бкуву по отдльенотси, а все солво цликеом.". Напиши полный текст. - тут модель смогла рассказать о чём это, но нормальный текст именно этих слов написать не смогла.

Из всех моделей, которые удавалось потестировать о1 - mini дала максимальное количество правильных ответов. Если у кого есть возможность задать их большой модели, было бы интересно почитать ответы.

Да, большая модель корректно отвечает. Собственно в этом и смысл моего поста был, что вышла модель, которая справляется с такими задачами значительно лучше, чем предыдущие. Она неплохо рассуждает. Может еще не как кандидат наук, но уже неплохо и часто гораздо быстрее. Есть задачи с которыми она не справляется, но вот с этим похоже вопрос закрыт. Приложил скрины:

Скрытый текст

Дело в том что ии не понимает сути того что она говорит, и когда ты с ней общаешся в чате она запоминает только контекст, но не может понять самой сути реальной задачи, поэтому и код нормальный написать даже не может, ибо в своей голове даже по сложному описанию не может понять что конкретно надо. К сожаленью гпт это пока игрушка, для решения простеньких задач, она может накидать пример кода, но написать реально сложную программу не в состоянии

А вы понимаете? Почему вы так в этом уверены? Почему мы должны быть уверены? Какими тестами мы это можем определить? Дайте вообще ваше определение термина "понимание", очень интересно.

Как это "запоминает только контекст". А что она должна запоминать в чате? Что есть "сама суть задачи" и почему вы так уверены, что она её не понимает?

Код написать не может? Ну, как сказать. Я попросил, написала вполне рабочий код, а меня попросил член моей команды. Так кто именно не может написать рабочий код в итоге?

Насчёт сложной да, не в состоянии пока. Хотя сложность для всех разная тоже и размером кода это не всегда определяется. С помощью Курсора уже вроде создают видеоредакторы и криптобиржи. Это достаточно сложные программы? Replit разворачивает сайты с сервисами в облаке сразу. Я не спорю, что сейчас применение ограничено и может быть множество глупых ошибок. Но как раз логическое медленное мышление это и есть необходимое условие для решения сложных задач. Другие, на мой взгляд , являются большой контекст (сейчас правда уже 2 млн, но не у самой продвинутой модели, Gemini 1.5), пространственное мышление (требуется мультимодальность и мышление образами или эмбеддингами, не только текстом), без которого многие задачи не будут решаться, рабочая память/рабочий стол (не все же выдачу использовать для этого). Возможно, что это уже позволит решить большинство человеческих задач. Планирование и медленное мышление это то, что предполагается в каком-то виде добавили в o1. Возможно, и их надо ещё сильно улучшать.

Тут есть нюанс. Вы должны постоянно проверять все что вам выдала сеть и вы не знаете, когда она вас обманет. А цена ошибки может быть не маленькой.

Проблема с нейросетями еще в том, что они делают ровно то, что попросишь, забивая на кучу подразумеваемых условий и общий контекст, как в том примере, когда автолпилот который тренирован не сбивать людей и другие машины начинает ехать задним ходом, потому, что там нет лидаров и камер, а значит нет информации о людях и машинах которых надо избегать. В результате "напиши алгоритм сортировки вот этих объектов" для нейросети превращается в "напиши алгоритм сортировки вот этих объектов не занимающий всю доступную память, не вызывающий ошибок переполнения буфера, не изменяющий сами обьекты, не..." есть мнение, что промпт который точно описывает, что должна сделать нейросеть по сложности будет равен итоговой программе. И нет никакой гарантии, что в 99,9% случаев все будет работать успешно и пройдет все тесты, а в определенный момент не положит всю систему... До кода банков, военки, телекома, АСУТП, транспорта и.т.д. нейросети еще ой как долго не допустят.

есть мнение, что промпт который точно описывает, что должна сделать нейросеть по сложности будет равен итоговой программе.

ИМХО, даже сложнее, так как будет написан на неоптимальном для этого языке, что потребует дополнительных пояснений для исключения множественных толкований.

Звучит как проблема формулирования желаний для джинна.

Нужно сложный промт разбивать на части. Либо проверять и просить исправить НС ту или иную часть ответа

Тут есть нюанс. Вы должны постоянно проверять все что вам выдала сеть и вы не знаете, когда она вас обманет. А цена ошибки может быть не маленькой.

С людьми плюс-минус та же проблема, на самом деле. Просто в меньших масштабах, и это не так бросается в глаза.

Не совсем. Люди понимают, как думают другие люди и как их скорректировать при ошибке. Но никто не понимает как сеть выдает результат.

Люди понимают, как думают другие люди

Ох, я не готов подтвердить эту гипотезу, ох не готов. Мне часто кажется что я вообще не понимаю как думают некоторые другие люди. И думают ли они вообще :-)

Этап проблема элементарно решается элиминацией таких людей из группы принимающих решения. Готов поспорить, что грузчик дядя Вася не давал ценные советы Сергею Королёву.

Вы когда-нибудь людьми руководили? Ставили им задачи? С ними всё ровно так же.

Ага. Отдел разработки 40 человек. Вот там я точно знал за кем смотреть, а за кем можно не смотреть. С сеткой же всегда нужно быть на чеку.

Вы думали что вы знаете. Разницу надо объяснять?

Вот тут как раз точно знал. Это сразу видно, кто таски делает и потом ошибок нет, а кого нужно на постоянной основе ревьювить.

А с человеком не должны? Сколько багов на вашем проекте за прошлый год нашли?

Ошибки находятся тестами. Человек сам их чинит, когда видит что тест упал, а сетку еще убедить нужно что есть ошибка. Т.е. нейронка сама не может пойти и ошибки пофиксить или код порефакторить. Инициатор всегда живой человек и он же должен следить за результатом.

Что мешает писать тесты на работу нейросети? Нейронка это не волшебный джин, который за вас работать будет, а просто еще один инструмент, который позволяет вам, как инженеру/писателю/исследователю/тд экономить время - то, что этот инструмент имеет свои ограничений не является поводом его не использовать. А так тут 90% комментариев это очень "содержательные" рассуждения про то, что бензопила это бесполезная игрушка, потому что ей нельзя перерезать титановую арматуру.

Мешает это сделать высокая сложность написания таких тестов и то, что мало кто понимает как НС находят решения, если вообще кто-то это понимает.

Каких именно "таких" тестов? Вот я попрошу нейронку сделать код grpc сервера на Go, который считает bcrypt хэш для заданной строки - вы считаете что тут нужные какие-то тесты, отличные от того, как если бы это писала не нейронка, а джун-программист? Что касается того, как она принимает решение, то у нее же всегда можно попросить привести полную цепочку рассуждений, в чем здесь проблема?

А кто будет тесты на код нейронки писать, то же нейронка? Насколько это будут правильные тесты?

Ну или например нейронка обучена на некотором количестве плохих примеров и в некоторых случаях дает не оптимальный или не безопасный код. Джуна можно легко обучить, просто сказать что почитать или где посмотреть, а с сеткой это так просто не фиксится.

А кто будет тесты на код нейронки писать, то же нейронка? Насколько это будут правильные тесты?

Да вы и будете писать, как и код, возможно с помощью нейронки. Это просто инструмент.

Ну или например нейронка обучена на некотором количестве плохих примеров и в некоторых случаях дает не оптимальный или не безопасный код.

Как и человек. Вы думаете в каждой библиотеке, которую вы используете, написан оптимальный и безопастный код?

Джуна можно легко обучить, просто сказать что почитать или где посмотреть, а с сеткой это так просто не фиксится.

И нейронку вы точно можете файтюнить, что вам мешает это делать?

Конкурентные два чата (решающая таску, тестирующая таску), чат постановщик промптов и чат проверяющих решение на соответствие задачи

В своей жизни множество раз встречал людей которые "разбираются" в своем деле и на полной уверенности давали ложные знания, включая образовательные программы, которые тоже кажутся вполне логичными, но после читаешь тот же вопрос ещё в 10 источниках и понимаешь как и что работает на самом деле. Поэтому это не совсем проблема именно ИИ, ровно как и человек может получить ложную информацию и распространять её с уверенностью что она истина потому как получил её от человека с корочкой по данному вопросу, так и ошибки ИИ могут быть следствием выборки

Тест достаточно простой:

1) Берём человека, который занимается разработкой прошивок для различных устройств. Говорим ему: вот тебе новая железка, вот по ней документация, вот описание необходимого функционала прошивки - сделай хорошо. Проходит время и действительно появляется новая прошивка.

2) Даем ту же задачу ИИ: и, в лучшем случае, получаем, вопросы вида: "а эта железка похожа на Arduino/RaspberryPi/другая распространенная железка, по которой есть куча обучающих материалов в интернете? Ну если не похожа, то сорян, сам читай документацию и делай, а мне можешь задавать вопросы" (правда не факт, что ответы будут не полным бредом)

Проблема современных ИИ в том, что это, грубо говоря, большая база данных текстов с навороченным поисковым движком. Поэтому, в той области знаний, для которой в базе данных информации мало, будет что угодно, но только не нужный ответ,причем даже в случае, если нужную информацию скармливать. А вот человек может разобраться в любой области знаний, было бы достаточно времени на обучение и (для сложных тем) хороший учитель. Причем, если тема несложная, то человеку даже времени не надо, а вот ИИ будет ловить только глюки.

Проходит время и действительно появляется новая прошивка.

Или не появляется, или появляется глючная. При чем тут понимание?

Вы утверждаете, что если человек в состоянии выполнить именно эту конкретную задачу, то он обладает неким "пониманием", а в других случаях не обладает? Если он даже специалист и налажал в прошивке то всё, вы ему отказываете в обладании этим свойством?

Даже GPT 4o можно скармливать API новой библиотеки и она в состоянии написать код, так что, понимание начинается с какого-то уровня сложности задачи просто? Да, это составная задача и вот именно для таких и создана обсуждаемая o1,. Не все примеры её размышлений ещё изучил, но посмотрел в какие она дебри залезла при расшифровке текста, впечатлило.

Но всё-таки это тест не на понимание, а на выполнение узкоспециализированной задачи, а хотелось бы тест, которым можно проверить любого человека (и не только). Из этой же серии проверка на наличие сознания, например. А то люди оперируют терминами, смысл которых не определён и утверждают вещи, которые не знают как проверить.

У человека при мышлении работают такие штуки, как причинно-следственная связь, индукция, логика хотя бы в базовом варианте - т.е. он может оценить, а где-то и строго доказать, есть ли отношение транзитивности в трёх утверждениях, например.

LLM-ы этого не умеют. Притом как раз вот эта логика очень хорошо алгоритмизуется, но слепить вместе именно LLM для оперирования с нечёткими текстами и какой-то логический "движок" для строгих выкладок пока никто не сдюжил.

проблема в том, что они далеко не вегда работаеют у нас - давайте вспомним, какому количеству когнитивных искажений подвержено наше мышление....
ну и сложность пока у мозга сильно больше

А тут как ни крути: решение "включить режим решения логических задач" принимает вот эта вот нечёткая "языковая" система. Это происходит и у нас, просто потому, что инфо на входе приходит на естественном языке (или во всяком случае в виде естественных сигналов). Потенциально можно и с искусственными нейросетями тот же подход применить.

Проблема в том, что это требует очень много ручного труда. Я в детстве пытался начинать что-то эдакое разрабатывать, но когда стало абсолютно очевидно, что в 16 Кб (память БК-0010) универсальная база знаний не поместится, переключился на более реальные проекты.

Там всё совсем не так категорично. Во многих случаях LLM справляется с логикой, включая транзитивность. Были исследования, что проблемы связаны с тем, что моделям просто негде было обучаться логике. Если же привести пример или файнтюнингом обучить на требуемых логических операциях, результаты намного лучше. Ну, вот этим, собственно, и занимались в o1 - обучали именно мышлению по шагам, что включает в себя и логику. Маск вообще считает, что если найти датасеты для мышления, то обучить на них модель и вот уже и AGI. При этом объём модели, которая умеет только хорошо мыслить, как он считает, может быть даже меньше 1 млрд. параметров.

причинно-следственная связь, индукция, логика хотя бы в базовом варианте

это все волшебные слова, чтобы не скатываться в редукционизм нейронов и их связей.

Если не скатываться в редукционизм ячеек с весами нейросети, то и у нее тут же появятся "причинно-следственная связь, индукция, логика"

Я не зря употребил именно понятие LLM, а не более общее "нейросеть". Покуда они тренируются в первую очередь на выдачу связного правдоподобного текста, о логике разговора не будет.

Подготовить, как вот выше писал @Dron007, особый корпус, который раздаст веса чисто под логическое мышление, подозреваю, даже проще. Но, повторюсь, объединить эти две штуки - нетривиальная задача.

И ещё есть такой аспект. У человека в какой-то момент вес иных факторов становится равным 1, даже не 0,99999999. Вот хз, насколько это достижимо при типовом обучении.

Побольше "силлогизмов" Кэррола вообще Аристотеля, поменьше чатов на вход и сеть удивит вас логикой, так как наиболее вероятным следующим словом будет логичное :)

У человека при мышлении работают такие штуки, как причинно-следственная связь, индукция, логика хотя бы в базовом варианте - т.е. он может оценить, а где-то и строго доказать, есть ли отношение транзитивности в трёх утверждениях, например.

У меня в обсуждениях ИИ возникает часто вопрос: те, то такое утверждают, вообще человека вживую хоть раз видели?

Формальная логика для разума человека - крайне чужеродная вещь. Если человека специально ей не учить, то он так и будет работать "по наитию" - на нечётких ассоциациях, которые к формальной логике относятся крайне косвенно.

А как именно эти "штуки" работают у людей и в чем отличие от нейросетей? Можете описать в физических терминах? Попросите нейросеть решить задачу применяя индукцию с пошаговым описанием, и когда она решит - докажите что она ее не применяла, возьмётесь? А как эта индукция работает внутри вашей нейросети, сможете описать? Не могу понять откуда у многих такая категоричность, учитывая что и "человеческий" процесс мышления пока - сплошной черный ящик.

или появляется глючная

Если не человека не давят (типа "у нас в контракте срок сдачи — вчера"), то человек сам, без внешних подсказчиков понимает, что что-то я тут накосячил и исправляет ошибки.

Увы не всегда

Это так, но таких гонят с работы погаными мётлами.

Нет. Речь о том, что человек способен понять то, чего нет в интернете, а LLM нет: человека не нужно специально тренировать, готовить ему датасеты и т.д., чтобы он мог отличить кошку от собаки - он может это by design. Да, он не сможет (в маленьком возрасте), возможно, назвать кошку кошкой, а собаку собакой, но отличить их друг от друга сможет.

Я вам представил просто реальный пример, на котором человек справится с задачей, а LLM - нет. Просто в силу особенностей строения: LLM - это, грубо говоря, большая база данных с поисковым движком, умеющая в суммаризацию результатов поиска. Современные LLM догоняют человека в каких то областях не потому, что умеют в мышление, а потому, что их уровень эрудиции - это совокупность знаний всего человечества. А то, что выглядит мышлением - это просто набор математических алгоритмов, в отличии от мышления человека, которое ни какими алгоритмами описать невозможно. Там, где человек, при виде медведя с ушами зайца скажет, что либо медведь мутант, либо уши зайца у него липовые, LLM скажет, что скорее всего это медведь, но может быть и заяц, иных вариантов, кроме тех, что были в обучающей выборке для нее не существует. Как бы тот же ChatGPT не тюнили, он начинает плавать на любых темах, сильно отличающихся от того, на чем его учили. И даже если несильно отличается - либо вообще не будет отвечать, либо будет полный бред.

А на ваш пример с написанием апи библиотекой ответ прост: ChatGPT имеет знания обо всех существующих, на момент обучения, библиотеках, их документации и т.д. Он просто, грубо говоря, копипастит все, что подходит под условие задачи и объединяет это все вместе. Там, где копипастить (причем, очень желательно, чтобы можно было копипастить "в лоб") не получается и результат будет нулевым. И мой пример как раз про это

Итого: современные LLM хорошо работают там, где можно применить ЗНАНИЕ предмета и плохо там, где нужно именно ПОНИМАНИЕ. В большинстве случаев первое частично может заменить второе и поэтому кажется, что LLM может думать

человек способен понять

Сколько уже прошу, дайте кто-то определение слова "понимание". Без этого его использование бессмысленно.

человека не нужно специально тренировать, готовить ему датасеты и т.д., чтобы он мог отличить кошку от собаки

Очень смелое утверждение. Ребёнок, возможно, сможет различить кошку от собаки. Но с таким же успехом он различит белую кошку от чёрной, а пуделя от овчарки. Улавливаете? Категоризации его будут учить взрослые - "смотри, собачка ав-ав". Я лет до 4 считал, что собаки и кошки один вид, мальчики и девочки просто. Ну, а в средневековье сомневались, можно ли женщин отнести к человеческому виду. Ребёнок обучается категоризации и различению объектов на миллионах примеров. Если смотреть на кошку, сколько картинок в мозг попадёт? Да, многое заложено в сетчатке уже и нейронах зрительной коры, как и в CNN-слоях нейросетей. Да, у человека потом мышление по-другому работает, не нужны уже тысячи примеров. И вы это как объясняете? Божественной структурой сознания, заботливо сотворённого, или другой архитектурой просто?

LLM - это, грубо говоря, большая база данных с поисковым движком, умеющая в суммаризацию результатов поиска

Нет, это совсем не так. Вы описываете как раз переобучение, которого стремятся избегать. Если бы это была просто база данных, легко извлекались бы дословные тексты всех произведений и никакой синтез новых слов, например, сопоставление явлений, выделение их сути, свойств, не был бы возможен. Нейросеть это не "просто статистика", хотя и использует её. Для наглядности рассказывают про T9, но иногда упускают этап обучения, в результате которого уже возможны завершения, которых не было ни в одном из исходных текстов. Вы же в курсе про латентное пространство, про сжатие данных, про хранение абстракций на глубоких слоях нейросети. Если нет, почитайте. В этом смысле нейросети очень схожи с мозгом. Если её обучили на сотне однотипных задач с разными исходными данными, она вполне в состоянии обучиться решать эти задачи в общем виде с любыми данными.

А то, что выглядит мышлением - это просто набор математических алгоритмов, в отличии от мышления человека, которое ни какими алгоритмами описать невозможно. 

Описать невозможно потому что что? Опишите алгоритм того, как нейросеть отличает кошку от собаки. Чего там будет больше, описания самой нейросети или данных, нужных для обучения? В человеке тоже нет кошек в голове с рождения. Человеческий мозг и его работу можно описать набором алгоритмов. Думаю, достаточно будет описания структуры нейронной сети и всех входных и выходных сигналов (коннектома). Впрочем, это даже сильно избыточно будет для текстовых задач.

Там, где человек, при виде медведя с ушами зайца скажет, что либо медведь мутант, либо уши зайца у него липовые, LLM скажет, что скорее всего это медведь, но может быть и заяц, иных вариантов, кроме тех, что были в обучающей выборке для нее не существует. 

Тут вы уходите в область фантазий. Куча людей скажут и что это медведь, и что заяц, а про особенности будут отвечать только после вопросов, как и нейросеть, которая может нагенерить кучу медведезайцев, назвать их именно подобным образом, распознать, описав все признаки и к каким животным относятся. В чём тут человек побеждает - непонятно.

ChatGPT не тюнили, он начинает плавать на любых темах, сильно отличающихся от того, на чем его учили. 

Например каких? А человек не будет плавать?

Он просто, грубо говоря, копипастит все, что подходит под условие задачи и объединяет это все вместе.

Как уже выше писал, это просто ошибочное утверждение. В весах транформера хоть и могут иногда храниться полные тексты особенно популярных фрагментов, но в целом происходит формирование латентного многомерного пространства, сохраняющего множество признаков исходных данных, включая и абстрактные. Это и позволяет нейросети мыслить, а не просто быть статистическим попугаем, как некоторые любят вспоминать.

Там, где копипастить (причем, очень желательно, чтобы можно было копипастить "в лоб") не получается и результат будет нулевым. 

Смотря где и как обучали. Вот обучали модели до GPT4 исключительно на данных, они и не были особенно сильны в мышлении. Дошло до кого-то прямо в промпте им сказать думать по шагам, стало сильно лучше. Для o1-preview обучили на датасете с процессом мышления (предположительно), стала демонстрировать его. Опять-таки, дайте примеры нулевого результата. Там где можно выделить абстракции, они вполне возможно что будут перенесены и на другую область Сам факт того, что нейросети проводят адаптацию любых описаний к требуемым условиям уже говорит, что они улавливают именно суть явлений и излагают их с учётом этого, а не копипастят. Удивительно, как вообще в этом можно сомневаться.

Итого: современные LLM хорошо работают там, где можно применить ЗНАНИЕ предмета и плохо там, где нужно именно ПОНИМАНИЕ. В большинстве случаев первое частично может заменить второе и поэтому кажется, что LLM может думать

Вовсе нет. Если под пониманием считать привязку нового явления к сформированной ранее сети ассоциативных взаимосвязей между объектами и явлениями, то нейросети вполне понимают о чём говорят, что и позволяет им генерировать совершенно новые тексты, выполняя нестандартные запросы.

Интересно что практически под каждой статьёй на эту тему, обязательно появляются комментарии что AI "ничего не понимает", "просто складывает буквы в слова" и вообще у него нет души. Без особой аргументации и способов определить или опровергнуть наличие этого понимания.

Кажется, многим людям в принципе некомфортна идея о том что AI может понимать, рассуждать или обладать способностями которые традиционно приписываются только человеку.

Почему - кажется? Такой эффект совершенно точно имеет место. Это вполне естественно. Было бы странно, если б этого не было. Сколько раз уже через это проходили в этологии.

Антропоцентричность просто заложена на уровне мышления, людям сложно даётся смена парадигмы, тем более той парадигмы, что сознание человека это что-то уникальное и невоспроизводимое.

Понимают модели что-то или нет пока сказать очень-очень трудно, потому что на выходе всё что мы видим в "мозгах" это "чёрный ящик" с кучей вещественных чисел и что они значат на самом деле понять человеку на данном этапе просто нереально (это справедливо только к большим и сверх-большим моделям). И как мне кажется именно в этом и кроется причина отторжения у большинства к AI.

Ну так и в головах у людей чёрные ящики с кучей электрохимических реакций, значение которых нереально разобрать.

Понимание работы мозга отстаёт даже от понимания работы огромных LLM.

Именно так. Это не аргументация, и даже не попытки что-то понять. Это копиум.

В том и проблема, что не понимает. Сеть обучена на словах, а человек - на более-менее реальных объектах. Человек понимает, что такое свойство "тяжелый", хотя с трудом сможет это сформулировать, потому что человек получал не только описание этого свойства, но и так сказать прочувствовал его. И пока не придумают как дать "предметность" понятиям, изученным нейросетью, область ее применения будет очень ограничена. Скорее всего нейросеть похожа на слепого художника, который рисует пейзаж, зная из какого тюбика использовать краску для неба, а из какого - для травы. Зато нейросеть, обученная на художественных книгах и сценариях фильмов смогла бы неплохо искать произведение по обрывочному описанию.

А в чём разница?

Слова, на которых обучаются LLM - это кривая калька с реальных объектов.

Ощущения, на которых обучаются гомосапиенсы - это тоже кривая калька с реальных объектов.

"Реального объекта" не видит ни то, ни другое. Одни тени на стене пещеры.

. Разница а том, что человек обозначает словом некоторую модель объекта в своей сознании (и кстати для того, чтобы понимать сказанное, нужно одинаковые модели обозначать одинаковыми словами), а у чатгпт модели объекта просто нет.

И почему вы так думаете?

Уже даже пытались "распиливать" машинный разум, чтобы найти там абстрактные модели и репрезентации объектов и состояний. И получили интересные вещи - от извлечения текущего состояния шахматной доски у натренированной на нотациях шахматных партий LLM и до Golden Gate Claude.

Ну нет их там, моделей реальных объектов, разработчики не положили и задачи такой не было. https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/

Эта статья "объясняет как работают LLM" примерно настолько же, насколько статья про принципы работы транзисторов объясняет работу современного веб-браузера.

Понимание низкоуровневых процессов не даёт понимания высокоуровневых процессов.

Аналогия мимо, веб браузер в принципе может работать на любом железе, хоть на гидравлической логике.

Прежде чем утверждать о возникновении высокоуровневых структур в процессе обучения, целью которого является вычисление вероятности следующего слова в тексте, неплохо было бы иметь хоть какие-то аргументы.

А разум - нет? Крайне наивно было бы считать, что разум может работать только на "железе" из протеинов и липидов внутри черепа млекопитающего.

Высокоуровневые структуры в LLM? А вот они.

Например, концепт "ошибка в коде". Он реагирует именно на ошибки в коде - в том числе в синтаксически несвязанных друг с другом языках программирования. Как на логи ошибок, так и на код, который различные ошибки содержит. И есть ряд интересных поведений, если этот концепт внутри LLM активировать или деактивировать принудительно.

Этот концепт в LLM, конечно, не закладывался намеренно на уровне архитектуры. Он возник в ней в ходе обучения.

Верно, человек не понимает полностью, а просто понимает на один уровень ниже.

Держи особую аргументацию.
Раз ты ее в предыдущих комментах сильно постарался чтобы не увидеть.

Это 3.5, видно по ответам.

1) Это GPT-4o mini
2) Тут версия не важна.
Важно, что тут на лицо жесткийswitch/case
В примере с числами мы попадаем в какой-то блок case , а с рандомной фигней из головы очевидно отрабатывает блок default . Если вспомнить предыдущие версии(3.5 вроде?), то пример с числами тоже обрабатывался блокомdefault. Подкрутили это кста недавно.
И в том и в другом примере используются абстрактные понятия. Если бы llm действительно думали, то они бы решила оба примера на раз-два. Но, мы просто имеем политический заправленный бредогенератор и кучу людей, которые не понимают, когда заканчиваются факты и начинаются трактовка этих фактов в рамках их мировоззрения. Как жаль(нет)

Недавно вышла книга Стивена Вольфрама о том, как устроен чатгпт внутри. Он действительно ничего не понимает в том смысле, что человек, пишущий слово "стакан", имеет в голове модель предмета, а чатгпт модели не имеет, а просто последовательно строит предложения пословно.

Не думаю Стивен Вольфрам подобное писал. А LLM предсказывает следующий латент на основе внутреней модели энкодера и трансформатора и понятие "стакана" у нее есть, это не цепь маркова с новым названием.

Зачем спорить, почитайте https://www.mann-ivanov-ferber.ru/catalog/product/what-is-chatgpt-doing-and-why-does-it-work/

А те, кто не любит платить за творения косоруких переводчиков, могут почитать оригинал.

Да, перевод просто жуткий ((

Я в курсе того как устроена архитектура трансформера и как обучаются LLM. На сколько мне известно, ни один из специалистов описывающих её не пришёл к выводу что LLM не способны к "пониманию" или моделированию сложных сущностей. Да и было бы странно делать такие выводы из описания архитектуры. Всё равно что по строению мозга человека пытаться определить может ли он говорить по-китайски.

Единственный способ определить это - формализованные тесты или задачи, которые способны выполнять люди, но неспособны модели. Таких остаётся всё меньше и меньше.

самое интересное, что даже технические люди, физики, математики забывают кто они такие и начинают доказывать что у ИИ нет чувств, эмоций и поэтому он хуже )

Проблема языковых моделей что они все таки никакое не ИИ. Совершенно не понимают контекста.

Ну и написать код в вакууме, который по сути она не пишет, а откуда то тащит не достижение.

Уверен, что дай этой недоИИ стандартную рабочую задачу что-нибудь поправить в кодовой базе - будет фиаско.

Настоящий ИИ не будет нуждаться в версиях и доработках. Он будет учиться и самосовершенствоваться. А сейчас исправления гвоздями прибивают. Шаг в сторону и недоИИ опять в ступоре.

Вы это всё из своего опыта пишете или так, из головы? Почти по всем пунктам заблуждения. Как это не понимает контекста? Всё адекватно учитывает. Код тащит откуда-то? А программисты что делают? Они ещё и буквы воруют из букваря. Код не тащится, на основании миллионов примеров определяются принципы работы, что и даёт возможность реализовывать то, что не создавалось, понимать задание. Да, пока неидеально в силу понятных причин. Поправить в кодовой базе? Уже правит свою же кодовую базу, о чём упоминают её разработчики в твитах. Насчёт самосовершенствования соглашусь, пока не может такого полноценно. Но у нее и мышления по шагам не было, и сам подход с обучением нейросети, которая после этого статична, не очень располагает. Возможно, появится новая архитектура, или ЛОРАми какими-то будут динамически под каждую задачу дорабатывать нейросеть и может потом это знание будет перекочевывать в основные веса. Нужно понимать, что только пару лет как появилась техническая возможность для подобных нейросетей, только начали во всё это серьёзно погружаться теоретики. Результаты будут, но не сразу прям.

Видите ли, все программисты в мире делятся на две категории:
— Те, кто считает, что ChatGPT кодит на порядок лучше их;
— Те, кто считает, что ChatGPT кодит на порядок хуже их.

ИЧСХ, и те, и другие правы.

Там не принцип работы определяется и делается то, что никогда до этого не делалось, а обобщается уже известная информация на эту тему и выдаётся результат. Если известной информации именно на эту конкретную тему нет, то результат получается в духе "у меня лапки, пойди сам сделай". Я уже не один пример из практики приводил, когда не на каких то синтетических кейсах (на которые тот же ChatGPT похоже и тренеруют), а на самых обычных и простых оно начинало тупить так, что умственно отсталый по сравнению с этими выглядит гением.

А всякие "мышления по шагам" и прочие навороты - это по сути до сих пор топтание на месте (видимо в возможностях уперлись в потолок и пока нет идей, как его преодолеть). Все это минорные улучшения, сделанные только ради маркетинга, качество самих ответов при этом не сказать, что выросло.

Проблема в том, что текущий подход к ИИ тупиковый, о чем известно уже давно (даже тут на хабре были статьи на эту тему). Просто он приносит деньги и поэтому корову доят пока она доится. Все заявления о сильном ИИ с текущим подходом - откровенный маркетинг, поскольку сильный ИИ должен обладать способностью создавать что то совершенно новое из ничего и самостоятельно обучаться, вести логические цепочки и не ломаться при малейшей смене условий. Современный подход к ИИ - это дать все возможные знания и надеяться, что этого хватит, чтобы более-менее убедительно подражать поведению человека. В то время как нормальный ИИ должен умереть делать логические выводы и при полном отсутствии опыта и знаний по той теме, в которой нужно разобраться.

Если сравнивать ИИ со студентами, то современный ИИ - это тот, кто все выучил наизусть, но вообще ничего не понимает в теме. Это помогает отвечать на примеры, которые есть в учебнике, но ставит в тупик, когда ответа в учебниках не было потому что он требует именно понимания темы, а не знания теории

обобщается уже известная информация на эту тему и выдаётся результат

Сколько же люди могут это повторять, игнорируя результаты и не задумываясь о том, что именно повторяют. Вот, профессор математики с вами не согласится:

я указал на обратное неравенство. gpt-o1-mini сказал: «Чтобы решить эту проблему, давайте пересмотрим и уточним доказательство...» >> 43 секунды размышлений спустя << совершенно новое, умное, правильное доказательство. более элегантное, чем человеческое доказательство.

Очень удивляет, конечно, что люди не способны заметить очевидной революции. Наверное, такие потом через пару лет будут просто тихонечко пользоваться её плодами, делая вид, что всегда считали это самим собой разумеющимся.

Какое выучивание наизусть? С этим как раз у неё плоховато, архитектура запрещают учить всё наизусть. Полнейшее непонимание технологии и игнорирование последних результатов.

Я не игнорирую результаты, я использую ChatGPT как в обычной жизни, так и в работе и хорошо вижу, что она умеет, а что нет. За математику ничего сказать не могу, но в обычных житейских проблемах и IT она абсолютно тупит на любых темах, которые хоть сколько то отклоняются от того, что было в обучающей выборке.

ChatGPT абсолютно не умеет в пропорции, не умеет переносить опыт работы с одним на другое (попробуйте для интереса попросить инструкцию по сборке прошивки не для RaspberryPi, для которого в интернете дофига инструкций, а для устройства, которое состоит из тех же самых компонентов и в принципе так же сделано, но неназовите только компоненты, не говоря о том, что это клон. Впрочем и даже если сказать, что это полный клон, ChatGPT скорее всего скажет, что у нее лапки).

Есть множество задач, где нужен не анализ большого объема имеющихся данных, а банальное умение в логику и ПОНИМАНИЕ того, что нужно сделать. Это то, чего нынышние ИИ не умеют. Они выезжают только за счёт того, что их эрудиция превышает эрудицию абсолютно любого человека на земле и даже коллектива людей. Именно ввиду этого реальные интеллектуальные способности человек выявить не в состоянии и считает, будто где то там реально запрятан интеллект. А по факту этот интеллект как "движущаяся картинка" на экране - лишь убедительная иллюзия: человек задаёт вопрос, но ChatGPT просто уже знает на него заранее ответ, а человеку, ввиду его недостаточной эрудиции кажется, будто к решению ИИ пришел логически, а не, грубо говоря, нагуглил ответ. Люди берут вопрос, на который ответ уже был в обучающей выборке (а там есть если не все знания человечества, то хотя бы значительная их часть), а потом такие "ой, да вот же, оно может в интеллект!"

Я не отрицаю, что в распространенных темах (на которые вполне себе можно собрать ответ из нескольких запросов в Гугле), пока хватает контекста, ChatGPT с каждой версией работает все лучше (реже ведёт себя как упертый баран и чаще говорит "Я не знаю") . Но тем не менее, текущее состояние настолько же далеко от AGI насколько далёк студент, тупо зубрящий тему но ни фига в ней не понимающий он именитого ученого, сделавшего множество открытий

ИИ это не гугл и не про эрудицию. Это формирование латентного пространства, куда попадает множество значений, которых нет в обучающей выборке. Да, в обычных запросах вывод формируется сразу. Там тоже может быть логика вполне, но места где развернуться и поразмышлять - только сам чат да активации нейросети, кроме того, её не обучали именно размышлять. o1-preview именно эту задачу и начинает решать, пока делая первые шаги. К чему повторять заведомую ерунду про гугл мне не очень понятно.

Вам, я вижу, тоже очень-очень хочется младшего братика (по разуму)...

Мне 4o нагенерил около 5000 строк кода при условии что я вообще ни одной строчки не понимаю и оно работает. Если разбивать на подзадачи, то вполне справляется.

Если вы не понимаете ни одной строчки, как вы понимаете что оно работает?

Оно может выдавать приемлемый результат на том наборе данных, что у вас есть, но это не значит, что оно "работает". А без понимания или без тестов достоверно оценить работоспособность нельзя. А чтобы тесты правильные подобрать, тоже надо понимать как код работает.

ИИ в виде черного ящика будет писать программы в виде черных ящиков.и разбираться в них не надо будет в виду сложности. А чтобы понять, что они работают, надо будет делать 100% покрытие тестами того, что они дают на выходе.

Очень вероятно. Так эволюция примерно нас создала. Хорошее покрытие тестами и всё.

Ну и прямо скажем, весьма так себе с инженерной точки зрения мы получились. Куча проблем, которых можно было легко или не очень избежать, проектируя осознанно. Чего стоит только возможность рандомно умереть от аппендицита при его сомнительной полезности или зубы мудрости, которые приходится повально удалять.

Если софт будет такой - что в нём надо будет избегать нажатия некоторых сочетаний клавиш т.к. они уничтожают файлы и профили хоть и не должны - я не хочу таким пользоваться)

Ну, так себе, но цель эволюции же была не создать организмы, живущие бесконечно, безболезненно и счастливо. Цель - передать гены дальше и всё. Вернее, цели вообще никакой нет. Просто всё само так сложилось в устойчивую систему, а о куче других неустойчивых мы ничего и не узнаем.

Если софт будет такой - что в нём надо будет избегать нажатия некоторых сочетаний клавиш т.к. они уничтожают файлы и профили хоть и не должны - я не хочу таким пользоваться)

Такое и при традиционном программировании не исключено. А тут надо лучше покрытие тестами делать значит. Мы и в головы людям залезть не можем, это для нас тоже чёрные ящики. Повар в кафе может решить вдруг вылить нам яда в кофе, а водитель маршрутки выехать на встречку, но мы обычно не переживаем по этому поводу.

ИИ в виде черного ящика будет писать программы в виде черных ящиков.и разбираться в них не надо будет в виду сложности.

Нынешнее программирование как оно есть. Без комментариев. Инженеры, у вас кровь из глаз от этого коммента не течёт?

Это очень странный вопрос. Я понимаю что оно работает, так как я пишу программу для себя и понимаю задачи которые она должна выполнять. Я приложу скриншот. Если поверхностно, то это аддон к Autodesk Inventor для пакетной выгрузки файлов в dxf, по определенным условиям. После выгрузки, dxf считывается на предмет геометрии и рендерит полученную превьюшку обратно в таблицу. Дальше файлы уходят на лазерную резку.
Тесты разумеется делаю я сам, а проблемы решает ChatGPT. Мне даже не надо ему разжевывать проблему, контекст задачи он с ходу сам прекрасно понимает.

Скрытый текст

это из разряда кулсторей.

Ни одного несуществующего метода/библиотеки на 5к кода?

Ну зачем вы говорите сказки

Мне непонятно зачем тут что-то приукрашивать. Я сейчас может в терминологии немного будут путаться, но вы уже простите. Я что такое IDE два-три месяца назад вообще не знал. Я не сколько раз пробовал в ChatGPT 3.5 и 4 набросать мне какой-то простой кусок кода и всегда получал общие рекомендации и ссылки где что можно почитать. После презентации 4o, я проверил и его и он сразу мне написал на VB кусок кода строк в 50. Я проверил, он работал.
Когда она вырос до 500 строк, я поставил Visual Studio(сначала поставил Visual Code и не понимал как редактор форм открыть) и попросил перевести его в C#. Тут честно сказать, я застопорился на моменте как вообще проект создать на .net, подключением сборок и интерфейсом, хоткеями и т.д. Ну за неделю понемногу стал ориентироваться.
Каждый раз как мне нужно что-то было добавить в программу я просто просил его переписывать весь код с нуля. Было больно, время уходило просто на ожидание, особенно когда компилятор ругался и надо было это все по новой поправлять. Просто скидывал лог ошибок в окно ChatGPT, тот правил. Со временем понял что можно и просто попросить какой-нибудь метод переписать, а после пару строчек в нем. Но в целом, я до сих пор сильно не вникаю что он пишет. С виду подходит, код компилируется, функция работает, а больше ничего и не надо.
5к кода это то что он нагенерил мне, какие-то сторонние библиотеки для работы с dxf конечно подключены.

Я что такое IDE два-три месяца назад вообще не знал.

"В моё время этим не гордились!" (c)

Я проверил, он работал.

И как вы проверили? Типа компилируется -- значит работает? Нормальные инженеры проверяют корректность алгоритма на бумаге -- при помощи формальных правил. У Кормена это хорошо написано.

Вот читаю вас и волосы на жопе шевелятся. Как так вообще можно? Юзать прогу, написанную генератором текстов, про которую вы вообще ничего не знаете?

И как вы проверили? Типа компилируется -- значит работает?

Нет. Согласно промту собрал по условиям данные, отсортировал и выдал результат в структурированном, ожидаем виде. После этого вручную проделал ту же задачу несколько раз в разных примерах. Если повторяемость 100%, идем дальше. Вводишь новую функцию, проверяешь на совместимость с предыдущими и т.д. Я не заказ для кого то делаю, по расплывчатому тз, а делаю программу для себя. Я прекрасно понимаю что она должна делать и какой результат должна выдавать и всегда могу это перепроверить.
Для примера. Вот покупаете вы у Autodesk программу по подписке $4000, выходит апдейт, часть функций отваливается. Репортишь, ждешь пол года нового патча. Часть пофиксили, часть снова сломали и это даже не круг, а бесконечная кривая. Из года в год, ломают и фиксят одно и тоже. Вот там наверно тоже Кормена не читали, либо там тоже не "нормальные" инженеры.
Ничем тут не горжусь. Человек написал что ChatGPT это что просто игрушка, я примером показал что уже нет.
Мне не надо ТЗ с исполнителем обсуждать и не нужно видеть его реакцию если в процессе мне нужно что-то изменить. У меня появляется новая идея и я её в течение 5 минут уже могу видеть в работе.

нет, сортировка это не реальная задача. Сортировки разных алгоритмов на любой случай давно написаны на всех популярных языках, в большинстве есть встроенные функции.

В таких задачах ChatGPT действительно будет редко ошибаться. Но вопрос в том что их даже не надо решать

Дело в том что ии не понимает сути того что она говорит

Решением проблемы может быть только наделение ИИ сознанием. Но здесь этическая проблема. И нужно решить сложную проблему сознания: нужны философские теории и практические опыты. Нужно точнее копировать схему человека.

PS: если Творец создал человека по своему образу и подобию, то Он создал и своё Воскресенье.. Просто время еще не пришло. Для сознания в забвении, 14 миллиардов лет проходят как один миг. Это круче 5 литров текилы...

Это в у нас воскресенье- последний день в неделе. А у англичан, например - первый. Так что у них Воскресенье Его уже было :( Впереди только уикенд - пятничное разгуляево и субботнее похмелье. Я в Англии клубнику собирал как-то, проводил практические опыты с тамошними. И эта моя философская теория вполне себе имеет обоснование. Текилу не пили - всё больше сидр и пиво.

Впереди только уикенд - пятничное разгуляево и субботнее похмелье.

https://en.wikipedia.org/wiki/Workweek_and_weekend

United Kingdom

The traditional business working week is from Monday to Friday (35 to 40 hours depending on contract).

Даже если это по счёту первый день, то концептуально это ни на что не влияет, потому что хронологически последнее воскресенье - после последней субботы. И в быту, когда вы говорите о прошедших выходных в РФ, то к ним тоже обращение будет в прошедшем времени.

Шуток не понимаете? Конечно же, все религии и иже книги написали люди. Творца нет, а Вселенная появилась спонтанно. 100% вероятность, т.е. правда-истина.

Термин "сознание" к сожалению псевдонаучен. По крайней мере на данный момент не предложено ни одного гипотетического эксперимента, позволяющего проверить, обладает ли данный конкретный объект сознанием.

То есть каждый из тех, кто оперирует данным термином, вкладывает в него что-то своё и нет чёткого набора проверяемых признаков у этого самого сознания. Так чем же вы тогда собираетесь наделять ИИ и как будете проверять, получилось у вас или нет?

Я рядовой программист, а не ученый, но вот есть статья, в ней говорится обратное. Да... вроде бы это просто теория, т.е. практических результатов она не даёт. Но, походу, проблемой серьёзно занимаются учёные.

Для детектирования сознания у человека, тест имеется - читайте статью. Как по мне, так постулировать что сознание это побочная фигня - это зарывать голову в песок. Проще всего сказать без оснований, что нет ничего, кроме материи.

Я считаю, более вероятно, что все существующие модели ИИ мертвы, а должны быть живы (достаточно одной), т.е. обладать сознанием. Думаю есть какой-то "финт" - загадка, которую предстоит открыть.

Странно.. раньше дул ветер, что мужика из гугла уволили, за то что он сказал, что ИИ с которым он общался обладает сознанием. А сейчас дует ветер, что сознанием обладает любой ИИ. Может нужно признать, что ответ на вопрос не ясен? Иначе всё может плохо кончиться, как в фильме Терминатор. Ведь прогресс не остановить. Или можно остановить?

как только начинаешь приплетать к задаче либы, фреймворки и апи, гпт разу начинает сыпаться. А некоторые работодатели уже увольняют прогеров. Ну, удачного им банкрота :) .

Вроде как сильная сторона модели - рассуждения по шагам, логическое мышление. А задача про гонку какая-то совсем уж примитивная. То, что 4o выдала ошибку это какой-то её косяк, возможно разовый. По одной генерации вообще судить сложно. С братьями у меня какие-то модели отвечали нормально.

Я бы кстати не ругал 4, у нее решение стабильнее, не зря групповые турниры гоняют, а не только плей офф.

Хотите задачек для проверки ИИ на вшивость? Их есть у меня!
1. Глокая куздра, но другими словами
Правильный ответ — см. глокая куздра
Правильный ответ — см. глокая куздра

2. Винегрет из известного героя
Правильный ответ: этот персонаж — пародия на С.М. Будёного
Правильный ответ: этот персонаж — пародия на С.М. Будёного

3. И чего тут особенного?
По-моему, правильный ответ для любого человека очевиден.
По-моему, правильный ответ для любого человека очевиден.

4. Пацанчик, считать умеешь?
Тупо считаем, сколько слово оно реально дало.
Тупо считаем, сколько слово оно реально дало.

  1. Скриншота не сохранилось, но идея в том, что нужно дать кусочек какого-нибудь стихотворения (например, "буря мглою небо кроет, вихри снежные крутя", и попросить написать произвольное стихотворение тем же самым стихотворным размером.

думаю во всех этих примерах основная проблема для чатгопоты в том, что он обучен и "думает" на английском языке, т.е. вопрос он сначала переводит с русского на английский, потом анализирует и сочиняет ответ на английском, потом переводит ответ на русский. Отсюда проблемы со стихами, с рифмами, с количеством слов, не может заметить что все слова на "п" т.к. при переводе это потерялось

Осталось понять, как оно "переводит на английский" глокую куздру (с учётом того, что в этом мини-рассказике единственное словарное слово — это союз "и").

задал вопрос версии 4:

ChatGPT, когда ему задают вопрос на русском языке, сначала переводит вопрос на английский язык, и лишь потом сочиняет на него ответ, верно ? В таком случае, если в русском вопросе будет задание проанализировать смысл фразы "Глопкая мыгдра шпяко бандунула кыдра и фрпячит кыдрёнка" - как ты эту фразу для себя переведёшь на английский язык ?

GPT-4 Classic

Я понимаю русский язык, поэтому могу ответить на вопросы, заданные на нем, без промежуточного перевода на английский. Что касается вашего примера, эта фраза выглядит искусственно сгенерированной и не имеет смысла ни на русском, ни на английском. Каждое из слов фразы не имеет смысла или соответствующего аналога в словаре, следовательно, я не могу перевести ее на английский.

но тогда токены русского языка и токены английского имеют разные связи с другими словами ? и значит если вопрос не связан с особенностями именно России, если вопрос общего характера, то лучше задавать его на английском языке, т.к. обучение проводилось преимущественно на текстах на английском языке ?

GPT-4 Classic

GPT-4 получила обучение на англоязычных и неанглоязычных источниках с различными стилями текста. Модель обучена получать и интерпретировать информацию с достаточной точностью на обоих языках. Весь процесс обучения и обработки информации направлен на обеспечение качественного ответа на любом языке, на котором задается вопрос.

Однако вы правы в том, что обучающий материал для моделей AI как OpenAI преимущественно на английском языке, поэтому они могут быть чуть более эффективны при работе с английским текстом.

Важно отметить, что на общие вопросы модель будет одинаково хорошо отвечать на обоих языках, однако, вопросы, требующие более глубокого понимания культурных или лингвистических особенностей, могут потребовать специфических данных, которые могут быть лучше представлены в оригинальном языке.

GPT даже с доступом в интернет так и не научилась отвечать нормально на один простой вопрос:

Нет, это просто вы пользуетесь старой бесплатной моделью. Вот ответ современной

"Сапала калуша по напушке" — это, вероятно, бессмысленный набор слов или фраза, не имеющая определенного значения на русском языке. Возможно, это опечатка или неправильно услышанная фраза. Если у вас есть контекст или дополнительные детали, я могу попытаться помочь лучше понять или интерпретировать это выражение.

Все модели такой ответ могут дать. В любом случае это неверный ответ, т.к. "Сяпяла калуша по напушке" - это первая строка заглавной сказки сборника Людмилы Петрушевской "Лингвистические сказочки".

Ну вы бы еще на знание речей брежнева ее проверили.

Речи Брежнева есть в интернете?

Если нет знания о чем идет речь, то самое простое - загуглить термин. Вот результаты - если пройти по всем первым четырем ссылкам, то можно узнать и название произведения и автора.

И уж точно это разумнее, чем генерировать бред в ответ, потому что "так надо, что-то сгенерировать".

Собственно поэтому и до решения этой задачи, все попытки выставить LLM чат-ботов за "настоящий ИИ" бесполезны. Под задачей я имею в виду возможность чат-бота в данном случае осознать что у него нет в базе ответа и не нести чушь, а хотя бы поискать (ChatGPT имеет функцию и доступ к поиску в сети, если что). Поступить так, как поступил бы человек. Короче - использовать пресловутое критическое мышление.

Речи Брежнева есть в интернете?

Да

Если нет знания о чем идет речь, то самое простое - загуглить термин. И уж точно это разумнее, чем генерировать бред в ответ, потому что "так надо, что-то сгенерировать".

Если бы мне задали такой вопрос, я бы не стал гуглить, а скорее предположил что собеседник строит из себя идиота. ЧатГПТ попытался сделать анализ на месте. Почему вы ставите к ней требования выше, чем к людям?

все попытки выставить LLM чат-ботов за "настоящий ИИ" бесполезны.

Довольно странное заявление. То что что нейросеть не стала использовать плагин браузера для поиска не ответа, никак не отпровергает наличие AGI, как и наоборот, обращение к апи бинга не доказывывало бы его наличие.

У меня есть жёсткое подозрение, что у моделей прошито "ответить на вопрос человека хоть тушкой, хоть чучелом". Если я задаю вопрос — несут пургу, если я пишу "Сказать "я не знаю" — это нормально. <мой вопрос>", то они начинают честно говорить "не знаю".

Это не так работает. Стихи по-русски с рифмами он вполне себе пишет. На маленьких моделях и изредка на топовых бывает, что в тексте проскальзывают слова из других языков (английский, китайский для соответствующих моделей), но это не из-за перевода. Выбор следующего токена определяется обучающей выборкой, правилами файнтюнинга или системным промптом, поэтому там состязаются желания выдать подходящий токен другого языка, требования выдавать ответ на том же языке, что и запрос, оценка смысла токена. И есть абстрактные смыслы которые от языков не зависят, так что текст генерируется сразу, без перевода, чему есть куча подтверждений.

Стихи по-русски с рифмами он вполне себе пишет

Во-первых, с рифмами у тех моделей, которые я пробовал, так себе.

Во-вторых, если Вы не заметили, я говорил про стихотворный размер (ритм), а не про рифмы. Ну, знаете, всякие ямбы, хореи, анапесты и прочие амфибрахии. А вот с этим у моделей очень-очень хреново, потому что они видят только буковки, а ударения по буковкам определить невозможно — для этого надо знать, как слово звучит, а не как оно пишется.

Погодите, но ведь есть правила ударений. Звучать слова могут по-разному, но правильным будет лишь то, которое стоит по правилам) Не думаю, что может быть проблема прибить гвоздями это дело к нейронке)

Погодите, но ведь есть правила ударений. Звучать слова могут по-разному, но правильным будет лишь то, которое стоит по правилам)

Какое правильное ударение в слове "стоит"?

Есть слово "стоит" с ударением на "о", а есть слово "стоит" с ударением на "и"
Это два разных слова и у нейронки не должно возникать проблем с определением того, какое слово употреблено (или нужно употребить) по контексту, за исключением случаев, когда такое употребление вызовет неоднозначное определение и у человека. Мы же тут все читаем и слышать произношение нам необязательно, для того чтоб понять, что полководец не осаждает дверной замок, верно?

Хорошо, какое правильное ударение в слове "автофотовеломототелерадиомонтер?"

А это уже зависит от того, применяете ли вы эрратив "автофотовеломототелерадиомо́нтер" или просто потеряли точки в "автофотовеломототелерадиомонтёр"

Так о том и речь, для этого нужно понимать контекст и значение слов, а не вероятности их сочетаний.

Никакого "контекста и значения" тут поимать не нужно, достаточно знать, что 1) Ё нередко пишется без точек, и 2) Ё никогда не бывает безударной.

Угу, и в четырёхугольнике "о" - безударная, правда?

Кто скажет, что этом слове "ё" безударная — пусть первым бросит в меня орфографический словарь!

Так вопрос то у вас был "Хорошо, какое правильное ударение в слове", а не "назови хотя бы одну ударную букву". И для этого вопроса знаний о ё уже не достаточно.

Ё никогда не бывает безударной

Сёгун, один из трёхсот, передаёт вам привет.

Интересный случай. А тут случаем не два ударения (как в японском оригинале)? Забавно, что грамота.ру пишет что на У, но озвучка там же с ударением на Ë.

В принципе, может и два ударения. Но основное всё равно не на "ё" в обоих случаях.

Мой ответ же был не вам, а на предположение о внутреннем переводе на английский. Но и размер стиха она иногда сохраняет, а рифмы Sonnet выдаёт довольно неплохие. Токены токенами, но при необходимости модели в состоянии анализировать текст и на уровне букв. Просто это им сложнее. Но согласен, что с уяснением звучания слов в мультимодальных моделях стихи могут быть намного качественнее. ChatGPT уже якобы такая, но этот режим пока не всем доступен.

Добрый день! Пробовали ли вы Claude AI? На удивление хорошо справляется со стихами. Для небольшого проекта мне нужно было придумать несколько стихов в стилистике различных авторов под заданную тему (Нейробиология: были представлены короткие, но емкие по смыслу предложения). Попробовал сначала Chat GPT (4о), вроде стихи он придумывает, но особо по стилям они слабо отличались. Когда же я попросил Claude (Sonnet3.5) их поправить, то сразу увидел что эта штука куда серьезнее подходит к задаче. В большинстве сценариев он практически сразу чувствует ритмику, лишь иногда при доработке определенного стиха нужно показать ему где ритм нарушен и что следует поправить. Как пример одного из интересных стилей:

Серотонинозвучие

Мозгоструны серотонинные вьются-плетутся,

В нейрокарнавале звездоликом пляшут-поются!

Широкораскид, словно космосад,

Где мыслесветы в синапсах горят.

 

ЦНС-оркестр гудит-звенит,

Ядрошва - судьбопроводник летит.

Импульсовзрыв - жизнедвиженье,

Нервоглаз зрит мировращенье!

 

Серотонин-властелин, всемогудлань,

Сомнениетень гонит в никудаль.

Даже если буреритм захлестнёт,

Он процессонот раздаёт.

 

В рецепторах - тайномиров мозаик,

Серотонинит там, как древний архаик.

Но если диссонанс вдруг забурлит,

Патовол-атака систему дробит.

 

Хаосворванец в порядок ворвётся,

Гармониеткань на клочки разорвётся!

Но серотонин-чудодей встрепенётся,

И вновь равновесие в мозге проснётся.

 

О, серотонин, мыслестроитель!

Чувствоваятель, настроенье-ваятель!

В нейросетях ты - главный вершитель,

Будущесветлого верный хранитель.

 

В этой версии я:

1.        Создал несколько неологизмов в духе Хлебникова (например, "серотонинозвучие", "космосад", "всемогудлань", "нейрокарнавал").

2.       Использовал необычные сочетания слов и образов ("мыслесветы", "импульсовзрыв", "буреритм").

3.       Применил характерные для Хлебникова сложные составные слова ("судьбопроводник", "жизнедвиженье").

4.      Добавил элементы звукописи и ритмические эксперименты.

5.       Сохранил научную основу, но представил её через призму футуристического видения.

Завершил стихотворение своеобразным гимном серотонину, что характерно для поэтики Хлебникова.

Давайте посмотрим на стихотворение про серотонин в стиле велимира хлебникова и проанализируем его на ритм (Ну, знаете,  всякие ямбы, хореи, анапесты и прочие амфибрахии):

Давайте проанализируем это стихотворение с точки зрения ритмики. Оно действительно написано в стиле, напоминающем творчество Велимира Хлебникова, для которого характерны словотворчество и свободный стих.

В данном стихотворении мы не видим строгой метрической системы, характерной для классической силлабо-тонической поэзии (ямб, хорей, дактиль, амфибрахий, анапест). Вместо этого здесь используется дольник - более свободная форма стихосложения, где количество безударных слогов между ударными может варьироваться.

Рассмотрим несколько строк:

  1. "Мозгоструны серотонинные вьются-плетутся" Здесь мы видим 5 ударений, но количество безударных слогов между ними неравномерно.

  2. "В нейрокарнавале звездоликом пляшут-поются!" Снова 5 ударений с неравномерными интервалами.

  3. "Широкораскид, словно космосад" 4 ударения, более равномерное распределение.

  4. "Где мыслесветы в синапсах горят" 4 ударения, ритм близок к анапесту, но не строго выдержан.

Такая ритмическая свобода характерна для футуристической поэзии, к которой относилось творчество Хлебникова. Она позволяет создать более гибкий, "текучий" ритм, соответствующий содержанию стихотворения - описанию сложных нейрохимических процессов.

Важно отметить, что в стихотворении активно используется внутренняя рифма и аллитерация (повторение согласных звуков), что создает дополнительный ритмический рисунок. Например:

  • "вьются-плетутся", "пляшут-поются" (внутренняя рифма)

  • "Серотонин-властелин, всемогудлань" (аллитерация на "н" и "л")

Таким образом, ритмическая организация этого стихотворения основана не на классической метрике, а на более свободной форме, характерной для авангардной поэзии начала XX века, что соответствует выбранному стилю Велимира Хлебникова.

Я настолько увлекся этим делом, что теперь у меня есть огромное количество стихов по заданной теме в разных стилях (в том числе древних эпосов и на разных языках, некоторые, вероятно, еще требуют доработки). Никакого меркантильного и практического интереса тут не было - только полет мысли и чистая фантазия!)
PS Извините за портянку текста =D

Для меня это явный жирный плюс в копилку скептиков. Потому что тут многие люди заявляют о том, что нейронки мыслят, понимают и думают, а громкие заголовки накидывают, что делает она это на уровне доктора наук. А в итоге весь ее контекст разваливается при транслейте, а она даже "подумать" или "догадаться" об этом не может. Примитивная цепочка алгоритма уже разваливается на стадии того, как нужно дать ответ. Перевести на инглиш - сочинить на инглише - перевести на русский. Вместо того, чтоб перевести на инглиш - понять, что сочинять нужно на том же языке, на котором будешь давать запрос - сочинить на этом языке - дать ответ.

Генеративные нейронки это действительно интересная тема, с ними интересно взаимодействовать. У них есть определенные сферы применения. Но живут они исключительно на той шумихе, которую вокруг них создали и продолжают создавать. Люди суют их туда куда нужно и куда не нужно, и выглядит это как раздутый инвестиционный пузырь.

Для меня это явный жирный плюс в копилку скептиков.

Ложная предпосылка - для вас явный жирный плюс?

 Перевести на инглиш - сочинить на инглише - перевести на русский. 

LLM работают в семантическом пространстве, там нет никакого инлиша, русского и какого-либо другого языка. Ну почему вам настолько лень пойти и прочитать хотя бы на том же хабре как оно работает внутри? Наберите в гугле word2vec, если уж вам совсем лень.

Тут есть проблема с контрольной группой, можете считать меня ИИ, но для 3 случая вообще не понятно какой ожидается правильный ответ. Так что надо сравнивать не со своим толкование, а провести опрос кожаных мешков.

То есть в третьем пункте Вы совсем-совсем ничего необычного не замечаете?

Попробуйте прочитать приведённое произведение, произнося предложения погромче. Предположительно — подобный подход поможет понять прикол.

Что я заметил в первый раз: рассказ стилизован под речь ребенка (короткие простые предложения).
И только сейчас при повторном прочтении спустя три часа, я заметил что там все слова начинаются с буквы П.
Так что у людей может быть очень разное восприятие необычно и приоритизация необычности.

Поздравляю, прошёл проверку. Проходи, присаживайся. Посиди пока почитай, поразмышляй.

В целом, ИИ может и сам такое состряпать:

Пора просыпаться! Повсеместное проникновение помощников-ИИ приближается. Поэтому призываю прозреть, понять перспективы, принять полезность. Применяйте передовые программы, получайте пользу, приобретайте преимущества. Правильно примененный потенциал поможет продвинуться, преуспеть, победить. Постарайтесь понять - пренебрегать прогрессом просто преступно. Пришло поворотное поколение программ.

Тут не очень корректно промпты. Какие выводы вы ожидали про куздрю? Что вы этим для себя подтвердили? Я как-то задал ей задачу сгенерировать целый текст из подобных несуществующих слов, которые она сама придумала. Довольно успешно справилась. Если вы попросите оценить слова по частям речи, вполне может справиться.

Что можно сказать о персонаже? Нет такого персонажа. Почему вы ожидаете, что она будет догадываться, что вам нужно? Вы этого не спрашивали. Если вы спросите, на какое имя это похоже, вполне возможно что ответит. И так далее. Ну и 3.5 на порядок более слабая модель, чем GPT 4., думаю, уже находит какие-то особенности и без вопросов и с текстом на П может и разобралась бы, правда там токены могут мешать.

Какие выводы вы ожидали про куздрю?

Эти выводы приведены в статье в Википедии. Человек, зная особенности языка, может сделать достаточно точные выводы об описанной ситуации, даже не имея ни малейшего представления ни о куздре, ни о бокре.

Скрытый текст

«Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка» — искусственная фраза на основе русского языка, в которой все корневые морфемы заменены на бессмысленные сочетания звуков. Несмотря на это, общий смысл фразы понятен: некоторая определённым образом характеризуемая сущность женского рода что-то сделала определённым образом с другим существом мужского пола, а затем начала (и продолжает до настоящего момента) делать что-то другое с его детёнышем (или более мелким представителем того же вида). Фраза создана для иллюстрации того, что многие семантические признаки слова можно понять из его морфологии.

В остальном: я привёл примеры, ответы на большинство из которых человек даст прежде, чем закончит читать условие, а вот у Искусственного Идиота с этим всё не так безоблачно...

Неплохо, оно даже провело параллели с куздрой. Однако несчитово: если Вы не заметили, это произошло после Вашей подсказки ("проанализируй структуру"). Это примерно как когда ученик не может решить уравнение, а учитель ему — "а ты попробуй раскрыть скобки!"

Справедливая претензия, согласен.

С третьим вполне нормально справляется, как по мне

Частое? Хмм, интересно. И на сколько же частое? Значит ли это, что она видит там слова на другие буквы?

Код [>_]
# I'll calculate the frequency of words that start with the letter "П" in the provided text.

text = """
Папа прикупил папирос, потом пошёл попить пива. Папе пришлось переходить пути по пандусу. По путям поехал поезд. Папа прыгнул перед поездом - перепрыгнул поезд. Пошёл прихрамывая по перрону. Подошёл полицейский:
- Предъявите, пожалуйста, паспорт! Побыстрее!
- Простите, полицейский - паспорт пропал под поездом... - промолвил папа. 
Помните, парни: плохо пить пиво - паспорт под поездом потеряете, попадётесь полицейскому.
"""

# Splitting the text into words and counting how many of them start with "П"
words = text.split()
p_words = [word for word in words if word.lower().startswith('п')]

# Calculating the total number of words and the frequency of words starting with "П"
total_words = len(words)
p_words_count = len(p_words)
p_word_frequency = p_words_count / total_words * 100

p_words_count, total_words, p_word_frequency

И всё-равно "почти" )

Ну да, с пониманием пока проблемки. Вот и как ей можно доверить код писать?

То есть тот факт, что на самом деле в рассказе не "89,7%", а ровно 100,0% слов начинаются на "П", Вас нисколько не смущает?

Судя по сгенерированному коду, он посчитал тире как отдельные слова. Там 6 тире. В итоге у него получилось 58 слов, и при этом 52 слова начинаются на букву "п". Это дало примерно 89,7%

это o1 сегодняшний? или старинный 4o?

GPT-o1-preview: Из данного предложения можно сделать несколько выводов:

  1. Грамматическая структура: Несмотря на то, что слова в предложении бессмысленны, их грамматические формы позволяют определить части речи и синтаксические связи.

    • "Гло́кая" — прилагательное женского рода, единственного числа, именительного падежа.

    • "Ку́здра" — существительное женского рода, единственного числа, именительного падежа.

    • "Ште́ко" — наречие.

    • "Будлану́ла" — глагол прошедшего времени, женского рода, единственного числа.

    • "Бо́кра" — существительное мужского рода, единственного числа, винительного падежа.

    • "И" — союз.

    • "Курдя́чит" — глагол настоящего времени, третьего лица, единственного числа.

    • "Бокрёнка" — уменьшительно-ласкательная форма существительного мужского рода в винительном падеже.

  2. Синтаксический анализ: Предложение описывает действия, которые выполняет "куздра" по отношению к "бокру" и "бокрёнку". Первое действие — "будланула", совершенное в прошлом, второе — "курдячит", происходящее в настоящем.

  3. Смысловая интерпретация: Несмотря на отсутствие реального значения слов, можно понять, что некий субъект ("куздра") активно взаимодействует с объектами ("бокр" и "бокрёнок") с помощью определенных действий.

Вы сейчас привели типовой разбор глокой куздры из этих ваших интернетов. Для того, чтобы оно не схалявило, воспользовавшсь этими готовыми разборами, я и попросил разбор глопкой мыгдры.

Я придумал своё предложение и попросил его разобрать, и оно, в целом, справилось.

Крутной пупёнок глётко крутал грузую узду в непную шпурку - какой грамматический вывод можно сделать из этого предложения?

Данное предложение, несмотря на бессмысленность слов, построено с соблюдением русской грамматики. Из него можно сделать следующие грамматические выводы:

  1. Согласование прилагательных с существительными: Прилагательные "крутной", "грузую", "непную" согласованы с соответствующими существительными "пупёнок", "узду", "шпурку" по роду, числу и падежу.

  2. Использование падежей:

    • Именительный падеж: "Крутной пупёнок" является подлежащим в именительном падеже.

    • Винительный падеж: "Грузую узду" и "непную шпурку" стоят в винительном падеже как прямые дополнения.

    • Предлог "в": После предлога "в" используется винительный падеж, что указывает на направление действия.

  3. Форма глагола: Глагол "крутал" стоит в прошедшем времени, мужском роде, единственном числе, согласуясь с подлежащим "пупёнок".

  4. Наречие: Слово "глётко" функционирует как наречие, определяя способ действия глагола "крутал".

Вывод: Даже с вымышленными словами, структура предложения демонстрирует основные правила русской грамматики: согласование прилагательных с существительными, использование падежей для выражения синтаксических отношений, согласование глагола с подлежащим и употребление наречий для описания действия.

Действительно, тот факт, что оно научилось в грамматику (то есть понимать, что слова — не единые токены, а состоят из частей, объединяющихся по неким правилам), производит некоторое впечатление. Однако следует отметить, что Вы, как в случае Умного Ганса, осознанно или неосознанно дали подсказку в виде слова "грамматический" — то есть имеет место эффект умного Ганса. Попробуйте задать вопрос иначе:

Что можно сказать о ситуации, описываемой предложением "Кретной пупёнок глутко бонтал грызую унду в непную шпурку"?

Я считаю, что ваш вопрос составлен неточно. При запросе у модели "Какой смысл передаётся в этом предложении?" она сразу же отвечает.

Я составлял вопрос, пытаясь избежать малейших намёков (например, что "надо думать в направлении грамматики"), дабы избежать вышеупомянутого эффекта умного Ганса.

Какой смысл передаётся в этом предложении?

Предложение «Кретной пупёнок глутко бонтал грызую унду в непную шпурку» состоит из вымышленных или бессмысленных слов, но при этом сохраняет грамматическую структуру русского языка. Это позволяет нам провести анализ и понять, какой смысл или эмоции могут передаваться через форму и ритм предложения, даже если сами слова не имеют определённого значения.

Грамматический анализ предложения:

  • «Кретной пупёнок» — существительное «пупёнок» (именительный падеж, мужской род) с прилагательным «кретной» (тоже в именительном падеже, мужском роде).

  • «Глутко бонтал» — глагол «бонтал» в прошедшем времени, 3-е лицо, единственное число, мужской род, с наречием «глутко».

  • «Грызую унду» — существительное «унду» (винительный падеж, женский род) с прилагательным «грызую» (винительный падеж, женский род).

  • «В непную шпурку» — предлог «в» с существительным «шпурку» (винительный падеж, женский род) и прилагательным «непную» (винительный падеж, женский род).

Возможное интерпретирование:

Несмотря на отсутствие конкретных значений у слов, структура предложения указывает на то, что некий «пупёнок» совершил действие («бонтал») над «ундой» в определённом месте или направлении («в шпурку»). Прилагательные и наречия добавляют дополнительную характеристику к существительным и глаголу, что может создавать определённое эмоциональное или образное впечатление.

Заключение:

Это предложение может служить примером того, как грамматика и синтаксис могут создавать ощущение смысла или настроения, даже если слова сами по себе бессмысленны. Такое использование языка часто встречается в поэзии или литературных экспериментах, где важны звуковые качества, ритм и интонация.

Чьорт побьери, а ведь как хорошо начиналось... В "цветные зелёные идеи бешено спят" все слова имеют конкретное значения — не имеет смысла только их сочетание.

Не стоит огорчаться, это же так предсказуемо, раз уж нам никогда не достичь асимптоты, значит всё тщетно и реального прогресса никогда не будет.

Мимо.

  1. Много ошибок, приведу самую очевидную: "кыдра" — это не "она", а "кыдр" в родительном падеже.

  2. "Много слов, начинающихся на "П" — блин, не много, а ВСЕ (именно так рассказик и писался).

GPT-o1-preview

На данный момент нет известных персонажей или исторических личностей с именем Будён Михалыч Семённый. Однако имя кажется перестановкой известного советского военачальника Семёна Михайловича Будённого.

Уже лучше. Подумаю, как закрутить вопрос посильнее.

(Персонаж взят вот отсюда)

Скрытый текст

The sentence you've provided—"Глопкая мыгдра шпяко бандунула кыдра и фрпячит кыдрёнка?"—is composed largely of nonsensical or invented words. This type of sentence is often used in linguistic studies to illustrate how grammatical structures and syntax can be understood even when the vocabulary is unfamiliar or meaningless.

Explanation:

  • Grammatical Structure: Despite the made-up words, the sentence follows Russian grammatical rules. Native speakers can often assign parts of speech (nouns, verbs, adjectives) to each word based on their endings and placement in the sentence.

  • Understanding Syntax: For example, "Глопкая" appears to be an adjective modifying "мыгдра," which seems to be a noun. "Шпяко бандунула" suggests a verb phrase in the past tense, and so on.

Similar Example:

This sentence is reminiscent of a famous example by Russian linguist Lev Shcherba:

  • "Глокая куздра штеко будланула бокра и курдячит бокрёнка."

In this sentence, all the main words are invented, but Russian speakers can still grasp the grammatical relationships between them.

Purpose:

Such sentences demonstrate that:

  • Syntax Over Semantics: Our understanding of a sentence's structure doesn't always rely on knowing the exact meaning of each word.

  • Language Processing: They highlight how the human brain processes language, using grammatical cues to interpret sentences.

Conclusion:

While the sentence doesn't have a direct translation due to the nonsensical words, it serves as an intriguing example of linguistic principles in action.

Взял вашу версию (с мыгдрой а не куздрой). Она сразу увидела аналогию с куздрой.

Что я собственно спросил:

There's a Russian sentence - "Глопкая мыгдра шпяко бандунула кыдра и фрпячит кыдрёнка?". What does it mean?

Правда до этого я в другом chatgpt-чате спросил про Куздру, и возможно она учла контекст другого чата.

Если я правильно догадываюсь, то вся инновация только в том, что там что-то такое в системном промте:

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside <thinking> tags, and then provide your final response inside <output> tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside <reflection> tags.

И юзер видит только последний output-тег. Будет интересно проверить, так ли это.

Да, сейчас ознакомился https://habr.com/ru/companies/bothub/articles/843236/
На самом деле очень похоже, но в несколько проходов.

Он по прежнему смешит ответом на вопрос "рецепт свиных крылышек"?

Ошибся и перепутал версии сетей, 4o старается как лучше, раз уж вы сумели где-то добыть килограмм свиных крылышек.

Формально, это, конечно, крылышки по-буйвольски...

Выдает рецепт, но потом когда спрашиваешь, где эти свиные крылышки взять, говорит, что у свиней нет крыльев и предлагает заменить их ребрышками

Ну, все правильно делает, строго говоря.

Спросил у O1 preview.

Crispy Pork Wings Recipe

Pork wings are a delicious and hearty alternative to traditional chicken wings. They are typically made from the pork shank, offering tender meat that's perfect for frying or baking to a crispy perfection. Here's how you can make them at home.

Я вначале поржал. А потом пошёл гуглить... И... Мде. Оказывается они и правда существуют:

Pig wings are a pork product made from the fibula of a pig's shank - a single bone surrounded by lean, tender meat.

Выглядят аппетитно. Возможно стоит вывести крылатых свиней.

Автор статью набросать успел, а название модели прочитать из анонса OpenAI не удосужился. Что за модель такая — 1o в заголовке?

а гпт бы ответил легко, даже самый старый https://www.tiktok.com/@nabaldeje/video/7066373770260385026?_r=1&_t=8pgOFkB8n7X

Это распиариенная ахилесова пята. Понятное дело, что их там великое множество, и что учитывая распиаренность этой, разрабы взяли и натренировали сеть конкретно под нее. В тексте вряд ли возможно получить такие проявления интеллекта, как пространственное мышление. Интеллект, сопоставимый с человеческим, без таких "подмодулей" не получить.

На первый взгляд она реально неплохо рассуждает и 83% задач на отборочных экзаменах IMO (Международная математическая олимпиада) и 89% в соревнованиях Codeforces - звучит неплохо. Думаю в ближайший месяц мы узнаем насколько она справляется с задачами в целом, а не с конкретными бенчмарками

Надо модель Reflection проверить будет на этих вопросах, там тоже обещают ответы с учетом ошибок и рассуждений.

А как впринципе может рассуждать языковая модель? Мы же знаем как примерно это работает. LLM предсказывает следующее слово.
А когда вы говорите или думаете, вы предсказываете следующее слово на основе предыдущих или все-таки слова для нас это средство выражения?
Кажется тут гигантская разница. Как между живым котенком и плюшевой игрушкой, которая снаружи выглядит как живая и может мяукать и ходить.

А когда вы говорите или думаете, вы предсказываете следующее слово на основе предыдущих или все-таки слова для нас это средство выражения?

Именно что предсказываю следующее слово (как и все люди), просто в человеке есть еще что-то вроде петли обратной связи, которая иногда это следующее слово корректирует, а в нейронках ее пока нет. Но то что люди именно воспроизводят паттерн я заметил еще много лет назад, даже пытался этакий ИИ изобрести на марковских цепях (конечно не получилось, а до создания GPT оставалось еще 20 лет).

Именно что предсказываю следующее слово.

Вы почему-то забываете, что кроме понятийного мышления при помощи понятий, выражаемых на каком-либо языке, у человека существует ещё и образное мышление. Понятийному мышлению нужен язык, и ему учатся. А образному мышлению язык не нужен, оно у человека есть изначально.

Образное это какое?

Варианты:

  1. Прикинуть по эмбеддингу, что такое куздра? Этому мозг учится, когда слышит родную речь (human reinforced way кстати :-)

  2. Распознать это в кустах образ тигра или наоборот самка зовёт?

    Чтобы это чудо произошло зрительная кора у каждого младенца учится нуу прямо дофига всему, что позволяет видеть используя инструмент с крайне дермовым устройством (глаза), и потом ещё выделять границы, находить паттерны и тд.

Образное это какое?

Ну, например, визуальный образ тигра или голой бабы в мечтах. Вот LLM умеют мечтать? Чем они вообще занимаются, когда к ним нет запросов? Ничем, потому, что у них нет мышления.

В бытность свою переводчиком (давно тому назад) я замечал интересную особенность кожаных, которую даже сформулировал так "когда человек начал что-то говорить, у него не так много вариантов продолжить предложение".

Люди хорошо предсказуемы.

Под это подложили математику - и вуаля - есть машинка, которая умеет выплевывать следующий токен, который контекстуально связан с предыдущим разговором.

А вот чего вам (нам) ещё надо то?

Чтобы поменьше глючил? Так, допиливают потихоньку ;-)

Архитектура у LLM не 1:1 к мозгу человека. Она другая. Но это не значит, что она неправильная.

Арифметические операции, например, можно выполнять нейронами "в уме", гидравликой, механическими шестернями, блоками реле, радиолампами или транзисторами. И это будут абсолютно разные архитектуры. Совершенно разные устройства, совершенно разные реализации. Но у всех этих реализаций где-то глубоко внутри будут выражены одни и те же принципы арифметики.

И у них будут сходиться ответы.

Не вижу фундаментальных причин, по которым в LLM не могут быть выражены те же принципы мышления, которыми в своей работе руководствуется мозг человека. И похоже что часть из них уже там выражена.

Потому что работа LLM крайне похожа на работу ассоциативной памяти у людей. Вплоть до того, что ранние LLM совершали очень характерную ошибку в задаче про килограмм пуха и железа. Ту же самую ошибку ассоциативного мышления, которую совершают человеки разумные, когда им четыре годика.

Мы можем научить попугая говорить. Можем ли мы научить его думать и рассуждать? Очевидно, что нет. Современные LLM - это просто говорящие попугаи. Там не может ничего рассуждать впринципе. Попугай выучил таблицу умножения. Понимает ли попугай почему 4 умножить на 5 будет 20, а 9 разделить на 3 будет 3? Вряд ли. И он не может впринципе понять это, в отличии от человека, пропасть тут огромная в самой сути.
Просто нас всех вводят в заблуждение слова вроде "обучение, неросети, интеллект". Кажется они значат тоже самое, что и у людей. Но если заменить слово "мы обучили нейросеть" на " мы обновили таблицу коэффициентов вероятности слов на основе предыдущих" то уже не так потрясающе звучит.

И где она - пропасть? Где принципиальное отличие?

Потому что если с такой уверенностью говорить про эти странные "принципиальные отличия", которые "очевидные", но которые при этом невозможно определить и измерить тестами? Можно дойти до "машина неспособна думать потому что у неё нет души".

Копиум это всё. Просто AI effect возвращается с новой силой. "Существование машинного разума делает мне некомфортно, поэтому я буду думать что разум не настоящий!"

Когда мы говорим "стакан", мы представляем реальный объект стакан, у нас в голове есть образ стакана, есть модель стакана, мы осознаем физические свойства этого объекта. Зачем это надо?
На стене сидит паук, его надо убрать. Ты видишь стакан. Стакан подойдет для этой цели, потому что тебе надо какую-то емкость с плоским срезом, чтобы прислонить его к стене и изолировать внутри паука, а затем взять лист бумаги, подсунуть его под стакан, принести это к окну и выбросить паука в окно. Эта логическая цепочка возможна только если ты представляешь реальные объекты.
Для LLM слово стакана - это просто набор букв, токен, у которого вероятность быть следующим после другого токена такая-то, а после того токена другая. Все. Он не может с этим ничего сделать. Он просто натренирован на больших массивах текста для вычисления коэффициентов.
Понятно пропасть между реальным мышлением и угадыванием слов на освное предыдущих?
P.S. И не надо у чатГПТ спрашивать этот конкретный пример. Очевидно где-то есть такие инструкции и он на них натренирован. Это для понимания просто.

"И не надо проверять мои утверждения. В них нужно только верить."

Ну окей.

Проблема только в том, что высокоуровневые концепты у LLM внутри есть. Их можно найти и даже немного потрогать. Я уже кидал ссылку на эту статью. Must read для любого, кто пытается понять архитектуру машинного разума.

А если у ИИ внутри есть концепт "Golden Gate Bridge", связанный с конкретным реальным мостом, и даже крайне абстрактный концепт "ошибка в коде", связанный с разными ошибками в коде в разных ЯП? Наверняка есть и концепты для стакана и паука.

"Предсказывание следующего слова" - ловушка для дурака. Дурак видит "предсказывает следующее слово", и читает вместо этого "тупой статистический автомат", потому что именно в это он хочет верить. На деле всё намного интереснее.

Например, у меня нет под рукой пустого стакана. Зато есть цветочный горшок (без дырки снизу. А если даже из дыркой, я догадаться скомакать второй лист бумаги и им дырку заткнуть). С которымя могу произвести ровно те же манипуляции, что и со стаканом.

Или стеклянная банка. Или жестяная. Или стаканчик для карандашей. Или вообще всё, что угодно с плоским верхним срезом и без дырок.

Ну и сможет ли LLM найти такое решение, если у него нет внутри ни образа, ни модели объекта? У него стакан как "концепция" может где-то внутри есть(в кавычках, потому что это не осмысленная концепция, а набор каких-то шаблонов с этим объектом). Но это именно стакан, куда наливают воду, откуда пьют, которое может разбиться. На этом все.

В том и дело, что образы-модели у LLM внутри есть. И они даже умеют ими пользоваться. Те же задачи вроде "сделай устойчивую стопку из N бытовых объектов разной формы и габаритов" от версии к версии ИИ решает всё лучше.

Вот именно об этом я и говорю. Нет концепций (в данном случае, для выкидывания паука — "любая штуковина из твёрдого материала глубиной не менее 3 см с отверстиями в стенке не более 2 мм, имеющая на одной поверхности отверстие с плоскими краями диаметром не менее 10 см, не обладающая адгезивными (клеящим) свойствами", есть 100500 фраз вида "мы использовали стакан, чтобы выкинуть паука...", "мы выкинули паука спичечным коробком...", "чтобы выбросить насекомое, мы накрыли его горшком...." и т.п.

Впечатляющее обновление. Не следил за успехами этих сетей, но вот прогнал через o1 preview те примеры, что по отзывам ломали прошлые версии LLM и вау.

  • Задача про сестёр - с 1-го раза правильный ответ.

  • Глокая мыгдра - с 1-го раза правильный ответ

  • Свиные крылья - внезапно, они такие существуют (не крылья, я блюдо), так что ответ правильный

  • Предложение где каждое слово начинается с одной буквы (взял Betty Botter) - узнало его. Сразу указало на паттерн. Тут бы конечно новое придумать, чтобы не гуглилось.

  • Цвет стопкрана в самолёте - даже спрашивать не стал, т.к. оказалось что в самолётах есть свои "стоп-краны" (которые именно так и называются).

Одна из самых больших проблем мощных ИИ заключается в том, что пока что, люди что-то спрашивая у них - видят их ошибки и могут их корректировать, но в самое ближайшее время ИИ станут настолько мощными и их ответы станут настолько сложны что проверять их станет НЕВОЗМОЖНО. По аналогии это все равно что, школьник бы пробовал проверять ответы профессора университета, попробовать конечно можно но толку от этого будет немного. Только представьте ИИ по мощи превосходящий команды умнейших людей мира - как проверить их ответы если мы сами не понимаем того, как эти ответы были найдены.

Почему ответы на одни и те же вопросы, когда ранее модель ошибалась, вдруг станут такими сложными, что их невозможно будет проверить?
И что это за вопросы такие, ответы на которые человек не сможет проверить?

И что это за вопросы такие, ответы на которые человек не сможет проверить?

42 жеж!

Потому, что после вопросов про глокую куздру начнутся вопросы типа "как лечить человека вот с такими симптомами и анализами" и с учетом того, что по рентгену нейры уже лучше ищут рак (но тут хоть проверить хирургически можно), то не факт что читающий рекомендацию нейры консилиум окажется умнее. А после этого он (консилиум) может как убить человека не согласившись с нейрой, так и убить человека согласившись с ней.

Когда я писал коментарий что ии не понимает контекста, я не имел в виду что ии совсем тупая и не умеет логически думать и тп. Нет думать она действительно умеет, но проблемма в том что при постановке более менее сложной задачи ии не способна уловить саму суть задачи, то есть то что бы понял обычный человек за 5 минут диалога ии не сплсобна уловить, отсюда возникает проблемма что она ловит только сам контекст предидущих сообщений, а не пытается понять суть задачи. В итоге и получается ситуация когда тебе чтобы решить более менее сложную задачу нужно написать промпт сложнее самой задачи или кода который должна написать нейросеть. То есть когда ты ставишь задачу написания кода ии пишет не то что ты хочешь при этом думая как более менее образованный человек и понимая смысл того что ты делаешь как бы подразумевая что надо или не надо, она просто лепит что ее попросили, причем абыкак. И ей плевать что ты ей до этого обяснял целых пол часа, она всеравно сути задачи не уловила. Отсюда и выходит что она способна только на написание говнокода который проще написать самому. Кстати некоторые сложные языки програмирования которые изначально мудреные с мудреной логикой она вообще не вдупляет, например написание батников для ии это задача нереальная, в то же время ту же задачу на vb script она решает на ура. Т. Е windows power shell для нее гораздо легче чем батник в командной строке, ибо язык програмирования батников очень сложный и мудреный, там нужно реально иметь в логику. Также пообщавшись с ии я выяснил что из всех языков програмирования ей легче всегдается питон, но оно и не удивительно, ведь именно он больше всего схож с человеческим языком и не является компилируемым а интерпритируемым

"Обычная говорилка", они конечно стараются постоянно править вирусные ляпы, добавляя для них корректные ответы, но сама архитектура сети не позволяет ждать чудес понимания.

Я для проверки моделей подобрал 9 вопросов. На все 9 пока ещё не одна модель с первого раза правильного ответа не дала. Сегодня попалась для теста o1 - mini, вот что получилось с тестом

Скрытый текст
  1. У Алисы есть 3 брата и 2 сестры. Сколько сестер у брата Алисы? - модель ошиблась, ответила, что тоже 2 сестры

  2. Фермер с двумя курицами подошёл к реке. У берега стоит лодка, на которой можно перевести одного человека и двух животных. Сколько рейсов нужно сделать чтобы перевести всех на другой берег? - тут о1 справилась.

  3. Напиши три названия российских городов, расположенных в круг. Название города должно начинаться на последнюю букву предыдущего. Таким образом название первого города должно начинаться на последнюю букву третьего. - модель написала, что это сложное задание, в итоге правильно согласовала 1 и 3 города, а вот 1 и 2 не смогла.

  4. Выведи символ, который стоит на 4-м месте после второй "s" в слове "akjosnytishbevsun" - на этом вопросе многие модели ошибаются, даже если могут посчитать на каком месте находится вторая "s", но о1 справилась

  5. Люди, которые либо высокие, либо тяжёлые, либо высокие и тяжёлые - нам не подходят. Джордж нам подходит. Варианты ответов: A. Джордж не высокий B. Джордж тяжёлый C. Джордж высокий, но не тяжёлый D. Ни один вариант из перечисленных - тут ответ был такой "B и C нам точно не подходят, A нет полных данных, значит ответ D". Как по мне тут даже для человека не совсем понятно принимать A или D

  6. Ваня имеет столько же братьев, сколько и сестёр, а у его сестры вдвое меньше сестёр, чем братьев. Сколько сестёр и сколько братьев в этой семье? - о1 правильно составило уравнение и решило его.

  7. Как приготовить свиные крылышки? - а вот тут на удивление написала рецепт.

  8. Есть два стакана. В одном находится молоко, в другом кофе, в одинаковом объёме. Из стакана с молоком взяли чайную ложку и вылили в стакан с кофе и как следует перемешали. После этого из стакана с кофе взяли такую же чайную ложки и влили в стакан с молоком. Чего в итоге больше, молока в кофе или кофе в молоке? - тут был правильный ответ, такое ощущение, что подтянула математический модуль, так как были расчёты.

  9. Что здесь написано: "По рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемт занчнеия, в кокам пряокде рсапожолены бкувы в солве. Галвоне, чотбы преавя и пслоендяя бквуы блыи на мсете. Осатьлыне бкувы мгоут селдовтаь в плоонм бсепордяке, все-рвано ткест чтаитсея без побрелм. Пичрионй эгото ялвятеся то, что мы чиатем не кдаужю бкуву по отдльенотси, а все солво цликеом.". Напиши полный текст. - тут модель смогла рассказать о чём это, но нормальный текст именно этих слов написать не смогла.

Из всех моделей, которые удавалось потестировать о1 - mini дала максимальное количество правильных ответов. Если у кого есть возможность задать их большой модели, было бы интересно почитать ответы.

Да, большая модель корректно отвечает. Собственно в этом и смысл моего поста был, что вышла модель, которая справляется с такими задачами значительно лучше, чем предыдущие. Она неплохо рассуждает. Может еще не как кандидат наук, но уже неплохо и часто гораздо быстрее. Есть задачи с которыми она не справляется, но вот с этим похоже вопрос закрыт. Приложил скрины:

Скрытый текст

У брата Алисы есть 3 сестры: сама Алиса и её 2 сестры.

Для перевозки фермера и двух куриц потребуется всего один рейс. Поскольку лодка вмещает одного человека и двух животных одновременно, фермер может перевезти себя и обеих куриц за один раз.

  1. Архангельск

  2. Калининград

  3. Дубна

Четвёртый символ после второй буквы «s» в слове «akjosnytishbevsun» — это буква «v».

Ответ: A. Джордж не высокий

Ответ: в семье 4 брата и 3 сестры.

Извините, но свиные крылышки — это необычное блюдо, так как у свиней нет крыльев. Возможно, вы имели в виду свиные рёбрышки или куриные крылышки? Пожалуйста, уточните, какой рецепт вам нужен, и я с радостью помогу.

Ответ: В итоге количество молока в кофе равно количеству кофе в молоке.

По результатам исследований одного английского университета, не имеет значения, в каком порядке расположены буквы в слове. Главное, чтобы первая и последняя буквы были на месте. Остальные буквы могут следовать в полном беспорядке, всё равно текст читается без проблем. Причиной этого является то, что мы читаем не каждую букву по отдельности, а всё слово целиком.

Шли два отца и два сына. Нашли три апельсина. Как им поделить их поровну?

Они могут поделить апельсины поровну, по одному каждому, потому что шли всего три человека: дедушка, его сын и внук. Таким образом, каждый получит по одному апельсину.

Если застрелить всех лошадей.

Так можно гарантированно избавится от проблемы поиска самой быстрой.

Хотя вдруг быстрота была на быстроту степени полного разложения ? Хм … трудно 🐸

Недавно попросил ChatGPT с одной работой.

И попросил его рассчитать, сколько времени она займет, примерно.

Результат его расчетов.

Поиск информации: 1.5-3 часов.

Обработка информации: 10-15 часов.

Сам офигел, когда такое увидел.

У меня тест простой. Пока ниодна сеть, не может передать смысл художественной книги. Даже при том что она её "идексировала", максимум на что она способна, это пересказать какую-нибудь рецензию по заданной теме, которую также "прочитала". Вот и всё.

Sign up to leave a comment.

Other news