vignatovic Jul 21 2024 at 23:23

Проблемы с логикой у LLM и с доверием не только у LLM

Easy

21 min

6.3K

Machine learning * Research and forecasts in IT * Artificial IntelligenceThe future is hereNatural Language Processing *

Analytics

+24

Comments 26

Daddy_Cool Jul 21 2024 at 23:58

Очень интересно!
Способность к абстрактному мышлению это любопытная вещь. Я видел людей которые просто отказывались вести какие-то обсуждения в абстрактном ключе, все беседы с ними сводятся к решению конкретных жизненных ситуаций, почему-то это преимущественно женщины. Также кажется с возрастом способность к абстрактному мышлению снижается, и это даже в литературе отражено.

Д. Оруэлл, "1984".

Уинстон почувствовал, что разговор не получается.
— Я вот что хотел узнать, — сказал он. — Как вам кажется, у вас сейчас больше свободы, чем тогда? Отношение к вам более человеческое? В прежнее время богатые люди, люди у власти…
— Палата лордов, — задумчиво вставил старик.

— Палата лордов, если угодно. Я спрашиваю, могли эти люди обращаться с вами как с низшим только потому, что они богатые, а вы бедный? Правда ли, например, что вы должны были говорить им «сэр» и снимать шапку при встрече?

Старик тяжело задумался. И ответил не раньше, чем выпил четверть стакана. — Да, — сказал он. — Любили, чтобы ты дотронулся до кепки. Вроде оказал уважение. Мне это, правда сказать, не нравилось — но делал, не без того. Куда денешься, можно сказать.

— А было принято — я пересказываю то, что читал в книгах по истории, — у этих людей и их слуг было принято сталкивать вас с тротуара в сточную канаву?

— Один такой меня раз толкнул, — ответил старик. — Как вчера помню. В вечер после гребных гонок… ужасно они буянили после этих гонок… на Шафтсбери-авеню налетаю я на парня. Вид благородный — парадный костюм, цилиндр, черное пальто. Идет по тротуару, виляет — и я на него случайно налетел. Говорит: «Не видишь, куда идешь?» — говорит. Я говорю: «А ты что, купил тротуар-то?» А он: «Грубить мне будешь? Голову, к чертям, отверну». Я говорю: «Пьяный ты, — говорю. — Сдам тебя полиции, оглянуться не успеешь». И, веришь ли, берет меня за грудь и так пихает, что я чуть под автобус не попал. Ну а я молодой тогда был и навесил бы ему, да тут…

Уинстон почувствовал отчаяние. Память старика была просто свалкой мелких подробностей. Можешь расспрашивать его целый день и никаких стоящих сведений не получишь.

iramovich Jul 22 2024 at 00:20

Думаю - LLM нужно рассматривать как некий "мозг", а не как хранилище памяти и фактов. То есть, в случае необходимости обработать какую-то информацию, брать необходимые факты извне (интернет, базы данных), и подставлять в промпт с просьбой что-то с ними сделать.

Потому что "память" "внутри" LLM сильно усреднена и неточна, для точного мышления моделям нужно подглядывать в "шпаргалку" реальных фактов во внешних источниках

Pol1mus Jul 22 2024 at 00:23

Странно что среднестатистическая ллм до сих пор не умеет пользоваться инструментами, даже простым калькулятором. Их можно прикрутить сбоку через апи и механизам запуска функций но это сложно и не стабильно.

vignatovic Jul 22 2024 at 00:50

Да, систему вроде надо делать разнородной, скрещивать ужа с ежом. Использовать LLM как интерфейс для других систем и наоборот, но это слишком много работы. Ещё проблема в том, что если внутрь LLM спрятать даже Wolfram Mathematica, а не калькулятор, это не даст преимуществ ни LLM ни Mathematica ни калькулятору.

ishchu_kota Jul 22 2024 at 01:12

если внутрь LLM спрятать даже Wolfram Mathematica

Давно уже, и не просто Математика, но и Альфа. И работает очень даже неплохо. На Хабре об этом писали

vkni Jul 22 2024 at 03:32

Альфу сделали задолго до LLM. Но, если честно, я бы предпочёл Wolfram Mathematica из-за предсказуемости.

Даже если вместо LLM был бы живой человек, обладающий хорошим мышлением, ряд приказаний ему проще давать на формальном, а не естественном языке. Да, этот формальный язык дополнен удобным GUI интерфейсом в Wolfram Mathematica.

ishchu_kota Jul 23 2024 at 01:26

Альфу сделали задолго до LLM.

Не знаю, где именно я утверждал обратное, но ладно.

Но, если честно, я бы предпочёл Wolfram Mathematica из-за предсказуемости.

Когда нужен предсказуемый результат, вы идёте и программируете этот результат посредством любого удобного и подходящего для вашей задачи Language (и учитывая быстродействие Wolfram при написании программ "в лоб", а также количество необходимых танцев с бубном, чтобы заставить его работать на уровне Julia/MatLAB/NumPy/etc., чаще всего это будет не Wolfram Language). Когда нужен быстрый результат в простой задаче и вам лень возиться с документацией и прописывать код вручную, то вы пишете короткий запрос в Alpha (который под капотом та же Mathematica). Только теперь есть возможность то же самое через ChatGPT делать, что (вроде бы должно быть) гораздо эффективнее.

Даже если вместо LLM был бы живой человек, обладающий хорошим мышлением, ряд приказаний ему проще давать на формальном, а не естественном языке. Да, этот формальный язык дополнен удобным GUI интерфейсом в Wolfram Mathematica.

Ну тогда LLM, очевидно, не нужны (для ваших задач). Mathematica со своим формальным языком и предсказуемым (и то не всегда) результатом уже есть, а сделать ещё более абстрактный и в то же время формальный язык, чем тот, что представлен в Wolfram представляется маловероятным. Ну и опять же вопросы к быстродействию.

Сам я не знаю ни одного человека, который бы использовал Wolfram в серьёзных проектах, целиком или хотя бы только его часть. Чаще всего только в рамках "обкатать алгоритм и переписать на чём-то нормальном". Но тут опять же, для каждой задачи свой инструмент. Нужно посчитать интеграл — ChatGPT или Alpha, нужно быстро обсчитать что-то аналитическое и построить кучу графиков — Mathematica, нужно считать сложные диффуры Real-Time — Julia/C.

vignatovic Aug 1 2024 at 03:03

Mathematica я давно использовал и с её помощью находил и исправлял тупые ошибки в статьях с тысячами цитирований. Пишут, что AlphaProof и AlphaGeometry 2 от Wolfram решают международную олимпиаду школьников по математике на серебряную медаль (но это не LLV). https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

Jirabus Jul 22 2024 at 05:02

Хоть "нейросеть" и очень хорошее название, странно что психологи не кинулись использовать эти штуки для наглядной популяризации работы нашего мозга, непосредственно интеллекта в ИИ не больше чем в Искусственной почке (аппарате гемодиализа)

Jirabus Jul 22 2024 at 05:16

"Первые два десятилетия XXI века через 100 лет возможно окажутся черной дырой, о которой сохранится намного меньше источников, чем копий бумажных публикаций в архивах о двух последних десятилетиях ХХ века."

Так вот что такое Вавилонская Башня.

Ilya_JOATMON Jul 22 2024 at 06:45

Да. Известная проблема. Если вы знаете ответ - зачем спрашивать LLM? Если вы не знаете ответ - как можно узнать что ответ LLM правильный?

iramovich Jul 22 2024 at 07:06

Прикрутить к ней поисковик, и пусть даёт источники для проверки (а ещё обоснует свои выводы (по понятиям (шучу)))

rPman Jul 22 2024 at 14:09

Это наивно...

Ради СЕО, интернет будет (если не уже) заполнен более чем правдоподобным но абсолютно ошибочным контентом, сгенерированным ИИ)

Jirabus Jul 23 2024 at 11:17

уже. Пока мы сидим в оазисах, интернет зарос каким то сайтами на вордпрессе с любой тематикой и абсолютной чушью

вот Новости 2024 - kaissachess.ru

Octabun Jul 22 2024 at 07:39

Я пошёл на duckduckgo и спросил GPT-3.5 - "Describe a cup of tea in 7 words containing 35 characters" и получил ответ "Steaming tea comforts with its warmth gently." Есть очевидные проблемы, но достаточно близко чтобы "Steaming tea comforts with gentle warmth" считать помощью, как бы ни относиться к нарисованной картине, я тоже ценю чай не за тепло.

А Вы тут с мессионерами и людоедами...

Одна из серий рисунков состояла из молотка, пилы, бревна, топора.

Тут можно думать по-разному. Молоток, топор и бревно - ударного действия, последнее в виде тарана, например. Лишняя пила. Молоток и топор - стучат, пила и топор обрабатывают бревно - все эти предметы связаны и только удаление топора эту связность нарушает, он и лишний.

По опыту общения с неграмотными инженерами, склонен подозревать что они не лишены способности к абстрактному мышлению, а панически боятся им пользоваться - любители ими закусить, в смысле манипулировать, владеют абстрактным мышлением лучше и играть в заведомо проигранные игры незачем. С простонародьем времён Лурье и женщинами из комментов - тем более.

TimurSadekov Jul 22 2024 at 09:06

Отличная статья, браво! Мы с вами очень сильно совпадаем в общих взглядах на проблему. Мы сейчас как раз тестируем прототип ее решения. Наш метод описан в этой статье https://habr.com/ru/articles/802419 и недавно был продемонстрирован на семинаре сообщества разработчиков систем AGI и Strong AI https://youtu.be/LiKa7UUCSno

На очень фундаментальном уровне он революционизирует существующие информационные технологии, совершая переворот от верификации информации к первому в мире алгоритму анализа ее соответствия критерию фальсифицируемости Поппера, который является основой научного мировоззрения. Мы считаем, что наша система позволит создать механизм взаимной проверки и самосовершенствования нейросетей и человека для сопоставления знаний искусственного интеллекта с коллективным интеллектом реальных людей, обладающих настоящими, а не заученными знаниями и опытом. И позволит построить принципиально новый алгоритм взаимного доверия. Давайте сотрудничать!

Apxuej Jul 22 2024 at 14:42

Логическое мышление на человеческом уровне не будет достигнуто даже при увеличении размера и стоимости LLM в 1000 раз, так как для достижения логического мышления не достаточно линейной алгебры и статистики.

Надо будет подсобрать со статей хабра подобные высказывания и опубликовать как выйдет GPT-5 или другие нормальные модели, а не тот шлак, что сейчас есть.

Автор, есть довольно простое объяснение того, почему современные модели лишь иногда могут в логику. Возьмём, например, сложение на примере относительно простой и старенькой модели gpt2 - она может складывать гораздо лучше, чем просто случайный выбор цифр, но всё равно начинает ошибаться всё чаще и чаще, чем больше цифр в слагаемых. Причём учёные проверили - она может верно складывать цифры отсутствующие в обучающей выборке. Казалось бы, как можно одновременно уметь и не уметь складывать? Всё просто, как Вы правильно заметили - эти модели всего лишь продвинутые статистические вычислители и чтобы вычислить следующий токен они используют правила или эвристики, которые они нашли на этапе обучения. Часть этих эвристик были получены на начальных этапах и в будущем были отброшены, часть остались для каких-то узких случаев, часть получается использовать для очень большого числа случаев. Так вот одну из таких очень общих эвристик мы, люди называем "логическим мышлением", а ещё одну которую все почему-то забывают - "построение единой модели окружающего мира" - для LLM вовсе не очевидно, что существует некий единый мир, т.е. одна эвристика может быть слабо связанна с другой. Современные LLM без тени сомнения обладают "логическим мышлением", но кроме этого обладают громадным объёмом других очень хорошо работающих в узких случаях эвристик, которые плохо работают в других. Если бы правила на основе логического мышления работали бы всегда на обучающей выборки всего интернета, то LLM довольно быстро обучились бы использовать только её, но поскольку данные из интернета довольно хренового качества, т.е., например, противоречивы, то эта эвристика используется часто, но не всегда. Т.е. используется ровно столько, сколько нужно согласно внутренним статистическим правилам и доли рандома. Это безусловно не человеческий интеллект, но это заготовка которая содержит в себе интеллект близкий к человеческому, а кроме него ещё много мусора, который постоянно всплывает на поверхность - с нашей точки зрения. То, что сейчас все уделяют внимание росту данных и модели - это лишь потому что это относительно просто и даёт неплохой выхлоп, пока ещё даже не приступили к дистилляции моделей, чтобы отбросить ненужные эвристики или хотя бы к нормальной чистке данных, чтобы изначально уменьшить количество "некорректных" путей обучения.

Ещё кое-что: я бы не стал сравнивать скорость обучения человека и нейросети, потому что наши мозги в результате миллионов лет отбора заточились под мир в котором мы живём. Попади человек в мир каких-нибудь геометрических абстракций, то бездарно проиграет нейросетевым моделям в способности как строить модель окружающего мира так и предсказывать развитие этого мира во времени и планировать действия в рамках достижения собственной цели, другими словами: в умении мыслить логически, как раз по причине экстремальной заточенности.

Кроме того в статье как-то упустили тот факт, что современные модели абсолютно точно могут обучаться в рамках доступного контекста - это было доказано в нескольких работах - почитать объяснение доступным языком (правда на английском) можно тут.

Daddy_Cool Jul 22 2024 at 16:50

Очень интересно!
А есть ли определение, что такое логика, и как её можно запрограммировать? По идее это понимание причинно-следственных связей. Когда учится ребенок - он проводит эксперименты, сунул руку к огню - о, горячо! Не убрал игрушки - о, мама заругалась, и т.п... Мой друг, в возрасте десяти лет, на моих глазах провел эксперимент по засовыванию двух вязальных спиц в розетку, я его отговаривал, но он сказал "Не, ну интересно, а что будет?" (К счастью обошлось выбитыми пробками и всё). А вот как у нейросетей с возможностью проведения своих экспериментов? Кажется нельзя учиться по учебникам и решебникам без решения задач самостоятельно.

phenik Jul 23 2024 at 10:09

Причём учёные проверили - она может верно складывать цифры отсутствующие в обучающей выборке. Казалось бы, как можно одновременно уметь и не уметь складывать? Всё просто, как Вы правильно заметили - эти модели всего лишь продвинутые статистические вычислители и чтобы вычислить следующий токен они используют правила или эвристики, которые они нашли на этапе обучения.

Эта тема уже не раз обсуждалась, см. 1, 2. Не могут ЯМ на основе только трансформерной архитектуры усвоить арифметические операции для любых чисел, при любом числе параметров и объеме обучающей выборки. Обучение в контекстном окне также не помогает из-за его конечного размера. Для этого нужна встроенная в сеть рекуррентность, а не только внешний авторегрессивный цикл. Об этом даже где-то в новостях от OpenAI упоминалось. Полностью задача решается пока только с привлечением внешних специализированных средств.

vignatovic Jul 23 2024 at 14:35

То, что сейчас все уделяют внимание росту данных и модели - это лишь потому что это относительно просто и даёт неплохой выхлоп,

Сейчас идет обсуждение, что не хватает данных всего интернета для обучения ЯМ. При этом надо на обучение потратить $100B вместо $100M, это наверно проще.

пока ещё даже не приступили к дистилляции моделей, чтобы отбросить ненужные эвристики или хотя бы к нормальной чистке данных, чтобы изначально уменьшить количество "некорректных" путей обучения.

Чтобы получить логику надо очистить данные, а чтобы очистить данные нужна логика. Это принципиальный барьер, проблему дистилляции данных в рамках LLM не решить. Что первое курица или яйцо когда нет ни курицы ни яиц.

dmatora Jul 23 2024 at 20:48

В статье никак не учитывается Project Strawberry (Q-Star), который должен стать ядром GPT5, релиз которого ожидается в конце 2024 - начале 2025
Его релиз сделает все сказанное в статье - устаревшим

vignatovic Jul 23 2024 at 23:46

А проблему с доверием Project Strawberry (Q-Star) собирается решать при помощи магии или по старинке при помощи цензуры и диктатуры?

dmatora Jul 25 2024 at 01:15

И старшеклассник и Ph.D могут периодически нести ахинею, но уровень доверия к их ответам отличается все же существенно.

vignatovic Jul 25 2024 at 14:07

Просто задавать уровень доверия по уровню образования - верх глупости. В круге общения старшеклассника, старшеклассника знают и ему осознанно доверяют или не доверяют. В круге общения PhD, PhD знают и осознанно доверяют или не доверяют. Такое доверие или недоверие относится в первую очередь к оцениваемому и оценщику, а потом уже к ответу. Уровень доверия к ответам PhD существенно выше, чем уровень доверия к ответам старшеклассника исключительно в профессиональной сфере и среди публики которая этих PhD и старшеклассников лично не знает.

vignatovic Jul 24 2024 at 16:54

Вот иллюстрация почему простой редактор с автозаполнением лучше чем Copilot для написания программ (и это не только из-за проблем с логикой у LLM). У редактора с автозаполнением есть предсказуемость, а у Copilot -а предсказуемости нет, а значит и нет доверия.

Wesha Jul 24 2024 at 17:27

Логика у LLM — как оргазм у девушки: его нет — но она великолепно его имитирует.