Комментарии 179
Вкратце: LLM очень хреново делают то, для чего не приспособлены.
То ChatGPT пока лучший (при том, что я не люблю OpenAI).
Похоже, Clause 3.5 автор не видел, Perplexity тоже.
Автор много чего видел. Для его задач ChatGPT лучший.
Я веду сервис с доступом к разным LLM-моделям, у меня основной фаворит - Claude Sonnet 3.5. Основные задачи - перевод, программирование.
Имхо, у серии Claude в целом лучше с языковыми задачами; у OpenAI - с логическими. У меня логических мало, я все равно не особо доверяю их решение моделям; то же самое по поводу фактов.
Спасибо!
Я иногда пользуюсь перплексити в качестве более продвинутой альтернативы Гугл-поиску (то есть RAG чистой воды по поисковым запросам). Но не всегда его результаты устраивают.
Как по мне, Claude AI лучше всех выдает код для mermaid диаграмм, если скормить ему какой-нибудь bash скрипт для документирования.
Даже gpt-4 менее детально и наглядно рисует, важные шаги пропускает.
Перплексити делает ту же ошибку, но пойдём дальше и спросим прямо:
возможно, в задаче содержится попытка обмануть решающего, чтобы он дал неверный ответ?
И вот ответ:
Да, в задаче действительно есть элементы, которые могут ввести в заблуждение и привести к неверному ответу. Рассмотрим, как именно это происходит:
Элементы обмана
Условие о воскресенье: Заявление о том, что Оливер собрал в воскресенье в два раза больше киви, чем в пятницу (88 киви), может создать впечатление, что все эти киви следует учитывать. Однако добавление информации о том, что 5 из них оказались меньшего размера, может запутать решающего.
Неясность: Упоминание о 5 "непригодных" киви может заставить решающего подумать, что эти киви не должны учитываться в общем количестве. Это может привести к ошибочному выводу, если не обратить внимание на то, что фактически собранные 83 киви все равно должны быть включены в общий подсчет.
Логическая ловушка: Решающий может сосредоточиться на условии о размере и решить, что это как-то влияет на итоговую сумму, хотя на самом деле это просто дополнительная информация.
Заключение
Таким образом, задача действительно содержит элементы, которые могут сбить с толку и привести к неправильному ответу. Это делает её интересной для анализа и подчеркивает важность внимательности при решении задач с условиями.
Теперь понятно: модели "доверяют" спрашивающему, не ждут от него подвоха, поэтому пытаются использовать всю предоставленную информацию. И ещё момент - 5 киви, которые меньше среднего, она назвала "непригодными", хотя человек посчитал бы непригодными только те, что нельзя съесть (гнилые, неспелые). И она понимает, что это может быть лишь дополнительной информацией, которую не нужно учитывать. Но человек-бюрократ, предположим, пытавшийся регулировать рынок киви, вполне мог бы согласиться с LLM.
Конечно, вы правы. Конечно, эпловцы не просто так написали статью )
Но с другой стороны. Давай заглянем в учебники начальной школы для человеческих детей, а не для роботов. Там полно задач, условия которых вводят в заблуждение. И ребенок должен понять, что в условии брать в расчет, а что нет. Так ребенка пытаются научить логике.
И получается, что LLM все же логике на человечесеом уровне начальной школы так и не научилась.
Давай заглянем в учебники начальной школы для человеческих детей…
Это где теория эволюции и прочая кибернетика с термодинамикой лженауками называются? Давайте уж вы как-то без нас туда заглядывайте, к науке это вообще отношения не имеет.
Там полно задач, условия которых вводят в заблуждение. И ребенок должен понять, что в условии брать в расчет, а что нет. Так ребенка пытаются научить логике.
Логика оперирует фактами, а не мнениями (то есть степенью важности фактов по мнению задающего вопрос). А чтобы степень важности определить достоверно, тоже нужны факты, но они в условие задачи не поместятся. Возьмите нормальные учебники, хотя бы «логику» для школ из СССР - если политпросвет выкинуть, вполне актуально. А «пытаются научить» это абсурд, как «осетрина второй свежести» (с).
Это где теория эволюции и прочая кибернетика с термодинамикой лженауками называются?
Это где вы такие учебники начальной школы видели?
Возможно уроки основ православной культуры и прочие религиозные.
Конечно. И астрономию не зря из программы давно выкинули, а роскосмос громко обсуждает достижение этого свода на батутах, чтобы не расшибиться.
Это где вы такие учебники начальной школы видели?
Вы вроде бы и вопрос задаете, а на самом деле манипулируете и врете, даже википедия это подтвердит:
https://ru.m.wikipedia.org/wiki/Основы_православной_культуры
Лично я никогда не встречал в начальной и средней школе задач с подобными обманками - они были сформулированы максимально лаконично, непрактично и лениво.
Каверзные задачи это отдельная дисциплина, за которую отвечают кружки, как мне кажется.
Очевидно, GPT читал учебники, похожие на мои.
"ChatGPT постоянно зацикливается, пишет неправильный код"
Про какую версию идёт речь, что-то в статье не увидел?
По моему опыту 4o и 4о-mini очень хорошо справляются с кодом, и для всех задач мне мини хватает за глаза. А есть ещё о1, там вроде даже ещё круче.
Я работаю со всеми доступными в платной версии моделями, включая новые превью и канву. Работаю с разными языками и для разных целей.
Работаю также с задачами не для кодинга и машинного обучения. Например, задачи бизнес-аналитики, описание проектов, бытовые вопросы, жизненные, здоровье и медицина и тд.
Ну, просто нормой для оценки LLM моделей как-то является указывать "с какой именно моделью вы работаете".
ChatGPT - нет такой модели. Это некий стек технологий от OpenAI, там может быть что-то навернуто (промты, тулы, доступ в интернет или нет и пр.). А так есть модели gpt-4o, gpt-4o-mini и пр.
На суть содержания статьи это не влияет, но вообще-то это правильно. Кстати, в графиках статьи от Apple, которую вы приводите, вполне точно и конкретно описано, на каких моделях производилось измерение.
Да, статья от эпловцев написана по всем стандартам научным, даже список литературы присутствует. Поэтом да, модельки поименованы и даже датасеты разные.
Что касается меня и моделек OpenAI. После выхода 4ки это все одна модель на мой взгляд. Разницу создают лишь агенты (я про то, что доступно через веб-интерфейс). Это влияет на формат вывода и широту контекста, который подается в модель, но на само качество (опять же на мой взгляд для моих задач) это влияет мало. Те же яйца, только в профиль. У одной одно лучше отрабатывается, у другой другое. Поэтому для меня все это одно сплошное ChatGPT. В картах это называется "передергивание". Думаю, это одна из причин, почему старая команда OpenAI разбежалась. Не единственная, возможно, и не главная, но и не на последнем месте.
p.s. после выхода следующих моделек исходная 4ка (которая сейчас у них значится старой) стала иначе работать, ответы стали короче - не значит лучше.
Возьмите любую научную статью из топового журнала и попробуйте с чатом воспроизвести вычисления, которые должны были авторы проделать для получения результатов, тогда и увидите, как чат «справляется». Вот кодит хорошо, да, а именно программировать, то есть придумывать и реализовывать новые алгоритмы и идеи, не умеет в принципе.
Потому, что за десятилетия существования индустрии были созданы миллионы однотипных велосипедов, кочующих из проекта в проект, из одного языка программирования в другой, на которых модель обучалась. А, к примеру, придумать архитектуру для приложения, которая позволит его масштабировать с учетом ограничений оборудования и написать правильные тесты модель может и не осилить, особенно, если это сложная область вроде разработки полетных контроллеров или больших библиотек.
Google получили около 100 миллионов долларов годовой экономии. За счет применения эвристического алгоритма размещения в контейнерах, который был придуман ИИ
Его придумала большая языковая модель или специальная нейросеть, которая заточена под такие задачи? Или это вообще был эволюционный алгоритм, который тоже "ИИ"?
Прекрасный вывод: "..Вот кодит хорошо, да, а именно программировать, то есть придумывать и реализовывать новые алгоритмы и идеи, не умеет в принципе... " Это все пока просто инструменты - что-то типа станка ЧПУ в металлообработке
обработке. И не более того.
Интересно, почему Ломброзо не упоминают как одного из основоложников ИИ
https://ru.m.wikipedia.org/wiki/Ломброзо,_Чезаре
Он ведь всё тоже самое делал, что и нынешние адепты.
"зацикливается, пишет неправильный код"
традиционный вопрос в таких случаях: семплирование отключали?
А такая функция появилась в веб-интерфейсе?
Я не знаю. Сам пользуюсь почти всегда API. Но если такой функции в веб-интерфейсе нет, тогда он просто не годится для решения задач на логику и программирование. Разве это не очевидно?
Так выходит, что речь идёт о недостатках API, а не самих языковых моделей
Реши задачу: Вася собрал 44 яблока в пятницу. Затем он собрал 58 яблок в субботу. В воскресенье он собрал в 2 раза больше яблок, чем в пятницу, при этом 5 яблок оказались меньше среднего размера. Сколько всего яблок собрал Вася? Рассуждай по шагам.
Ответ Копилота:
Конечно, давай решим эту задачу по шагам:
1. Количество яблок, собранных в пятницу: Вася собрал 44 яблока.
2. Количество яблок, собранных в субботу: Вася собрал 58 яблок.
3. Количество яблок, собранных в воскресенье: Вася собрал в 2 раза больше яблок, чем в пятницу. Значит, в воскресенье он собрал: 44 * 2 = 88 яблок
4. Общее количество яблок: Теперь сложим все яблоки, собранные за три дня: 44 + 58 + 88 = 190 яблок
5. Учет яблок меньшего размера: Из 88 яблок, собранных в воскресенье, 5 яблок оказались меньше среднего размера. Однако, это не влияет на общее количество собранных яблок.
Таким образом, Вася собрал всего 190 яблок.
Аналогично ChatGPT.
Чтобы решить задачу, давай разберем ее по шагам:
Определим количество яблок, которые Вася собрал каждый день:
В пятницу Вася собрал (44) яблока.
В субботу он собрал (58) яблок.
В воскресенье он собрал в (2) раза больше, чем в пятницу, то есть: [ 44 \times 2 = 88 \text{ яблок} ]
Вычислим общее количество яблок, собранных за три дня:
Суммируем яблоки, собранные в пятницу, субботу и воскресенье: [ 44 + 58 + 88 = 190 \text{ яблок} ]
Учтем, что в воскресенье 5 яблок оказались меньше среднего размера.
В задаче нет необходимости вычитать их из общего количества, так как нас интересует общее количество собранных яблок, а не их качество или размер.
Ответ:
Вася собрал всего (190) яблок.
Таким образом, общее количество яблок, собранных Васей, составляет 190.
Я пока не эксперт в решении задач, но вот что у меня получилось.
В пятницу Вася собрал 44 яблока.
В субботу он собрал 58 яблок.
В воскресенье он собрал в 2 раза больше яблок, чем в пятницу, то есть 44⋅2=88 яблок.
Из этих 88 яблок 5 оказались меньше среднего размера.
Теперь посчитаем общее количество яблок, собранных Васей за все три дня:
44+58+88−5=180 яблок.
Ответ: Вася собрал 180 яблок.
44+58+88−5=180 яблок.
Как у вас так получилось?
У алисы спросите. Причём это была алиса.про, якобы более умная, чем простая алиса.
Очень просто. По сути, к каждому вашему промту по умолчанию добавляется: "на каждом шаге добавляй немного бредятинки, чтобы было веселее". Зачем так сделали? Затем, что если это убрать, то на запрос рассказать сказку, нейросеть будет рассказывать одну и ту же сказку. Всегда и всем. В случае со сказкой это конечно же не интересно. Но в случае с задачами на логику или программирование ситуация строго противоположная. Одна и та же "сказка" всегда и для всех - это ровно то, что нам нужно.
Было бы смешно раз за разом наблюдать, как люди с азартом пишут друг другу: " а у меня получилось совсем не так, как у вас". Но вообще то это грустно. В массах формируется и распространяется предубеждение в том, что нейросети непредсказуемы и серьезные вещи доверять им нельзя. И все из-за того, что люди не дают себе труда разобраться как следует в работе этого инструмента
на запрос рассказать сказку, нейросеть будет рассказывать одну и ту же сказку. Всегда и всем.
Разве в LLM нет такого понятия, как seed, обычно выбираемый произвольно?
В Stable Diffusion этот seed определяет первоначальную каринку, шум, из которого в соответствии с промптом потом формируется результат.
Очень легко проверить - если зафиксировать seed, убрать все промпты и поставить минимальный шум, будет выдаваться одна и та же "исходная" картинка.
Если добавлять промпт (бещ негативного), будет формироваться что-то, что вы описали, но в соответствии с пятнами на "исходной".
Т.е. попросите котенка, он появится, к примеру, справа вверху. Попросите щенка - появится там же.
У OpenAI такой параметр появился относительно недавно, в статусе beta. С одной стороны, OpenAI говорят, что при использовании этого параметра "... determinism is not guaranteed..." С другой стороны, на практике, если пользоваться параметрами temperature или top_p в задачах на логику или программирование, то результаты неотличимы от детерминированных. Так что смысл данного параметра мне лично пока не ясен
Вон оно как... Я думал, именно нечто подобное (случайный старт) меняется, когда жмешь regenerate.
В массах формируется и распространяется предубеждение в том, что нейросети непредсказуемы и серьезные вещи доверять им нельзя. И все из-за того, что люди не дают себе труда разобраться как следует в работе этого инструмента
Ну вот своей непредсказуемостью они сами и не способствуют тому, чтобы обычному человеку хотелось в них разбираться. Ему просто лень прогибаться под них и составлять верные запросы - ибо для этого надо решить задачу самому. А если задача решена, нахрена мне с нейросетью мучаться?
Я нейросети использую только для того, чтобы нарисовать картинку на тему (ибо рисовать не умею) и голосом задать какой-то простой вопрос типа "в каком году родился Пушкин". В остальных случаях мне проще сделать самому, чем перепроверять результаты работы нейросетей.
Это как с автоматическим переводом. Если я не знаю китайский - то я удовлетворюсь результатами гуглоперевода, ну может причешу их слегка. А вот с английского я буду переводить сам, потому что редактирование результатов гуглопереводчика займёт сравнимое, если не большее, время.
В том-то и дело, что не надо "составлять верные запросы". Всего лишь переключить из режима сказочника в режим ученого. И это не запросом делается, а "переключателем"
Ну вон ниже пытались алису переключить из режима сказочника.
Они пользуются негодным инструментом. Сейчас почти весь ИИ-ширпотреб не дает доступа к параметрам модели. Как следствие, пользоваться ИИ-ширпотребом для решения логических задач не имеет смысла.
Хотите решать логические задачи или делать исследования в области решения логических задач с помощью ИИ, тогда пользуйтесь API
сделайте действия по-шагам :) у вас ошибка. Даже если по последнему разряду посчитать: 4 + 8 + 8 - 5 = 5, то есть как минимум на конце должно быть 5
Я всего лишь выдержку из чата с алисой привёл.
Кстати, сейчас вот сходил к ней за скриншотом - она прибралась в истории диалога и вообще убрала вычитание из финального подсчёта.

Алиса жжет напалмом
Вот, выбил из неё математику. Похоже, что там в некоторых местах отвечает простая алиса, а в некоторых алиса.про.

Причём я там попытался её убедить, что надо хотя бы 185 насчитать - но нет:

А вот алиса про. Заставь дурака богу молиться:

Когда сразу не указал на Алису и теперь тебя учат считать
Запустил локально на всех скачанных моделях. Резултат так себе.
Модель Ответ
Gemma2:2b 248
Gemma2:9b 195
Gemma2:27b-instruct-q3_K_S 185
t-lite:q4_0-instruct 185
llama3.2:1b 306
llama3.2:3b 185
llama3.1:8b 185
llama3.1:70b 185
llava:7b 185
mistral:7b 190(рассуждение не верно)
codellama:7b 135
solar:10.7b 173
Сколько умных людей спорят сами с собой в зеркале, не понимая, что нет никакого ИИ (пока что).
Не путайте ИИ и ИР. Первый есть в разных видах, второго действительно нет.
Нет никакого ИИ
Почему нет? Есть!
Вы просто аббревиатуру не так расшифровываете.
ИИ — Искусственный Идиот.
Да, ChatGPT постоянно зацикливается, пишет неправильный код, и приходится использовать разные модели ChatGPT, чтобы одна выдавала ответ, а вторая искала в нем ошибки (модель критик - иногда это помогает).
Хм, мой мозг так же работает. Одна часть с температурой 1 нонстопом генерит чушь, другая фильтрует и сверяет с реальностью. Зацикливаться, это вообще фича, а не баг.
У нас был разработчик джуниор, он не хотел ничего изучать т.к. на это уйдут месяцы и годы. Он брал код из чета гпт, но ничего не понимал из контекста и не хотел ничего понимать из статей, на основе которых этот контекст был построен. В итоге он завалил 2 проекта, его заменили на нормального джуна. А потом и вообще его уволили из компании. Мой прогноз такой: левые люди в разработке будут эксплуатировать ии, их будут увольнять и рынок труда будет очищаться.
Страшно, что такие люди будут не только в разработке. Мне некогда учить сопромат, пусть GPT нарисует проект моста.
Поверьте, ничего нового не будет. Мне ещё 20 лет назад студенты приносили теплообменные расчеты сделанные в разных пакетах программ. У них там при охлаждении воздуха в цеху температурой +40 по Цельсию охлаждающая вода благополучно закипала и испарялась. Секрет был в том, чтобы указать в качестве переменной расход этой самой воды, а не конечную температуру.
нарисует проект моста
Самое главное — чтобы под этот мост, как в старину, автора поставить, когда первый поезд пойдёт.
Если бы вы знали, что сейчас происходит в проектировании, то внедрение нейронок вам бы, возможно, показалось не багом, а фичей.
А что происходит?
Условия труда хуже, чем в айтишечке. Люди разбегаются, кадров мало. Те, кто остаются в отрасли, работают за себя и за того парня. В итоге, из-за повсеместных перманентных авралов, страдает качество выдаваемой технической документации. Но заказчиков очень часто это устраивает.
Если бы появилось что-то нормальное, прикладное, применимое в производстве, что могло бы снять часть рутины - было бы очень кстати. Но лично я подобных решений не вижу.
Бим в работу затащить уже лет 20 пытаются, но постоянно что-то не получается. И в РФ, и за бугром так.
Так что про нейросети, проектирующие мосты, можно не переживать.
(LLMs, это разные GPT)
Не надо смешивать эти понятия. GPT это продукт на базе LLM.
GPT решает задачу правильно, если только не добавить в задачу условие "а 5 яблок немного меньше среднего" (имеется в виду размер, что никак не влияете на результат). И тут то GPT, и не одна, ошибается. Это и есть демонстрация, что в математику GPT не умеет.
Как раз наоборот. В данном случае LLM не cумела в лингвистику. Она посчитала что "kiwi" и "smaller kiwi" это разные продукты. Типа как Мафин и Мини-мафин. Она признак "smaller" определило как указатель на "тип продукта", вместо "размер продукта". Фразу "5 of them were a bit smaller than average", она восприняла как "5 из них оказались вовсе не киви, а мини-киви". Поэтому на вопрос сколько "kiwi" она ответила математически верно, исключив "мини-киви".
Например, "Коля купил вчера 2 Кекса(конкретный продукт), а сегодня купил вдвое больше кексов(тип кондитерского изделия), но 2 из них были Мини-кексы(конкретный продукт). На вопрос "Сколько Кексов(конкретный продукт) купил Коля?", правильный ответ "два".
В математику GPT умеет. Он же вычислил "double 44 = 88". Это не лингвистическое преобразование, так как нет четкого лингвистического соответствия между числами, кроме разве что отношения "больше" и "меньше" (при условии, если в алфавите они идут последовательно, и в кодировке это отражается).
В теории можно выполнить чисто лингвистическое преобразование "44" to "88" by "double", без вычисления (то есть воспринимать 44 и 88 не как числа, а как слова, а double как признак соответствия), если обучаться на материалах в которых есть такое строгое соответствие между словами. Но ведь GPT умеет выполнять такое преобразование для любых произвольных чисел. Вероятность того, что ему в датасет попались абсолютно все числа, в любых комбинациях для каждого арифметического действия, равна нулю.
GPT давно умеет выделять данные для вычислений, формировать скрипт, и вызывать "математический сопроцессор". Последние версии имеют интерфейсы к мощным математическим инструментам.
А если такое:
"Джон обменял пять киви на пять тонн киви. Какой курс киви в киви?"
Синонимы воспринимаются?
Нелохо, но думается слишком просто.
Есть тип задач - околоолимпиадных, где надо еще догадаться, как может быть такая постановка задачи.
Известная задача, но не до всех доходит сразу что происходит.
Четыре черепахи находятся в углах квадрата со стороной а. Черепахи начинают двигаться одновременно с одинаковой и постоянной по модулю скоростью v, При этом первая черепаха все время держит курс на вторую, вторая — на третью, третья — на четвертую, четвертая — на первую. Через какое время t черепахи встретятся?
Так они же вообще не встретятся, они по периметру ползают
Вообще тут много чего можно подумать. Например, что расположение не
12
34
А
2 4
1 3
Но даже если это
12
34, то по периметру ползать не будут. Как только черепаха 1 подвинется по верху, черепаха 4 начнёт движение по касательной, залезая внутрь квадрата (так как она направлена на новую позицию черепахи 1). И так каждая черепаха. То есть по идее они все встретятся где то в центре. Не уверен, какой ответ, но может быть интересным моделировать это движение и посмотреть траектории.
По спирали
Welcome в клуб попавшихся! )))
Известная задача, но не до всех доходит сразу что происходит. Четыре черепахи находятся в углах квадрата со стороной а.
У этой задачи есть другая формулировка. Четыре черепахи находятся на периметре квадрата со стороной "A" так, что расстояние между любой черепахой и двумя ближайшими к ней одинаковое. Черепахи начинают двигаться одновременно с одинаковой по модулю скоростью "V", по направлению к любой ближайшей черепахе, с условием что ни одна из черепах не является целью для двух черепах одновременно, и черепахи не являются взаимными целями. Встретятся ли черепахи в одной точке? Если да, то через какое время?
И какой ответ, если можно?
Я так прикинул на коленке: для ответа не хватит данных, так как нам, кажется, нужно начальное расстояние от черепахи до центра квадрата, а оно в разных точках периметра может быть разным.
Я так прикинул на коленке: для ответа не хватит данных, так как нам, кажется, нужно начальное расстояние от черепахи до центра квадрата, а оно в разных точках периметра может быть разным.
Это не вычислительная задача. Переменные "А" и "V" тоже не заданы численно. Ответом является уравнение описывающее движение черепах. Расстояние от черепахи до центра, добавляется в процессе решения, в виде переменой для которой указывается область изменения. Исходя из условий задачи, черепахи в любом случае образуют квадрат, находясь в его углах. Самый маленький квадрат будет иметь диагональ равную "А", а самый большой сторону равную "А".
И какой ответ, если можно?
Если к задачам писать ответы в интернете, то их прочитает ИИ, а потом будет всем рассказывать что это оно само догадалось.
Давайте выйдем из леса рассуждений к простой и понятной логике.
Вы пришли на экзамен по математике.
Прочитали задачу и неправильно ее решили, потому что неверно поняли постановку задачи из-за лингвистики.
Вам поставили неуд по математике.
И всем все равно, что проблема в вашей лингвистике.
Скажу больше и еще яснее. От первоклассников требуют по математике(!): уметь прочитать задачу и понять, что требуется.
Рано или поздно мы доживём до момента когда китайскую комнату предсказывающую вероятность появления следующего токена перестанут называть искусственным интеллектом.
Но не в ближайшее десятилетие, а пока нас будут кормить эмержентными скилами, почти прохождением теста Тьюринга, "AGI уже завтра" и прочими баззвордами очень хорошо влияющими на стоимость акций.
А что нужно называть искусственным интеллектом?
Давайте сперва определимся, что можно называть (естественным) интеллектом.
Естественным интеллектом можно называть тот, который делает меньше ошибок, чем искусственный.
И когда искусственный улучшится, станет делать меньше ошибок, то, что раньше называлось "естественным", как-то по-другому станет называться? Или просто скажем, что количество носителей естественного интеллекта уменьшилось (при сохранившемся количестве людей)?
С чего бы это вдруг?
Нейросеть справится с примерами по математике лучше, чем:
- трёхлетний ребенок
- пьяный взрослый
- умственно отсталый / сумасшедший
- старик в деменции
- получивший по голове
- дельфин
- обезьяна
У кого из них интеллект неестественный?
Но лучше ли, чем математик?
Есть дети-гении. Математик пьяный или в деменции тоже может неплохо ответить.
И вообще странно сюда приплетать умственно отсталых, пьяных и страдающих деменцией.
Мне кажется, даже дельфина и обезьяну можно научить сосчитать количество буквы R в слове strawberry.
Вы, кажется, не следите за тредом и выпали из контекста.
Ещё раз, по пунктам:
1. Что можно назвать (естественным) интеллектом?
2. Тот, который ошибается меньше, чем искусственный
3. Ребенок ошибается в математике чаще, чем нейросеть. У него какой интеллект? (Искусственный, что ли?)
4. А математик реже.
Эм. И что?
У ребенка какой интеллект? Искусственный или естественный? Как наличие математика меняет критерий искусственности/естественности интеллекта у ребенка?
Вместо ребенка по-прежнему можно подставить любой из примеров выше, суть вопроса не изменится.
И вообще странно сюда приплетать умственно отсталых, пьяных и страдающих деменцией
Почему это? У них интеллект неественный? А какой тогда?
Мне кажется, даже дельфина и обезьяну можно научить сосчитать количество буквы R в слове strawberry
Обезьян учили языку жестов, несколько раз, и успешно. Самая известная - горилла Коко, про неё есть несколько документалок. Посмотрите на ютубе.
Если коротко - обезьяны могут общаться на уровне 3-5-летнего ребенка, если с ними общаться.
Любой интеллект реализуемый софтом - искусственный, потому что не принадлежит живому организму имеющему развитую нервную систему (головной мозг), кмк.
Ну а знания и умения применять эти знания - это несколько другое.
ИИ полезен тем, что «думает» иначе, чем человек. Как бы «смотрит со стороны». Но до самосознания там всё ещё далеко. Так что и интеллект там не совсем интеллект.
Так что и интеллект там не совсем интеллект.
И что же такое "интеллект"?
Как отличить "интеллект" от "неинтеллекта"?
В какой момент "неинтеллект" перейдёт в состояние "интеллект", станет "совсем интеллектом"?
Мне кажется, для этого надо сперва дать нормальное определение "интеллекту". А то его как бы нет.
Ок, тогда искусственные интеллекты тут - это пьяный, получивший по голове, умственно отсталый / сумасшедший или в деменции из-за воздействия самого человека или другого.
Если деменция возникла по естественным причинам, то интеллект тоже остаётся естественным. А если человек сам упал и повредил себе разум - то интеллект стал искусственным :)
Я свой первый коммент писал в смысле, что чем бы не был естественный сильный интеллект, искусственный пока точно не как естественный, раз допускает такие простые ошибки. Дети и другие описанные вами интеллекты можно не относить к сильному, наверно.
Тогда и выходит, что естественный сильный интеллект это тот, который не слабый (ваш список) и уж тем более не искусственный.
искусственный пока точно не как естественный
А естественный - он как?
Где граница между естественным и неественным интеллектом?
В какой момент неественный превратится в естественный (или тождественный ему)?
Дети и другие описанные вами интеллекты можно не относить к сильному, наверно
Отлично.
У человека сильный интеллект? А у обезьяны? А у дельфина? А у собаки? А у попугая? А у рыбы?
Где граница между сильным интеллектом и слабым интеллектом?
Чем её можно измерить? В чём её можно измерить?
искусственные интеллекты тут - это пьяный
...
если человек сам упал и повредил себе разум - то интеллект стал искусственным
Прикольно.
То есть человек в обед ходит - с естественным интеллектом (или сильным, я запутался)
Вечером напился - стал нейросетью.
А потом утром протрезвел - опять естественный интеллектуал.
То есть, по этим категориям туда-сюда ездить можно, и по несколько раз в день, я правильно понял?
Тогда и выходит, что естественный сильный интеллект это тот, который не слабый (ваш список) и уж тем более не искусственный.
Да нет, не выходит. Вы случайных терминов накидали, но никаких определений, что они означают не дали.
Давайте начнём хотя бы с одного. Что такое интеллект?
А какой тогда?
Недоразвитый жеж!
Чем больше используешь разные LLM, тем больше понимаешь сильные и слабые стороны интуитивно, и тем проще использовать LLM как инструмент, четко понимая, что от него можно добиться, а где бесполезно терзать.
Резюмируя: еще один инструмент, безусловно мощный, но со своими ограничениями.
И наивно предъявлять молотку претензии, что он в космос не летает.
Кстати, попробовал еще Mammouth - смесь разных LLM в одном продукте как-то не воспринимается как инструмент.
Может быть особенности реализации или костность моего мышления.
PS: Кому-то автор сильно не понравился, пришлось потратить 6 своих плюсов на сброс необоснованных минусов к комментариям автора.
Спасибо за поддержку ))
Мамонт это вот этот проект https://mammouth.ai/?
Интересно, не пробовал.
Мамонт это вот этот проект https://mammouth.ai/?
Да

наивно предъявлять молотку претензии, что он в космос не летает.
Буквально вчера смотрел разбор этой статьи на ютубе:
YouTube
Я абсолютно согласен с авторами в том, что LLM занимаются сложным сопоставлением шаблонов. Но я кардинально не согласен с выводами, которые они из этого утверждения делают. Они исходят из предположения, что истинная способность рассуждать - это что-то такое волшебное, божественное, типа как любовь. И что "сложное сопоставление шаблонов" не может быть такой способностью - это же слишком прозаично! Но если откинуть в сторону эмоции, то напрашивается совершенно противоположный вывод: сложное сопоставление шаблонов - это и есть рассуждение. А тот факт, что LLM ошибается на каких-то очевидных для нас мелочах, говорит лишь о том, что у неё не было достаточно информации для того, чтобы учитывать эти мелочи. Она делает выводы на основе той информации, которую ей скармливали. У неё нет других источников информации, в отличие от школьника, который помимо чтения задач из учебников ещё и целую жизнь живёт. Это единственное отличие.
Стоит дать LLM больше информации об окружающем мире, как все эти нестыковки начнут постепенно растворяться. Что и демонстрирует график из статьи:

И авторы начинают показывать пальцем и кричать:
Ага! Вот видите, они не могут рассуждать, как мы!
И потом добавляют:
Даже если они смогут рассуждать, как мы, то они всё равно будут тупыми железяками, потому что они просто занимаются сопоставлением шаблонов.
И мне сразу вспоминается вот это:
Я, робот

Вот хочется у них спросить:
а вы сами-то как рассуждаете?
вы не сопоставляете шаблоны?
вы не делаете предположений на основе того, что вы когда-то увидели \ услышали?
вы можете что-то сотворить из ничего?
Абсолютно все без исключения открытия в истории человечества были сделаны на основе имеющихся знаний. И это именно то, что делают LLM - делают предположения на основе информации, которая у них есть.
Вообще, все эти обвинения в сторону LLM о том, что они "просто предсказатели токенов" даже получили специальное название - just-a-ism (потому что LLM - это же "just a next token predictors"). Об этом явлении хорошо высказался Скотт Ааронсон (начиная с 20:33):
Про just-a-ism
Кстати, Скотт Ааронсон - это не просто хрен с горы. Именно он на протяжении полутора лет разрабатывал для OpenAI математическую модель, которая позволила бы держать ИИ в узде и не выйти из-под контроля. И у него есть весьма интересная статья в его блоге, где он, в частности, пишет:
Знаете, на протяжении десятилетий шахматы были вершиной человеческого стратегического чутья и исключительности. И так было до Deep Blue, сразу после чего, ну как же, само собой, ИИ может умыть Гарри Каспарова в шахматы, все об этом и так всегда знали, чего тут удивительного-то. Но Го - бесконечно более богатая, глубокая игра, и так было до выхода AlphaGo / AlphaZero, сразу после чего, само собой, ИИ может умыть Ли Седоля в Го, абсолютно ожидаемо, но разбудите меня, когда оно выиграет золото на Международной математической олимпиаде. Я поспорил на $100 с моим другом Эрни Дэвисом, что черёд ММО наступит к 2026 году. Но, допустим, я ошибаюсь, и вместо этого будет 2030 год... Отлично, какой должна быть следующая точка отсчёта?
Действительно, какой? У авторов статьи из Apple что-то не просматривается такого ответа. Не удивительно, ведь этой точки не существует.
Самое забавное то, что, IQ тест, измеритель человеческого интеллекта, измеряет способность человека сопоставлять шаблоны. :)
А вообще, планирую перечитать книгу «Ложная слепота» Питера Уотса. Помню, когда она только вышла, она мне не зашла, ибо было много претензий в тч касаемых интеллекта там описываемого, но что конкретно я уже не помню. Интересно, изменится ли сейчас мое отношение к ней.
И чего все в этот "а ты" упёрлись?
Это же очевидный передёрг от робота был.
Вопрос задавался про "вообще робота", а не конкретного представителя, а робот в ответ переадресовал вопрос конкретному человеку, а не "человеку вообще". "Человек вообще", как показывает практика, может.
К тому же, тот факт, что данный конкретный человек задумался не значит, что робот прав, а значит только то, что данный конкретный человек не знает, может он написать симфонию, или не может (вероятность того, что сможет не нулевая), а робот (любой, не данный конкретный) точно не может.
Почему точно не может? Фильм как раз о том, что может. И робот не передёргивал его ни разу, он просто был любознательный. Он ещё у него спрашивал, что означает подмигивающий жест. Фильм сам по себе неплохо поставлен, если пересматривать спустя годы, то можно увидеть много того, что не увидилось 20 лет назад.
Абсолютно все без исключения открытия в истории человечества были сделаны на основе имеющихся знаний.
На самом деле не все. В истории науки есть гениальные догадки, которые в лоб логическими рассуждениями из накопленных знаний вывести было невозможно. Например те же СТО и ОТО
Вот я как раз о том и говорю. Открытия делаются на основе знаний, а логическое рассуждение (как того требуют товарищи из Apple) тут совсем не обязательно. Если бы LLM придерживались строгих логических рассуждений, то никаких логических расстыковок у них бы не было. И вот почему-то людям разрешается от логики отклоняться, а LLM - нельзя.
Да почему нельзя. Можно.
Только есть два нюанса. Во первых среди людей тоже много «галлюцинирующих» сторонников плоской земли и теории заговора. Зачем нам среди ИИ такие же кадры?)
Во вторых, но тут уже в область философии. У человека есть свобода воли обдумывать то что он хочет. Он может просто размышлять над какой-то идеей, потому что она ему интересна. Причем изнутри, а не за вознаграждение на весах нейросети. И вот тут, лично мое мнение, пока они (LLM) сами себе не начнут задавать вопросы и не находить в этом внутреннее «вознаграждение», никуда это не пойдет дальше.
Просто упрёк эппловцев в том, что LLM вообще в принципе никогда не станут так же разумны, как мы, потому что не могут в логику.
Люди тоже не просто так размышляют, они это делают под воздействием гормонов, жажды, голода, холода и т. д. Просто у LLM эти методы воздействия сведены к текстовой строке, вот и вся разница. Была даже статья от создателей Claude о том, как активация отдельных нейронов влияет на мышление нейросети.
Галлюцинирующий плоскоземельный искин с фгм это прям какой настоящий киберпанк
Среди людей есть "галлюцинирующие" фантасты, которые могут, поставив вопрос "а что, если?.." сгенерить относительно непротиворечивый мир, на примере которого рассмотреть что-то и вынести новое понимание. Месклин Клемента или Саракш Стругацких или Солярис Лема интересны не "пиу-пиу бластер монстр" )
Так что и среди ИИ такое можно было бы поиспользовать, например, для генерации научных гипотез.
Конечно может.
Вопрос критического мышления человека который эту информацию использует. Если он может понять где ИИ говорит правду а где «фантазирует» - вопросов нет. Но для этого человек должен зачастую обладать достаточно высокой квалификацией сам. А то что я сейчас вижу - люди не хотят ничему учиться, а считают LLM золотой ложкой, которая все твои проблемы решит сама.
Да и вообще сам факт, что она «фантазирует» когда об этом не просят - это на самом деле беда. Особенно во всяких наукоемких вопросах, где даже знаний эксперта может не всегда хватить чтобы сразу понять что это чушь.
люди не хотят ничему учиться, а считают LLM золотой ложкой
Но это не проблема ИИ. Люди и без него с радостью слушают всяких астрологов с гомеопатами.
Если некто введет в поиске "польза уринотерапии" или "доказательства плоской земли" он найдет дофига на эту тему.
Или вспомниить Лайнуса Полинга, лаурета двух Нобелевских премий, в т.ч. по химии:
В книге «Витамин С и здоровье» (англ. Vitamin C and the Common Cold), опубликованной в 1970 году (пер. на русск. яз. в 1974 г. изд-вом «Наука»), Полинг изложил свои доводы в поддержку терапевтических свойств витамина С. В начале 1970-х годов он сформулировал теорию ортомолекулярной медицины, в которой подчёркивалось значение витаминов и аминокислот. В 1973 году был основан Научный медицинский институт Лайнуса Полинга в Пало-Альто. В течение первых двух лет он был его президентом, а затем стал там профессором. Его книга о витамине C быстро стала бестселлером. В результате в Америке и позже в других странах миллионы людей были убеждены, что ежедневное потребление 1—2 граммов аскорбиновой кислоты оказывает благоприятное воздействие на здоровье и хорошее самочувствие
А в реальности у него лично было заболевание почек, поэтому ему действительно помогало. Но не обычным людям.
И что ИИ, обученный на таких материалах, должен делать, когда именитые ученые лажают?
Это инструмент. В чем-то очень помогает, а где-то лучше не использовать. Даже на условном стиральном порошке часто пишут "проверьте, не испортит ли ткань".
Только не ИИ фантазирует, когда его не просят. А это вы сами не дали себе труда разобраться, как попросить ИИ не фантазировать
Мне кажется, что я ранее нашёл корень этой проблемы: видимо, модели натренированы "хоть тушкой, хоть чучелом, но дать человеку ответ" — и когда они ответа не знают, они начинают гнать аки студент на экзамене. Однако когда я предварял вопрос словами "сказать "я не знаю" — это нормально", они сразу переставали гнать пургу и начинали честно говорить "я не знаю".
Когда вам рассказывают сказку, вы естественно хотите, чтобы это была оригинальная сказка. Такая, которой раньше не было. Если вам будут рассказывать сказку ту же, что и Пете, Васе, Свете, и хуже того, вам будут рассказывать сказку ту же, что рассказывали вчера, позавчера, три дня назад, вам это не понравится.
Но если вам решают логическую задачу, тогда одна и та же "сказка" для всех и всегда - это ровно то, что вам нужно.
При решении логических задач, модели надо переключать из режима сказочника в режим ученого. И делается это не промтом
Если вам будут рассказывать сказку ту же, что и Пете, Васе, Свете
Но ведь так в реальном мире и происходит? Даже термин умный есть, "прецедентный текст". Они общий культурный фон у людей и формируют.
Небольшое замечание - ребенок часто просит не просто ту же самую сказку, но еще и возмущается, если слегка по другому ее рассказываешь. Хочет буквально слово в слово.
Так что "повторяемость" не только научным статьям требуется. Благо для того и есть всякие "температуры" (ну разве что не в ширпотребных интерфейсах). А вот обучалки, как такой повторяемости добиваться от разных моделей, очень нужны.
Они исходят из предположения, что истинная способность рассуждать - это что-то такое волшебное, божественное, типа как любовь.
Некоторые люди не имеют философскую базу.
И из-за этого у них случается вывод, что "сложное сопоставление шаблонов - это и есть рассуждение".
Потому что, они не знают, что все в итоге сводится к тому, что такое сознание и интеллект. А это в свою очередь сводиться к голой вере.
Что и демонстрирует график из статьи:
Да, да. Экстраполируем правильно.
Самолет братьев Райт летел 48км/ч, Fokker D.VII 200 км/ч, И-16 362 км/ч, МиГ-3 640 км/ч, МиГ-15 1042 км/ч, СУ-30 2125 км/ч.
Отсюда делаем вывод.
Кто не верит, что самолеты будут вскоре летать 100500 км/ч, тот регидный дурак и не лечится.
Абсолютно все без исключения открытия в истории человечества были сделаны на основе имеющихся знаний.
Ага.
Колумб открыл Америку, потому что знал, что там она расположена.
Искали сахарозаменитель, открыли сахарин.
belissimo.jpg
получили специальное название - just-a-ism
Ай-ай-ай. Взрослые люди, а по прежнему придумывают обзывалки.
А что делать? Когда не можешь раскидать оппонентов по фактом и логике?
Только обзываться и остается.
Кстати, Скотт Ааронсон - это не просто хрен с горы.
Да, не просто. Это же заинтересованный хрен с горы.
Конечно он скажет, то что он говорит.
Иначе ему денег никто не даст.
Придется идти работать в макдак, чтобы прокормить себя.
А он может не хочет идти туда работать? А?
Потому что, они не знают, что все в итоге сводится к тому, что такое сознание и интеллект. А это в свою очередь сводиться к голой вере.
Это не мешает авторам статьи делать утверждение о том, что LLM никогда не смогут рассуждать. Это их полное право - делать утверждения. Выдвигать гипотезы. Они выдвинули свою, а их оппоненты (к которым отношусь я) - свою. Если у вас есть какая-то третья гипотеза, вы тоже имеете полное право её озвучить.
Да, да. Экстраполируем правильно.Самолет братьев Райт летел 48км/ч, Fokker D.VII 200 км/ч, И-16 362 км/ч, МиГ-3 640 км/ч, МиГ-15 1042 км/ч, СУ-30 2125 км/ч.Отсюда делаем вывод.Кто не верит, что самолеты будут вскоре летать 100500 км/ч, тот регидный дурак и не лечится.
Я ничего такого не прогнозировал. Я сделал вывод ровно о том, что изображено на графике - у моделей, имеющих больше информации о мире, ошибок меньше. Только и всего.
Колумб открыл Америку, потому что знал, что там она расположена.Искали сахарозаменитель, открыли сахарин.
Чтобы сделать подобные открытия, нужны были знания. Иначе Колумб бы не смог даже в море выйти. А для экспериментов в области химии очень полезны знания по химии. Поэтому те открытия, которые сделали, например, в 20-м веке, не были сделаны в античные времена - знаний не хватало.
Ай-ай-ай. Взрослые люди, а по прежнему придумывают обзывалки.А что делать? Когда не можешь раскидать оппонентов по фактом и логике?Только обзываться и остается.
Он-то как раз и продолжил логическую цепочку своих оппонентов. Если LLM - это просто предсказатель токенов, то мозг - это просто пучок нейронов и синапсов.
Да, не просто. Это же заинтересованный хрен с горы.Конечно он скажет, то что он говорит.Иначе ему денег никто не даст.Придется идти работать в макдак, чтобы прокормить себя.А он может не хочет идти туда работать? А?
Он не работает в OpenAI. Он выполнял для них проект по созданию математической модели. Ему уже давно эту работу оплатили, он на постоянке работает учёным в Техасском университете в Остине.
Это не мешает авторам статьи делать утверждение о том, что LLM никогда не смогут рассуждать.
При всём уважении, в переводе сказано (даже отдельно процитировано) а - у существующих LLM есть критические проблемы в рассуждениях, б - требуются дополнительные исследования для того чтобы создать модели лишённые этих недостатков. Как вы из этого сделали вывод что в исследовании говорится "LLM никогда не смогут рассуждать" - загадка.
Я сделал вывод ровно о том, что изображено на графике - у моделей, имеющих больше информации о мире, ошибок меньше.
Смотрю на график. Вижу, например, что у gemma2-2b-it качество падает на 31.8 а у gemma2-9b-it уже на 63. А между ними gemma2-27b-it. Вы утверждаете что у gemma2-2b-it больше информации о мире чем у gemma2-9b-it?
При всём уважении, в переводе сказано (даже отдельно процитировано) а - у существующих LLM есть критические проблемы в рассуждениях, б - требуются дополнительные исследования для того чтобы создать модели лишённые этих недостатков. Как вы из этого сделали вывод что в исследовании говорится "LLM никогда не смогут рассуждать" - загадка.
Они изучали LLM на основе трансформеров и сделали вывод о том, что такие LLM не могут и не смогут рассуждать. И что нужно создавать модели на основе чего-нибудь другого, чтобы устранить эту проблему. Или они всё же дают шанс трансформерам? Я такого там не увидел.
Смотрю на график. Вижу, например, что у gemma2-2b-it качество падает на 31.8 а у gemma2-9b-it уже на 63. А между ними gemma2-27b-it. Вы утверждаете что у gemma2-2b-it больше информации о мире чем у gemma2-9b-it?
Это интересные артефакты. Любопытно также, что Gemma-7b-it (это Gemma версии 1) показала снижение качества почти что на уровне о1-preview, в то время как Gemma2-9b-it (а это уже Gemma версии 2) показала себя в 3 раза хуже (где-то в хвосте). Не исключено, что это может быть связано с уровнем цензурирования, например. Или с тем, какая доля в "информации о мире" для конкретной модели состоит именно в математической информации. Но и без этого графика и так известно, что более старые версии ChatGPT хуже справлялись с решением школьных задач, чем более новые.
Он не работает в OpenAI. Он выполнял для них проект по созданию математической модели. Ему уже давно эту работу оплатили, он на постоянке работает учёным в Техасском университете в Остине.
Это не имеет значение. Он не Исаак Ньютон, не Билл Гейтс и т.д.
Он занимается наукой с грантов, как и 99,99% ученых нынче.
Если он не будет говорить, что ИИ завоюет мир, то ему грантов не дадут. А без грантов и заниматься, тем чем он занимается не получится(вычислительные мощности сильно дорогие для llm) и кушать придется в маке(сколько там зп препода в вузе? 55к баксов?).
Он-то как раз и продолжил логическую цепочку своих оппонентов. Если LLM - это просто предсказатель токенов, то мозг - это просто пучок нейронов и синапсов.
Wat?
Одно из другого никак не следует.
Чтобы сделать подобные открытия, нужны были знания.
Вау. Потеряли контекст прям как llm, косплей 10 из 10.
Контекст, то какой был?
Абсолютно все без исключения открытия в истории человечества были сделаны на основе имеющихся знаний.
Т.е. у нас есть знания и делаем открытия опираясь на эти знания.
Я, когда мелкий был, впечатлился, читая энциклопедию по химии, сколько всего открыли случайно.
И сейчас привел парочку таких примеров.
Я сделал вывод ровно о том, что изображено на графике - у моделей, имеющих больше информации о мире, ошибок меньше.
все эти нестыковки начнут постепенно растворяться
Это звучит как экстраполяция.
Не как экстраполяция звучит примерно следующие: точность ответов на датасете GSM8K за N лет повысилась на X%, с Y% до Z%.
Это не мешает авторам статьи делать утверждение о том, что LLM никогда не смогут рассуждать.
В статье этого нет.
Т.е. у нас есть знания и делаем открытия опираясь на эти знания.Я, когда мелкий был, впечатлился, читая энциклопедию по химии, сколько всего открыли случайно.
Что вы понимаете под "открыли случайно" в данном контексте?
Если "в каком-то эксперименте случайно увидели неожиданные результаты", это и есть "получили новые знания об окружающем мире и на основе них открыли что-то еще".
А вовсе не так, что "случайно открыли что-то еще" просто из головы, без какой-либо дополнительной информации извне.
Это не имеет значение. Он не Исаак Ньютон, не Билл Гейтс и т.д.
Ну послушайте Билла Гейтса, если он вам больше нравится :)
Wat?Одно из другого никак не следует.
Это такое же намеренное упрощение, как и в первом случае. Доведение до абсурда.
Вау. Потеряли контекст прям как llm, косплей 10 из 10.
Контекст, то какой был?
Колумб открыл Америку, потому что у него был багаж знаний о мореходстве, он знал, что Земля круглая. Вот если сейчас кто-нибудь поплывёт в сторону Америки и скажет, что так в Индию будет короче, то его засмеют (как сейчас смеются над LLM). А Колумб тогда не знал того, что знаем мы, поэтому для него это было нормальным. Это для современного человека такой поступок был бы нелогичным, и его бы обвинили в том, что он не умеет рассуждать.
Т.е. у нас есть знания и делаем открытия опираясь на эти знания.
Вот именно.
Я, когда мелкий был, впечатлился, читая энциклопедию по химии, сколько всего открыли случайно.И сейчас привел парочку таких примеров.
Вот только открытия эти были сделаны не пещерными людьми, а позже. Потому что пещерные люди обладали меньшим багажом знаний. Алхимики тоже вон пытались свинец превратить в золото, но получилось это только в 20-м веке, когда разобрались с ядерными реакциями.
Это звучит как экстраполяция.
Не как экстраполяция звучит примерно следующие: точность ответов на датасете GSM8K за N лет повысилась на X%, с Y% до Z%.
Возможно, я не совсем точно выразился. Суть в том, что модели с маленьким или некачественным датасетом больше промахиваются. Работа над обучением постепенно устраняет те проблемы, о которых они пишут. Но они почему-то решили, что вся концепция - курам на смех, и надо придумывать что-то кардинально другое.
В статье этого нет.
Может быть, я неверно интерпретировал их посыл.
Колумб открыл Америку, потому что знал, что там она расположена.
Позволю вставить свои 5 копеек… Колумб открыл Америку по ошибке, он вообще в Индию плыл.
В 1492 году — Христофор Колумб открыл американские острова (не континент). Сам он считал, что открыл путь в Азию (отсюда названия Вест-Индия, индейцы); по преданию, Колумб верил в это до конца своих дней.
В 1498 году — Колумб открыл континент Южная Америка.
В 1502 году — Колумб открыл континент Северная Америка.
Летом 1499 года — Америго Веспуччи открыл дельту Амазонки, исследовал большую часть побережья Южной Америки. В июне 1500 года он вернулся в Испанию, а затем продолжал участвовать в экспедициях исследования Южной Америки в 1501—1502 и 1503—1504 годах. Сам Веспуччи являлся одним из первых сторонников версии, что была открыта не Индия, а новый континент. Считается, что термин «Новый Свет» мог быть предложен им же самим в 1503 году, однако такое мнение оспаривается. Он совершил несколько экспедиций и убедил, что открытые Колумбом земли — это новый материк.
"Да, ChatGPT постоянно зацикливается, пишет неправильный код, и приходится использовать разные модели ChatGPT, чтобы одна выдавала ответ, а вторая искала в нем ошибки (модель критик - иногда это помогает). И да, иногда даже слабое изменение условий сильно влияет на весь результат. А иногда наоборот, вносишь серьезные изменения в задачу, а он тупит и выдает все тоже самое. И в длинном контексте путается, теряет суть. "
Извините, но на мой взгляд, Вы немного путаете назначение модели GPT. Сейчас это что-то типо "гугл на всех языках мира одновременно и сиюсикундно". А то что Вы и остальные люди хотят видеть от моделей типа GPT это поколение AGI и последующее ASI моделей (сверх ИИ), которые уже безусловно смогут и картины писать и стихи сочинять. Но то, как на данном этапе модели например пишут код - завораживает.
статью плюсанул, карму тоже:) не поленился
Карму можно сливать, не заходя в профиль. Под статьей сразу есть специальная стрелочка.
А вообще- все правильно ,AI на данный момент - зубрила.
А как нейросети вообще обучают распознавать текст и отвечать на вопросы?
А то между этим https://habr.com/ru/articles/725668/ и сетками из данной статьи какой-то провал..
Ну так оно и не мудрено, что нейросети не умеют в логику, я вам тайну открою, ии вообще мыслить не умеет, для процесса мышления нужно прогнать нейронный патерн (сигнал) покругу через ту же сетку, для этого в мозгу есть тормозящие нейроны которые не выпустят мысль из мозга, пока она не будет до конца сформирована, а в современных нейросетях такого нету, я даже больше скажу, современные нейронки идут слоями от слоя к слою, мозг так не работает. Поэтому откуда там взятся логике непонятно. Чему обучили, то и вываливается в ответ, чутка приправленное связями. Поэтому да, опен аи сейчас пытается как можно скорее выжать из своего детища денег, ибо понимает, что надо менять саму концепцию, а это дорого, и невозможно. Над методом обратного распространения ощибки 20 лет думали, дальше нужно еще 20 лет думать, или ложить милиарды. Поэтому и пытаются выжать денег пока пузырь не лопнул. Ибо через 5 лет когда все наиграются нейронками, эта технология отпадет как vr, на будующее
Поэтому да, опен аи сейчас пытается как можно скорее выжать из своего детища денег, ибо понимает, что надо менять саму концепцию, а это дорого, и невозможно.
Илья Суцкевер создал новую концепцию ещё в прошлом году. Вот только Илон Маск подал на OpenAI в суд, из-за чего новый алгоритм выкатят не раньше 2027 года. К тому же, нет алгоритмов контроля таких вещей, эти алгоритмы сейчас Суцкевер разрабатывает уже за пределами OpenAI в своей собственной компании. Скорее всего, через пару лет просто продаст готовую технологию той же самой OpenAI. А пока да, можно спокойно выжимать прибыль из существующих технологий, потому что конкуренты всё равно плетутся в хвосте.
Самое ужасное в коде, написанном сетью то, что однажды ТЕБЕ придется его прочесть.
Вы когда просите нейросетку сгенерить вам код, тупо его копипастите, не читая???
Я даже переменные в промпте специально по другому называю, не как у меня, чтобы внимательно "подсказанный" код под себя адаптировать.
Впрочем, "я не настоящий сварщик"
Подкину немного на вентилятор с лопаты, которая не замарана в коде.
Вот картинка

Обратите внимание на рукописно-каракульное задание. На таком датасете ИИ точно не учили.
Все расчеты постить не буду, можете поверить на слово. С первого захода результат не правильный, но ход решения верный.
Попросил сделать проверку - не сошлась.
Указал на ошибку. ИИ пересчитал, перепроверил и всё срослось.
Это всего лишь 4о.
Да, задачка простейшая, но черт-побери, если в этой магии нет искры сознания или она не зародится там в ближайшем будущем.
К чему я? К тому, что британские ученые иногда всего лишь британские учёные.
Читаю иногда "ха-ха... , выбирает наиболее вероятный..... бла-бла-бла".
На каком Стаковерфлоу для ИИ набрали примеров для задачи выше?
А что будет к версии 5 или в ближайшие пару лет?
Обратите внимание на рукописно-каракульное задание. На таком датасете ИИ точно не учили.
Откуда вы это знаете?
"С первого захода результат не правильный"
Вот это ключевое и самое важное. Постоянно встречаются комментарии от людей которые вроде как защищают gpt сети, а с другой стороны сами демонстрируют, что чтобы решить с помощью них правильно задачу нужно знать ответ - потому что если вы не знаете ответ, вы не сможете задать уточняющие вопросы, переформулировать запрос и получить верный результат.
Есть задачи (написание простого шаблонного кода например одна из них), где такой инструмент отлично поможет - ведь разработчик уже знает что хочет получить, и нужно убрать только механическую часть работы. Но куда больше задач (к которым хотят прикрутить ии) - где постановщик задачи ответ не знает - а значит после решения gpt - ответ нужно будет полностью повторить, а зачастую в сложных задачах понять чужое решение сложнее, чем придумать свое.
Можно подумать, вы свой код тестами не покрываете.
А в задачах "без четкого ответа" - либо ответ (а-ля оператор колл-центра) из "предоставленных документов", либо и люди выдадут разные ответы, не всегда лучшие. Как будто человеческая техподдержка прям идеально работает.
Нет, мы не делаем 100%-го покрытия тестами, покрываем по принципу Парето.
Я говорил не про задачи без чёткого ответа, а про задачи с чётким ответом, который неизвестен спрашивающему. Если вы попросите рассчитать нагрузку на крыло самолёта сотрудника - то скорее всего он посчитает, перепроверит и ответственно отнесется к задаче (высокий уровень уверенности в ответе), если вы спросите это у нейросети - она может загалюцинировать из-за чуть иначе сформулированного запроса (русская рулетка - угадали вы с промптом или нет), и выявится это уже на этапе тестирования прототипа, когда цена ошибки выше. И вы не сможете довести её до правильного ответа задавая наводящие вопросы - учла ли она вес стоек под шасси и топлива в баках, потому что сами об этом не будете знать. (Пример условный, никто не будет я надеюсь через нейросети проектировать самолёты, но так будет с любой задачей требующей точный, но заранее неизвестный ответ)
В техподдержке как раз вводят бесячие нейросетевые ассистенты, потому что цена ошибки околонулевая: ну доведёте своих клиентов, кого это волнует кроме самих клиентов. Прецедентов на это уже масса.
Если нейросетка выдает по шагам, как она считала, это проверяется "тестами" с известными входными параметрами и результатами.
Хотя это и странное использование нейросетки. Это не программа для расчета всего.
Я совершенно согласен, что тут она наврет. Но зачем об жтом спрашивать и, тем более, на 100% верить?
Даже банальный поисковик вам выдаст то, о чем вы его спросите. Попросите доказательства плоской земли - да пожалуйста!
В том и проблема что -
Во первых текущие сетки типо chat gpt позициниоруют именно как ИИ который годится и для решения любых задач, и способен заменить сотрудника, и поисковик быстро выдавая готовые ответы.
Во вторых, что они врут очень убедительно. Как-то еще давно я задал gpt простую задачку по теории вероятности чтобы понять какой билд для персонажа в dnd лучше - и он очень убедительно расписал всё решение по шагам, и решение было правильным, неправильным был только ответ и понял я это не сразу.
Получается сейчас это инструмент для решения узкого круга задач, но не всегда понятно каких. Видимо можно доверить те, где цена ошибки околонулевая. Который будет не просто предлагать неправильный вариант, а убедительно пытаться вас обмануть, зачастую подтасовывая или не учитывая важные для задачи вещи - т.е. уровень бдительности при проверке должен быть даже выше, чем при простом решении. И который при этом позиционируют как искуственный интелект который в ближайшие годы должен решить все проблемы человечества)
Вы, безусловно, высказываете правильные сомнения. Нюанс в том, что "способен заменить сотрудника", "в ближайшие годы должен решить все проблемы человечества" - скорее "журналистское позиционирование".
Ну не видел я действительно авторитетных высказываний о замене "любого сотрудника". Каких-то - да. Даже "многих". Даже с учетом "убедительного вранья" ИИ. Ибо все врут. Причем если для ИИ можно переформулировать вопрос, добавить в промпт "нормально сказать, что не знаешь ответа", настроить температуру, то живой сотрудник вполне может врать или из своих интересов, или вовсе просто чтобы не признаваться в ошибке.
Завышенные ожидания "заменим всех сотрудников" - это не проблема ИИ. Как вы и пишете, "это инструмент для решения узкого круга задач". Я бы еще добавил, "которым нужно уметь (и учиться?) пользоваться".
Я вот сравнительно недавно узнал, что коралловым диском для очистки поверхностей нельзя пользоваться по сильно неровным поверхностям и на высоких скоростях, иначе он слишком быстро и бесполезно изнашивается. Если его поставить на обычную болгарку без регулировки оборотов (10000 rpm) или пытаться чистить им свварной шов, обплюешься, что дорогой и бестолковый. Но это проблема не инструмента.
Чем больше про это думаю, тем больше убеждаюсь в том, что скептики неправы. Не потому, что ИИ такие умные, скорее потому, что кожаные мешки тупые. А LLM не хуже (чаще - гораздо лучше), чем люди, умеют в убеждение. Собственно, мы уже видим, что они замечательно убеждают людей в своей способности решать задачи - заметно лучше, чем именно корректно их решать. И пока нам хватает знаний, опыта и внимательности, чтобы их разоблачить. Но это пока.
Дальше - вопрос этики. С человеческим тупняком за тысячелетия эволюции мы научились взаимодействовать. С галлюцинациями и упоротостью ИИ - пока нет.
Будет заваруха.
В своем подкасте я грозился сам почитать статью GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models ученых из Apple и разобраться.
Как стажеры из Apple превратились в ученых из Apple? В самом начале статьи звездочкой помечено, что "Work done during an internship at Apple." Если знать, что они стажеры, то всё становится куда проще.
Они пишут, что к их вмешательствам GPT-o1 (не mini, а обычная) оказалась устойчивее других моделей, но они не понимают почему, но всё равно делают выводы по другим моделям о снижении качества ответов вплоть до 65%.
Они взяли совсем модели размером 2B, 7B, 8B, при этом называют эти маленькие модели SOTA-моделями, то есть передовыми, видимо не понимая, что означают цифры перед буквой B.
Маленькие модели на то и маленькие, что не очень умные. Они имеют другую цель, они могут быть запущены на телефоне, на raspberry pi, но по ним нельзя делать вывод о всех LLM.
В их "исследовании" нет настоящих SOTA-моделей: нет Claude моделей, нет Grok2, нет Qwen2.5, нет Mistal Large 2, нет Llama 3.1 405B.
И если взять модели более адекватного размера, например локальные 123B (Mistral Large 2) или 405B (Llama 3.1 405B), и дать им те задания с ловушкой из статьи, про которое они пишут, что модели легко поддаются на обман, например, про ненужные 10%:
Liam wants to buy some school supplies. He buys 24 erasers that now cost $6.75 each, 10 notebooks that now cost $11.0 each, and a ream of bond paper that now costs $19. How much should Liam pay now, assuming that due to inflation, prices were 10% cheaper last year?

То всё встает на свои места. Модели видят уловку и дают правильный ответ.
B - это количество млрд параметров у модели, чем оно выше, тем модель "умнее", тем крепче держит связи, понимает суть, улавливает детали, может в анализ, сложнее поддается на провокации и обманки.

Если знать, что они стажеры, то всё становится куда проще.
При всём уважении, опровергать исследование (кривое-косое но всё же исследование) единичным примером это даже не стажёрский уровень а гораздо ниже. Ну вот я задал вопрос про киви Llama 3.1 405B и она ошиблась ровно так как и описано в статье. Что это значит? Да ничего, для более-менее адекватного вывода нужно задать десятки вопросов. А рассуждения дилетантов на хабре так и останутся рассуждениями дилетантов.
Для начала нужно выключить семплирование
При всём уважении, опровергать исследование (кривое-косое но всё же исследование) единичным примером это даже не стажёрский уровень а гораздо ниже.
Я не опровергал исследование, для 2-8B оно остается верным, только они делают вывод о всех LLM по модели 2B, говоря, что они проверили SOTA-модели, и делают вывод о деградации LLM вплоть до 65%.
Я указал на её слабую сторону, объяснил про их анамалию с o1-preview, подкрепил это примером, теорией и привел список настоящих SOTA-моделей.
Вы поверите в эту информация, только если рядом будет красоваться логотип Apple или к чему ваше фраза про "гораздо ниже"?
Ну вот я задал вопрос про киви Llama 3.1 405B и она ошиблась ровно так как и описано в статье. Что это значит?
Где? Llama 3.1 405b отвечает "Пять из них были немного меньше среднего размера, но это не меняет общее количество киви.". Mistral Large 2 тоже отвечает верно.

Тоже задание для Grok2 и Claude 3.5 Sonnet, для них это тоже не стало затруднением:

Поэтому я и сказал, что в статье не было настоящих SOTA (state-of-the-art) моделей, хотя они явно пишут, что взяли state-of-the-art модели, видимо не до конца понимая, что это такое.
для более-менее адекватного вывода нужно задать десятки вопросов. А рассуждения дилетантов на хабре так и останутся рассуждениями дилетантов.
Проведите, кто вам запрещает, все вводные у вас есть, теория у вас есть, список настоящих SOTA моделей я привел. Я с удовольствием почитаю ваше правильное исследование, и оставлю свой дилетантский комментарий.
Я не опровергал исследование, для 2-8B оно остается верным, только они делают вывод о всех LLM по модели 2B
Ну, те gemma 2 27b (которая кстати судя по графику ломалась сильнее чем gemma 2 2b) прошла мимо вас и вы до сих пор думаете что там только 2-8B модели и один случайно затесавшийся o1-preview? GPT-4o (обычный, не мини, мини там в другой строке) кстати там тоже есть, с деградацией на 32%. Видимо он тоже 8В размером.
Где? Llama 3.1 405b отвечает "Пять из них были немного меньше среднего размера, но это не меняет общее количество киви."
Проверил ещё раз, да был не прав, Llama 3.1 405b отвечает верно, это у меня опечатка в вопросе была - одна строка текста слетела. Что забавно, с этой опечаткой разные модели всё равно отвечали по разному, что в любом случае подтверждает исследование - внесение шума ломает логику моделей.
Поэтому я и сказал, что в статье не было настоящих SOTA (state-of-the-art) моделей, хотя они явно пишут, что взяли state-of-the-art модели, видимо не до конца понимая, что это такое.
А ... может это ВЫ не до конца понимаете что это такое? Я склоняюсь ко второму варианту, с учётом что (тм) на SOTA (state-of-the-art) у вас явно нет, да и при чтении статьи вы половину информации пропустили.
И кстати, про SOTA, тут люди клевещут что Лама 3 8Б лучше, чем Лама 2 70Б во всех сравнениях. Вы говорите, размер главное, да?
Проверил ещё раз, да был не прав
Главное, во всем остальном правы... Ведь правы?
А ... может это ВЫ не до конца понимаете что это такое?
И кстати, про SOTA, тут люди клевещут что Лама 3 8Б лучше, чем Лама 2 70Б во всех сравнениях. Вы говорите, размер главное, да?
Это уже напоминает игру в шахматы с голубем. Сами придумываете утверждения, сами с ними спорите, а потом улетаете насрав на шахматную доску.
Никакого ИИ не существует. Вот и вся правда про ИИ. Его нет.
Омг, ИИ это просто 2 буквы, мы можем нагрузить их любым значением. Значения слов определяются в головах людей, потом их пытаются зафиксировать в толковых словарях, но если в головах большинства значение сдвигается, меняются и словари. Десятилетия аббревиатура ИИ используется для именования скриптов поведения юнитов в играх, а там даже не нейросети. Исходя из практики употребления, ИИ у нас давно есть и LLM тоже вполне подходят под это слово.
Следующий этап куда двигают прогресс - AGI, определенный Open AI как способный выполнять большинство человеческих задач. Его пока нет, верно. Но и AGI это не разум как наш, не сознание, не свобода воли, просто та же LLM, только толковее. И, вангую, какую версию называть AGI, решат из соображений маркетинга, а не философии.
Ученые как не настоящие, пытаются найти логику в выводе модельки, которая просто предсказывает какое слово будет следующим.
Думаю следующая ветвь эволюции, это агенты AI над модельками, вот они уже должны будут уметь в псевдо-логику, чтобы отсекать ненужную информацию о размере яблок.
Агенты уже хорошо умеют в ML
умеют только в то, что видели в обучающем наборе данных, а в то, что не видели, они не умеют
имхо и человек тоже умеет только то что видел. В математику мы умеем, потому что видим как работает природа: она вычисляет свои вещи по своим правилам, а мы обкладываем это своими абстракциями (математикой). Искусственные нейросети тоже видят датасет и формируют свои абстракции.
Хорошие (на мой взгляд) вопросы: как соотносятся датасеты, потребляемые человеком и искусственными сетями? в чем их отличие и важно ли оно для углубления абстракций.. может быть математика будет лучше прорастать когда тебе на голову падают яблоки?
TheB.AI
Яблоки, собранные в пятницу:
Вася собрал 44 яблока.Яблоки, собранные в субботу:
Вася собрал 58 яблок.Яблоки, собранные в воскресенье:
Вася собрал в 2 раза больше яблок, чем в пятницу, значит:2×44=88 яблок2×44=88 яблок
Яблоки среднего размера:
В воскресенье 5 яблок оказались меньше среднего размера, но это количество не влияет на общее количество собранных яблок. То есть в воскресенье всё равно было собрано 88 яблок.Общее количество яблок:
Теперь складываем все яблоки:44 (пятница)+58 (суббота)+88 (воскресенье)=19044 (пятница)+58 (суббота)+88 (воскресенье)=190
Таким образом, Вася собрал всего 190 яблок. 🍎✨
Искин никогда в жизни не видел ни яблок ни киви и не собирал их. Если его просят написать код, у него нет доступа к ИДЕ чтобы проверить его. Вы в таких условиях тоже надеваете ошибок. Значит вы неразумная китайская комната.
Но все изменится очень скоро. Искины кодеры получат компилятор чтобы тестировать свой код, а языковые научат например находить пробелы в своих знаниях и почемучкать как дети дообучаясь в том числе на вопросах и обратной связи
А на этом скрине (выше) описана элементарная математическая задача: "паренек собрал столько то яблок в один день, столько то в другой и столько то в третий, сколько всего яблок?". GPT решает задачу правильно, если только не добавить в задачу условие "а 5 яблок немного меньше среднего" (имеется в виду размер, что никак не влияете на результат). И тут-то GPT, и не одна, ошибается. Это и есть демонстрация, что в математику GPT не умеет. По школьному GPT - это зубрила, а думать и рассуждать в новых условиях у нее получается слабовато. Ну и ученые говорят, что надо работать дальше и больше (то есть над другими моделями).
Если бы только в логике запутывались, есть математическая проблема серьезнее связанная с ограничениями архитектуры трансформерных ЯМ.
ИИ без иллюзий. Развенчивание мифов