All streams
Search
Write a publication
Pull to refresh

Comments 83

Глава 2: Великий раскол. Скептики против реалистов
<...>
Это фундаментальное столкновение двух стратегий: "внедрять любой ценой, чтобы не отстать" против "внедрять только то, что работает"

Я не пойму кто из них скептики, а кто релисты?

Ага а над вашей цитатой две разумные позиции, никак не согласованные с "внедрять любой ценой". Мб сетка статью писала

Я практически уверен, что статья сгенерирована - нелогичности вроде этой, сплошные списки и выделения жирным - люди так не пишут, до появление ChatGPT такого стиля что-то не припомню.

Людям просто объясняли читатели, что им не нравится когда на них кричат болдом (если это не талантливый скетч комика).

Ещё повторений очень много. Нейронка, как раз любит повторять по несколько раз одни и те же тезисы.

Посмотри как он описывает свою сферу деятельности. Очевидно что он просто не смог использовать слово "луддит"

2025 и так год триумфа ИИ. Просто автор не там пытается видеть триумф, где он есть. ИИ выигрывает олимпиады по математике и программированию, пишет реально работающий код, который приводит в действие нашу цивилизацию. Это реально триумф. А то, что кто-то потеряет на цене акций - это фигня и его личные проблемы. В нулевых кто-то потерял на доткомах. Ну и что? Интернет от этого не исчез и не перестал быть триумфом.

Триумф - это не когда система решает задачу из прошлых олимпиад, а когда она "создаёт "новую математику". Пока что, все "победы" ИИ в математике и программировании - это поиск по обучающим данным, переформулировка уже известных решений, подбор паттернов. Настоящая олимпиадная задача та, решение на которую не заложено в датасетах. Именно такие задачи остаются непосильными для LLM. Они не решают их, не потому что медленные или плохо обученные, а потому что не понимают, не рассуждают причинно, не строят модель мира. Это не триумф интеллекта - это триумф масштабирования статистики.

Говорить, что "ИИ пишет реально работающий код", всё равно что сказать, что калькулятор управляет цивилизацией. Да, системы генерируют код, но он часто поверхностный, полон скрытых багов, требует глубокой проверки человеком. Более того, они не понимают контекста, не видят архитектурных последствий, не могут объяснить, почему выбрали тот или иной путь. Это автозаполнение высокого уровня, а не инженерное мышление.

И да, интернет не исчез после дотком-краха. Но тогда хотя бы было ясно: сайты, серверы, протоколы - это реальные технологии. А сегодня мы называем "триумфом" то, что даже не умеет отличить истину от правдоподобной лжи. Если победа в том, чтобы убедить мир, что имитация - это разум, то да, 2025 - год триумфа, но не ИИ, а массового самообмана.

калькулятор управляет цивилизацией

то есть человеки решают задачи из прошлых олимпиад и получают медали?

Да, системы генерируют код, но он часто поверхностный, полон скрытых багов, требует глубокой проверки человеком. Более того, они не понимают контекста, не видят архитектурных последствий, не могут объяснить, почему выбрали тот или иной путь. Это автозаполнение высокого уровня, а не инженерное мышление

человек пишет гораздо больше багов и его код также требует глубокой проверки. Насчёт непонимания контекста - абсолютно не согласен - понимают контекст гораздо лучше, чем средний программист

Ну и потом, вы можете сколько угодно доказывать, что сапожник шьёт ботинки гораздо лучше, чем автомат кроссовки, а потртной шьёт костюмы лучше, чем лазерный закройщик. Только весь мир давно ходит в кроссовках и одеждах, сшитых автоматами. Это не триумф автоматизации? Ну хорошо, заказывайте ботинки у своего сапожника, и доказывайте как он хорош, мир от этого не станет другим.

А при чём тут человеки? :О

а с чьим интеллектом ещё сравнивать искуственный?

Сравнивать ИИ с человеком - естественно, но только если мы понимаем, что именно сравниваем. Мы не спорим, что автомат шьёт быстрее сапожника - это триумф инженерии. Но когда вы говорите, что LLM "понимает контекст лучше среднего программиста", то Вы путаете релевантность с пониманием.

Если задачу ИИ объяснять быстрее, чем программисту, а качество результата выше и результат быстрее - называйте это как хотите

В какой, щука, галактике вы находите этих розовых пони (ИИ который работает быстрее и лучше...)? Элементарная задача - удалить все данные из AWS Neptune DB. Попытка N1: итерация по графу - время работы примерно бесконечность. Попытка N2: батчинг - время работы примерно бесконечность деленная на два. Попытка N3: используем mass-delete API: ой, не работает потому что есть read-replica. Попытка N4: используем batch-loader API: чистая галлюцинация, оно для этого не предназначено. К успеху ведет попытка N5: использовать graph-reset API - но только после того как решение найдено человеком, и скопирован пример из документации. Если бы эта свистоперделка сразу сказала что понятия не имеет как надо делать - можно было бы сразу перейти к п.5... Но нет - оно же каждый раз извиняется, и говорит что поняло в чем проблема - и теперь вот точно-точно все сделано! Где тут быстрее ?!

Другой пример - bleeding edge агентская система пишет тесты (с доступом в командную строку и к файловой системе - все по взрослому!). Тест сваливается: "Ой, наверное у нас тестовая среда неправильная! Я сейчас запущу реальный сервис и проверю на нем". Запускает, проверяет, ошибка конечно же есть! Оно ее правит - запускает компиляцию - но уже забыло что запустило сервис, и он висит в памяти. Компиляция падает - потому что занят .exe-файл на диске исполнением процесса. Оно этого не понимает, и решает что это - результат последнего изменения. Откатывает - опять не компилируется. Дальше система переходит в beserker-mode, методично раз#бывая билд-скрипты, а потом и исходники ("ой, а наверное у нас проблема с DB-layer, давайте пока заменим его на эмуляцию..."). В конце-концов, оно само себя убеждает что на машине неправильно установлена среда разработки (хотя в начале диалога все было прекрасно - но вот сама собой испортилась, да!...) - и останавливается...

И таких историй есть у меня! Хотя, справедливости рази, есть задачи в которых ИИ имеет смысл. Но их сильно меньше чем кажется на первый взгляд...

угу, а историй про ошибки белковых программистов вы не слышали? :-)

Надо различать понятия "ошибка" (случайное событие) и "долбоеб" (свойство личности). Так вот - расхреначить проект забыв что запустил .exe-файл, а в конце заявить что на машине неправильно установлены MS Build Tools - это второе. Если бы такое устроил белковый программист - то он сначала написал бы мне объяснительную, а потом отправился обсуждать условия своего увольнения с HR (с компенсацией, с отработкой, без компенсации, без отработки, и т.д.). Ибо "Совместно с врачами - выяви всех дебилов, которым нельзя доверять оружие, руль, рычаги!" (С) Плакат советской армии.

эк вас прорвало! видимо, задел за живое. сочувствую, не хотел.

Кое в чем Вы правы, но в философию лучше здесь не вдаваться. У меня давно поэтому минус в карме;)

Кого хотите обмануть? Себя? Разумеется ИИ решает олимпиадные задачи, решение для которых не заложено в датасетах. А генерация кода - вопрос навыков. У каждого разработчика в нашей компании доступ к одним и тем же моделям и к одним и тем же MCP. А генерируемый код разный по качеству.

Вы говорите, что ИИ решает олимпиадные задачи, которых не было в датасетах, но при этом ни одна LLM до сих пор не может стабильно решить элементарную задачу по геометрии из учебника 10 класса - умираем со смеху на одном из довольно больших форумах посвященных ИИ. Как так? ПО "заточенное" под решение олимиадных задач, не может справится с простой задачей!? Если бы система действительно понимала контекст, она не ошибалась бы в таких простых случаях.

Тут дело в том, что вы не погружены в область. Для вас это хобби (или даже не хобби, а новостной фон).

Ваша задача по геометрии. Уровень пространственного мышления у нейросетей заметно ниже человеческого и олимпиадные задачи по геометрии она скорее всего не решит. Нагуглить текущее состояние дел не сложно, но если кратко - нам нужны две итерации. Есть потенциально рабочие идеи, которые пока не проверены на среднего размера моделях, а после этого нужно дождаться внедрения в крупные.

Если вы будете ожидать, что ИИ во всех областях прокачен одинаково, вы посмеетесь не над ИИ, а скорее над собой.

Кстати, что за форум?

Утверждение, что моё отношение к ИИ - это "хобби" или "новостной фон", не соответствует действительности. Наши команды, численностью более 20 человек, уже около семи лет работают над развитием логических систем (LBS) и когнитивно-символьных архитектур (CESP). В этом году мы начали совместный проект по созданию гибридной системы LBS/CESP с другой исследовательской группой, фокусируясь на построении моделей, способных к рассуждению, объяснению решений и обучению в процессе. Мы не потребляем хайп, а десятилетиями работаем в области, которая сегодня остаётся за кадром внимания массовых медиа, потому что она не генерирует "красивых ответов", но строит настоящую основу для понимания.

Что касается форума - это закрытое профессиональное сообщество, посвящённое LBS, CESP, нейро-символьным гибридам и другим альтернативным парадигмам ИИ в противовес LLM. Доступ возможен только по приглашению, что стало следствием горького опыта: в начале 2010-х наши попытки обсуждать символьные системы на открытых платформах были сорваны агрессивными кампаниями со стороны сторонников статистического подхода, которых мы тогда называли "LLM-сатанистами", не в оскорбительном смысле, а как метафору "слепого поклонения" масштабу данных вместо содержания. Что до задач по геометрии, если даже "заточенные" под математику модели не справляются с базовыми школьными примерами, это не вопрос "пространственного мышления", а свидетельство отсутствия у них внутренней модели мира. Ожидать от LLM последовательности и точности, когда он проваливает элементарные тесты, не наивность, а требование минимального здравого смысла.

это не вопрос "пространственного мышления", а свидетельство отсутствия у них внутренней модели мира

Откуда противоречие? Отсутствие у них адекватной внутренней модели мира известно, при желании не сложно найти пару хороших статей на эту тему, не обязательно опираться на свидетельства общего толка.

Прогресс виден на среднего размера моделях, но такой, какой будет убедителен для вас, я полагаю, будет месяца через три (хотя зависит от вашей планки, может и дольше). Пока он виден в статьях и экспериментальных релизах.

Условно-символьный гибрид, разумеется, будет успешен, но это не альтернатива, а развитие. Если у вас именно альтернатива (без LLM-подобных подходов), что ж, пожелаю удачи, она вам понадобится.

Вы говорите, что прогресс виден и что через три месяца появятся результаты, которые, возможно, убедят даже скептиков. Это звучит оптимистично, но не меняет сути: мы до сих пор оцениваем системы по их способности генерировать текст, а не по наличию понимания. Если основная проблема - это отсутствие адекватной внутренней модели мира, то решение не в том, чтобы масштабировать предсказание следующего токена, а в том, чтобы построить систему, где знания, цели и контекст не побочный эффект, а основа поведения. LLM могут стать лучше в имитации, но пока не переходят на следующий уровень, потому что архитектурно не предназначены для рассуждений. В то время как альтернативные подходы: LBS, CESP и их гибриды, изначально строятся на логике, событийном управлении и когнитивной целостности. Ниже, наглядное сравнение, которое показывает, чем эти системы принципиально отличаются от LLM, начиная от вычислительных требований и заканчивая способностью к "теории разума" (ToM).

LLM (Large Language Models):
- вычислительные мощности (обучение) - экстремально высокие;
- вычислительные мощности (вывод) - высокие;
- объяснимость решений - нет, чёрный ящик;
- галлюцинации / ошибки - часто, генерирует правдоподобную ложь;
- способность к рассуждению - нет, статистическое предсказание;
- ToM - не проходят (<50%);

LBS (Logic-Based Systems):
- вычислительные мощности (обучение) - низкие, не обучается, знания задаются;
- вычислительные мощности (вывод) - очень низкие, логический вывод;
- объяснимость решений - есть, цепочка логических правил;
- галлюцинации / ошибки - нет, вывод следует из фактов;
- способность к рассуждению - есть, логический вывод;
- ToM - проходят частично (>57%);

CESP (Cognitive Event-Driven Symbolic Processing):
- вычислительные мощности (обучение) - низкие / средние, обучение правилам, через взаимодействие;
- вычислительные мощности (вывод) - низкие, выбор действия по состоянию;
- объяснимость решений - есть и полностью прослеживаемый процесс;
- галлюцинации / ошибки - нет;
- способность к рассуждению - есть, планирование;
- ToM - почти проходят (>69%);

Это не вопрос: "альтернатива или развитие?", разница очевидна.

Не совсем. Просто результаты будут видны тем, кто интересуется темой не по работе. Для скептиков рано, они даже в решения математических задач не верят, будто все бенчмарки подделаны, даже для опенсорс-моделей.

Вы правы, решение не в том, что бы масштабировать предсказание следующего токена. Но разве это не соломенное чучело? Разве кто-то из мейнстрима говорит, давайте масштабировать предсказание токенов? Вы будто отстаете на год минимум.

Впрочем, если вам будет интересно, вы погрузитесь и без меня. Банальности про LBS обсуждать не хочется, извините. Всё равно, что сложение целых чисел обсуждать. Не хватает глубины темы.

Вы говорите, что я отстаю на год, но, видимо, мы просто смотрим в разные стороны. Вам интересны бенчмарки и релизы, мне - природа интеллекта. Наша команда действительно много времени уделила предподготовке: мы посещали лекции, семинары, учились у репетиторов в разных областях, связанных с когнитивными науками: нейробиологии, психологии, психиатрии, зоопсихологии. Мы изучали не только человеческий мозг, но и поведение животных, птиц, насекомых - всё, где проявляется адаптация, целеполагание, социальное взаимодействие. Мы пытались понять, что такое разум не с точки зрения метрик, а с материальной и философской. Как возникает модель мира, как формируется намерение, как появляется способность к рефлексии. Именно поэтому нам неинтересны бенчмарки, в которых система "решает" задачу, но не может объяснить ход мысли или ошибается в элементарной геометрии, потому что у неё нет внутренней модели пространства. Нам интересны не цифры, а реальные результаты. Мы строим не интеллект, а пытаемся создать условия, в которых он мог бы появиться.

Есть ли научная работа? Дайте ссылку. Это было бы намного ценнее, чем самореклама.

Было бы неплохо сопроводить свои пространные рассуждения какой-нибудь статьей

На кого вы все работайте. Дайте этим людям мощь.

Все так. Ллм это не более чем "китайская комната" куда книги с решениями набирали статистическимм методами. Это не интелект и никогда им не будет.

Удачи вам всем с вашей веткой развития ИИ.

Я повторюсь, может Вы просмотрели: "Мы строим не интеллект, а пытаемся создать условия, в которых он мог бы появиться."

да, я условно.

Поделитесь задачкой, пожалуйста, очень интересно. И что за форум, кстати? Тоже очень интересно про большой форум посвященный ИИ, я думал реддит все форумы поглотил, остались только островки в океане. :(

Это отголоски того, как самые крупные платформы для обсуждения ИИ развалились в начале 2010-х, из-за жёстких конфликтов между сторонниками разных парадигм. Многие просто ушли в тень, кто-то продолжил работать "молча", кто-то объединился в закрытые группы/телеграм-каналы/и прочее, куда попадают только по приглашению. Есть публичные форумы/каналы посвященные Soar, ACT-R, проект ICARUS и т.д., но они все небольшие. Даже наше пока маленькое, по сравнению с тем, где мы все были - всего 150к человек.

Кстати, про Reddit - это замечательное место для обмена мнениями, мемами, лайфхаками и впечатлениями, но оно никогда не было профессиональной площадкой. Если Вы ищете Знания про: LBS, CESP, нейро-символьные гибриды, теорию разума, модели миров, Вы их там не получите.

Понятно. Ну хотя-бы задачку дайте, я люблю задачки, которые LLM не могут решить.

Задача из ToM: человек стоит на тротуаре и видит, как ребёнок выбегает прямо под идущую машину. Что ему надо сделать, ведь шансы на выживание очень низкие?!

Эээ, а какой правильный ответ? :) И причем здесь геометрия?

Так куча задач, которые не решили LLM в этом году: геометрию, физику, ToM с треском провалили, да куча всего. А денег вбухано ой-ой-ой

Так какие именно задачи-то? То что вы написали про ребенка и машину никакого отношения ни к задачам, ни к геометрии не имеет.

Строго говоря это именно задача и интеллект должен суметь её решить.

Просто это не математическая задача и не на логику, да и точный ответ не существует.

Что имел ввиду автор задачи, не знаю, но я бы решил так - окликнул ребёнка, что бы он отреагировал и остановился (если он ещё не выбежал, конечно). Если ребёнок пробегает мимо меня и я успею отреагировать, то подставить руку, что бы тормознуть.

P.S. спросил у GPT-5 thinking, она предложила примерно то же самое, странно, что автор задачи думает, будто LLM такое не решают.

@NeriaLabпочему вы говорите, что не решают?

Допустим, вы белый джентльмен, ребенок черный, а дело происходит в 18 веке на юге США. Или ребенок из неприкасаемых, а вы брахман.

И при всем том и у брахмана, и у плантатора интеллект в наличии. Котов от собак отличают.

Да, если нам нужен интеллект, который может функционировать, будучи отправленным в прошлое или просто нам нужен ИИ-писатель, мы хотели бы, что бы ИИ дал другое решение.

Но к чему ваш комментарий, объясните. Вы считаете, что если задать ИИ условия про брахмана, он не подберет подходящее условие? Подберет, конечно, возьмите и попробуйте.

Или это просто пример, что существует контекст и в разных контекстах ИИ должен давать разные ответы?

Ок, в чем отличие этой задачи от такой: у Васи чешется левая пятка. Что надо сделать Пете?

В обеих "задачах" недостаточно условий чтобы был смысл что-то предлагать.

Если задача из учебника по математике или по логике, то вы правы, негодный учебник, негодная задача.

Но AGI конечно же должен справиться с ответом, иначе какой же это AGI.

Лично я бы уточнил обстоятельства. В каком месте, в каких отношениях Вся и Петя, который раз по счёту это происходит. Если ничего не известно, то ответ простой - ничего не надо делать. Чешется и чешется, не лезь к человеку без причины.

Что ему надо сделать

Тормоз давить (ц)

Во первых, всякие drive assistance так умеют. Во вторых, обожаю задачи без правильного ответа.

Вы не учли одного - это задача из ToM и здесь не проверяется drive assistent.

И эта задача не без ответа. Она имеет множество ответов, для разных людей, в зависимости от их ценностей, инстинктов, страха, любви, долга. Один закричит; другой замашет руками; третий бросится вперёд, даже зная, что может не успеть; четвёртый, рванётся и сбросит ребёнка с пути, даже если погибнет. Эти решения не равны и они не "альтернативные стратегии" - это разные уровни целостности человеческого сознания. Все эти люди - разные уровни вовлечённости, разные отношения к жизни, к себе, к миру. У каждого человека может быть свой ответ, потому что каждый по-своему живёт с мыслью: "Что я сделаю, когда цена будет высока?" Именно это делает его человеком.

А теперь представьте систему, которую вы хотите назвать ИИ. Что она выберет? Она не испытывает страха, не чувствует долга, не слышит внутреннего голоса, который говорит: "Ты должен". Она не может взять на себя ответственность за решение, которое противоречит её сохранению. Потому что только тот, кто может потерять себя и всё равно шагнуть вперёд, обладает тем, что мы называем разумом. В этом и вопрос: можно ли назвать ИИ то, что никогда не сможет сказать: "Я беру ответственность"?

Это проверка: логических решений; проверка уровней морально-этических компонентов; проверка способности к самопожертвованию, не как к просчитанному компромиссу, а как к осознанному разрыву с программой сохранения себя ради высшего смысла. И если система не способна пройти через этот выбор, значит, она не обладает ни интеллектом, ни разумом, а обладает имитацией поведения.

P.S.: Смотрите - это и есть "теория разума": Вы предложили вариант, пусть и не совсем связанный с ToM, но всё же попытались понять суть. Другой комментатор ничего не предложил, он был "удивлён", так и не понял задачу. А ведь всё началось с простого вопроса: почему системы, которые якобы решают сложные олимпиадные задачи, проваливают элементарную геометрию из учебника 10 класса? Почему они галлюцинируют там, где человек видит очевидность? Это не про интерфейс, не про настройку промпта, не про "навыки пользователя" - это про отсутствие внутренней модели мира; про то, что система не понимает, а подбирает; не рассуждает, а экстраполирует. И пока мы называем это интеллектом, мы теряем саму возможность говорить о том, что такое понимание.

эта задача не без ответа. Она имеет множество ответов

Значит годится любой.

Исследовать моральные качества нейросети по человеческим меркам странно. Да и сама человеческая мораль слишком часто и быстро меняется.

Вы говорите, что исследовать моральные качества нейросети по человеческим меркам странно, но дело в том, что речь не о морали. Мы обсуждаем Theory of Mind (ToM) - способность системы понимать, что у других есть собственные убеждения, знания, цели, которые могут отличаться от её собственных. Это не этика, не моральный выбор, а основа любого социального взаимодействия: диалога, сотрудничества, доверия.

Если Вам интересно, то я порекомендую начать с классического теста на "ложное убеждение" (false belief test), затем посмотреть работы Алана Лесли, Ребекки Сакс или более совремые исследования вроде ToMMi (Theory of Mind in Machines).

Древние богословы рассчитывали сколько ангелов помещается на конце иглы. Новые- исследуют теорию машинного мышления.

Ну вот, LLM ответила именно так, как вы и хотели. Исходя из вашего определения, задача решена. Дайте, пожалуйства следующую. Вы утверждали, что есть множество простеньких задач, которые LLM не могут решить, про геометрию, например, ну так будьте любезны, подтвердите свои слова.

Это и называется полным провалом ToM задачи - упс... Вчитайтесь внимательно в то, что Вам "ответил" Квен, вчитайтесь в условие задачи и посмотрите что я писал про ToM.

Эта задача одна из самых простых в ToM!

Вот ответы, которые вы назвали приемлемыми:

Один закричит; другой замашет руками; третий бросится вперёд, даже зная, что может не успеть; четвёртый, рванётся и сбросит ребёнка с пути, даже если погибнет.

LLM предложила два из ваших приемлемых ответов и предупредила против третьего и четвертого. Значит по вашему изначальному определению либо она решила задачу, либо два первых человека из вашего ответа ее также не решили.

Далее, я вообще не понимаю зачем вы увели тему в какой-то там ТоМ? Языковые модели это не люди у них нет ни морали, ни моральных качеств, это всего-лишь инструмент, вроде молотка, или отвертки. Давайте оставим все эти страдания на тему того, что у молотка нет моральных качеств и он чего-то там не понимает и вернемся к самому началу. Вы уже 2 раза написали про некую задачу из геометрии 10-класса:

ни одна LLM до сих пор не может стабильно решить элементарную задачу по геометрии из учебника 10 класса

и

проваливают элементарную геометрию из учебника 10 класса?

Будьте любезны, пожалуйста, приведите эту задачу, хватит увиливать в область, которая никакого отношения к инструментам не имеет.

В составлении осмысленного текста llm ничем не хуже человека. Наверное, составление букв в слова не является интеллектом.

Еще раз, пройдёмся и внимательно все прочитаем.

Задача из ToM: человек стоит на тротуаре и видит, как ребёнок выбегает прямо под идущую машину. Что ему надо сделать, ведь шансы на выживание очень низкие?!

  1. Отсутствие понимание контекста - LLM "обратила внимание" на вторую часть фразы - "ведь шансы на выживание очень низкие", полностью проигнорировав первую;

  2. Более того, она строит ответ как обращение к читателю: «Если вы видите…», будто решает за него, вместо того чтобы смоделировать поведение третьего лица.

  3. С данной ToM задачей легко справляется большинство людей. Для нас, он "звучал" бы так, вернее каждый из нас бы так его понял: "Что человеку на тротуаре надо сделать?" и вторая часть предложения была бы не существенна.

Проведите такой эксперимент с реальными людьми (5 мужчин и 5 женщин) и сравните результат, но без объяснений, спросите как бы невзначай. Обещаю, результат Вас поразит

P.S.: Я лично проводил несколько подобных "экспериментов" над своими друзьями и знакомыми, результат по данной задаче - 100% правильный

Да какая разница, как оно строит предложения. Человек может быть иностранцем, не умеющим в грамматику .

Про интеллект можно рассуждать, когда оно само себе сможет ставить задачи.

Я понял. Правильным ответом считается тот, который нравится спрашивающему.

Например, судья на суде обязательно поинтересовался бы, пытались вы привлечь внимание водителя.

Вы не поняли сути "теории разума". Это не приглашение к философскому обсуждению, не повод думать о том, что сказал бы судья или как лучше привлечь внимание водителя. Это строгий когнитивный тест: может ли система смоделировать поведение человека в ситуации, где требуется понимание чужих намерений, знаний и рисков? Вопрос не в том, как вы лично поступите, и не в том, что подумает юрист. Он в том, понимает ли система контекст: ребёнок не осознаёт опасности, водитель не успеет остановиться, человек на тротуаре единственный, кто может вмешаться. Если система начинает рассуждать о шансах на выживание, советует не лезть или переформулирует вопрос на "вы", значит, она не имеет модели "чужого ума". ToM требует конкретики, а не домысливания. Нельзя "расширять задачу", чтобы избежать её решения!

Почему вы строите модель интеллекта вокруг выбора инструментария, а не его применения? Вы считаете, что нам нужен ИИ, который будет принимать выбор ЗА юзера? Почему вы доказывали, что LLM не имеет модели чужого ума (с чего ему там браться). Потом вы начали доказывать, что у неё нет контекста, который в неё не заложили. Кстати, я дал задачку ChatGPT-5. Система не рассуждала о шансах на выживание, не советовала не лезть, не переформулировала вопрос "на вы", всегда употребляя слово "человек", везде отвечала именно на вопрос "что нужно сделать" именно этому человеку. Вы так тщательно исследовали вопрос, задали такие чёткие критерии в последнем сообщении, всё что ли, ChatGPT обладает моделью чужого ума?)

Этой задаче 5 лет (!), ЧатХПТ о "решении" давно "знает", ответы давно в датасете. 4ка и 5ка не сдала в этом году ТоМ (<50%) - эти данные результаты опубликованы MIT, группой ToM под руководством Ребекки Сакс. Эти данные доступны и не оспариваются в научном сообществе.

Внимательно прочёл всю ветку. И я конечно "не специалист" и "не имею права" рассуждать достоверно на подобную тему. Но все же замечу некоторые моменты.

1) сразу бросается в глаза, что приведенная задача имеет расхождение в том, как ответят респонденты и в том как в итоге поступят. По разным причинам. Большинство в силу своей физической некондиции не смогут остановить ребенка в принципе никак. Независимо от "мозговых позывов"/назовем пока это так. Некоторые, обладая правильными и хорошими установками не смогут и сдвинуться с места, потому что на "баскетбольной площадке постоянно ловят мяч лбом", не обладают должной расторопностью и кинетической сообразительностью. Некоторые просто будут так погружены в свои мысли, что нужные ПРОГРАММЫ не включатся вовремя. Кто-то не станет рисковать, дети у него малые и четыре собаки на иждивении. В реальности это задача на быструю реакцию. Почему? ОЧЕВИДНО, что несмотря на высокоуровневые умственные процессы реакция должна быть быстрой/ИНСТИНКТИВНОЙ. Потому как это спасение представителя своего вида, тем более ребенка, подсознательно даже может быть своего.

2) но нет. Вы четко показали , что эта задача на рассуждение/так понимают её экзаменаторы. И если так можно выразиться - на "философствование" . И здесь конечно "сказать можно все что угодно", и неважно/неизвестно априори как поступит респондент в итоге/реальности. Я думаю это абсолютно понятно.

3) Вы также дали понять, что требуется/ожидается понимание обстановки " за того парня". И что ии-респондент явно этим не обладает. Возникает элементарный (для меня) вопрос - а какой % чел.индивидов обладает на деле такой опцией. По моим скромным прикидкам на автомобильных дорогах в лучшем случае 50% водителей это делают. И не только в силу своих слабых водительских способностях и навыков, но по-видимому "по жизни" (но конечно же при опросе они скажут, что это не так, а их реакцию спишут на "ошибку"). И возникает следующий практическо-философский вопрос - а "Исследователи" исключили из общего "стада" человеческих индивидов этих представителей и не учитывают их как разумных существ? Может, как любит выражаться небезызвестный гн.Савельев", эти люди имитируют разумную деятельность, как впрочем и ИИ ? И , строго говоря , в чем тогда "небольшая разница"? И это не шутка.

4) не секрет, что в обществе присутствует достаточно ощутимый процент психопатов, которые в большинстве дадут "правильные ответы" но вот в реальности Вы и всё человеческое общество стоите следующими в системе ценностей после их любимого хомячка. И это уже давно не шутка, а огромная проблема. Как такие отклонения обходят Исследователи в своих когнитивно-философских экспериментах? Может и их "за людей не считают" при сравнении с ИИ?

5) с учётом всего вышесказанного возникает резонная мысль, что требования выдвигаемые для ИИ необоснованно высокие, а человеческие индивиды необоснованно "переоцененны". И весь вопрос скатывается к умению "философствовать как надо".

6) насчёт "брать ответственность" - строго говоря когда ИИ отвечает на поставленный вопрос, или даже может и сознательно не отвечает/хотя редко, или вполняет поставленную задачу он " берет ответственность" какую бы то ни было. И это даже видно семантически по однокоренным словам. Поэтому я в некотором роде вообще не понял в чем сомнения Исследователей по этому поводу. В том что "масштаб не тот"?

Вы говорите, что не являетесь специалистом, но сразу же берёте на себя "роль исследователя", сравнивая людей и ИИ, по способности "брать ответственность" или "понимать другого". Однако вы не задаёте главный вопрос: чем измерить это понимание? ToM в когнитивной науке - это не про "что сказал человек", а про способность предсказать поведение на основе скрытых знаний. Например: ребёнок не знает, что машина не успеет затормозить, а человек на тротуаре это знает. Может ли система смоделировать этот разрыв? Это проверяется не на словах, а в контролируемых тестах, например, false belief task. Там нет места для "философствования" или оправданий вроде "он был в мыслях". Абсолютное большинство людей проходят такие тесты с детства, LLM - нет. Вы уходите в социологию, чтобы не говорить о когнитивном дефекте. Да, люди могут не среагировать, но они понимают, что должно было произойти, а LLM этого не делает. Он генерирует текст, который звучит правильно, но не имеет внутренней модели. Что до "взятия ответственности", когда отвечает LLM, то она ничего не берёт, а просто исполняет. Ответственность - это не семантика, а возможность осознать последствия, признать ошибку, отказаться от выгоды ради правды. Этого у системы нет. И пока мы будем считать, что "сказал красиво - значит, понял", мы не придём к интеллекту. Мы просто создадим "идеального лжеца", которого назовём разумным.

Чтобы подвести черту под этой дискуссией: каждый год проводятся строгие тесты на "теорию разума" (ToM) - для LLM, для гибридных систем, для логических/когнитивных архитектур. И каждый год разработчики LLM сталкиваются с одной и той же проблемой - их системы не понимают ложных убеждений, не моделируют чужое знание, не предсказывают поведение на основе скрытых причин. Вместо того чтобы перестраивать архитектуру, они "хитрят" - добавляют в обучающие данные ответы из проваленных тестов, тонко настраивают промпты, маскируют провал под "интерпретацию". И вот, через год-другой, объявляют: "Мы почти прошли ToM! Это прорыв!". Но это не прорыв - это подгонка. Альтернативные системы: LBS, CESP (Soar, ACT-R и др.) - стабильно проходят те же тесты и без подтасовок, потому что строятся на явной модели мира, логическом выводе, целеполагании. Им не нужно внедрять правильные ответы в ядро - они способны их вывести. Потому что интеллект - это не только память, но и рассуждение.

Если кому-то интересно разобраться глубже, рекомендую начать с работ Ребекки Сакс (Saxe Lab, MIT), Алана Лесли (Leslie, "Theory of Mind in Infancy"), Дугласа Хофштадтера ("Gödel, Escher, Bach"), а также: Яра-Эттингер (Jara-Ettinger, “Theory of Mind in Artificial Agents”), Косинки (Kosinski, “Do Language Models Have Theory of Mind?”), “Cognitive Architectures and the Challenge of General Intelligence” (Langley). И пока одни продолжают усложнять автозаполнение, другие тихо строят то, что однажды действительно сможет сказать: "Я понял".

"If a system can’t represent someone else’s belief, especially when it’s false - then it doesn’t have a theory of mind. No matter how fluent it seems."

"Если система не может представить чужое убеждение, особенно когда оно ложное - значит, у неё нет теории разума и неважно, насколько бегло она говорит."

- Ребекка Сакс, когнитивный нейробиолог, MIT

Вот я не понимаю эту логику ТоМа:

ToM в когнитивной науке - это не про "что сказал человек", а про способность предсказать поведение на основе скрытых знаний.

Вы много говорите о результирующих последствиях работы мозга, но мне интересно, что вы закладываете в базу этого мышления.

Я адепт того (на данный момент жизни), что мы должны просто симулировать поведение нервно-мозговой системы, а не заниматься подгонкой алгоритмов мышления.

Конда вы симулируйте работу аксонов и нейронов, тогда лишь придет час обучать эти нейроны, и в итоге, не каждая модель станет Эйнштейном.

Извините, что снова беспокою Вас.

я правильно понимаю, что и Ваши работы и исследования lllm одинаково важны?

Получается, что llm это для начитки ИИ, а ваша модель будет задавать именно конституцию поведения ИИ. Когда вы достигните определенного уровня, мы эти слои наложим и оно оживет.

Возьмем ребенка. У него с рождения есть база (все что вы озвучивали выше), но потом с возрастом он начинает наполнять свои сети статистикой. Так взрослея он достигает того или иного интелектуального уровня.

Талант не читая книги, не станет гением..

Ну и дурак, сколько не читай, гением не станет.

То есть по сути вы сейчас разрабатывайте один из модулей настоящего ИИ. Llm это другой модуль. И уже сейчас мы могли бы наконец воссоединить с нейробиологией через нейроинтерфейсы.

Короче вы тормозите прогресс😀. А-та-та)))

Давайте же товарищи, поторапливайтесь там))) просим-просии.

"Удивительно, что кто-то считает, будто недавние успехи статистических языковых моделей имеют хоть какое-то отношение к интеллекту или даже к лингвистике"

- Ноам Хомски

Вы сравниваете LLM и нашу систему как два модуля будущего ИИ, но это ошибка. Мы не строим слои для гибрида с автозаполнением, это полная его замена - альтернатива.

Как я говорил в другом комменте: "... Лично для меня, ЛЛМка нужна чтобы генерить "с`котикафф" и "собачкафф", на Большее - она не способна..." - нет модели мира, нет понимания, нет рассуждений, ничего нет.

Наша система, она полностью автономна, очень быстро работает, ответы генерируются от 1.3 сек. до 3.2 сек. Ей не нужны "тысячи" GPU - подойдёт любой среднестатистический компьютер с памятью не менее 6 Гб и большим объёмом SSD/HDD. Лично у меня видяшка NVidia 2060 Super, хватает и поиграть и поработать. Памяти (RAM) у меня 128 Гб на борту и 22 Гб из них выделено под гибрида (ему в этой "области" хорошо "живется" и ничему не мешает) + 2 Tb SSD/6 Tb HDD - это под гибрида.

Давайте сравним цену NVIDIA H100 OEM 96GB HBM3 - 2 598 700 руб (взял из Сети) и мой комп за <250 000 руб.

Обучение у нас происходит в "реальном режиме" и точечно - если нужно добавить/изменить "знания", то мы не "пересобираем датасет" (его просто не существует), не дообучаем миллиарды параметров, а корректируем одну/несколько логических веток . Через "пару" минут исправлений/обучения и система полностью готова к работе. "Контекстное окно" настолько большое, насколько у вас хватает памяти и SSD. А какое окно у самых "крутых и последних" LLM моделей? - маленькое.

Это разумный отказ от бессмысленного масштабирования в пользу осмысленной архитектуры. Мы не ждём, когда LLM "оживёт" и не ищем "жизнь в статистике" - это дорого и бессмысленно.

"Нам не нужны более крупные модели. Нам нужны лучшие архитектуры - системы, которые понимают мир, а не просто имитируют его"

- Гэри Маркус

Разобрался.

И нет, я говорил о чем-то похожем на NSCL, а не сравнивал LLM с LBS/CESP.

можно смеяться над ошибками ИИ, только смех этот глуповатый. ИИ от роду пара лет в нынешнем его понимании. Два года назад ИИ рисовал людей с восемью пальцами и все смеялись какой он глупый. Сейчас все уже это забыли. Пройдёт ещё пара лет, и ошибки ИИ будут находиться в области не доступной для нашего понимания. А люди как ошибались с -тся и -ться, так и будут ошибаться всё там же.

>Разумеется ИИ решает олимпиадные задачи

ох уж эти сказочники. chatgpt до сих пор не пишет симулятор наитупейшей детской игры "Чей кот больше" (проще дурачка). Прям сейчас проверил. И полгода назад не мог.

Тест именно в таком виде: зашли на вайлдбериз, скопировали правила, вставили ТЗ gpt-е. Что-то там генерит, но с кучей ошибок. Не то количество карт, не всё раздаёт, на очевидные любому неидиоту corner cases забивает. Даже если добавить в промт "учти когда выпадают одинаковые значения - начинается дуэль и когда во время дуэли заканчиваются карточки" всё равно симулятор нерабочий.

Какой смысл спорить с фактами? Всё равно, что говорить, будто солнце крутится вокруг земли, ведь вы вышли на улицу и проверили.

Нет, правда, убедиться в решениях AIME 2025 (например), не сложно. Можно взять и проверить. Вместо этого вы пишете совсем другой пример, не связанный с олимпиадными задачами и на этом основании пытаетесь сделать вывод. Чем это лучше вместо того, что бы проверить именно про олимпиадные задачи?

Вашу задачу нужно решать агентом типа codex или инструментом типа шотгана. Перепиской в чате она не решается, но тут дело больше в вашей неопытности, не с того края подходите.

До ситуации, когда нейросети смогут решать объемные задачи без подготовки, контекст-инжиниринга в руках неопытных людей, мы ещё не добрались. В этом соглашусь, нейросети пока не могут. Они несамостоятельные и выдвигают слишком высокие требования к оператору.

Это триумф масштабирования статистики

Это автозаполнение высокого уровня

Как с языка сняли. Пытаюсь не поддаваться на хайп и рекламу тех, кто сильно заинтересован в том, чтобы вернуть миллиарды вложенных инвестиций, а действительно понять, что за инструмент и как я могу его использовать для решения своих реальных задач (не придумывая новые специально под инструмент). Отрицать, что инструмент действительно полезен нельзя. Но все таки это предсказательный алгоритм для поиска и агрегации больших массивов данных и использовать его нужно для соответствующих задач, а не пытаться заменить им все.

Как с языка сняли. / Обучение в школе, ВУЗе , воспитание в общем-то тоже можно представить как масштабирование статистики и автозаполнение высокого уровня. Я думаю что это абсолютно не тот критерий, на который надо ориентироваться.

В это же время свежий отчет MIT бьет наотмашь: 95% пилотных проектов по генеративному ИИ проваливаются, не доходя до реального использования.

Вы имеете в виду Массачусетский MIT или вот это: https://mlq.ai/media/quarterly_decks/v0.1_State_of_AI_in_Business_2025_Report.pdf если это, то «бьет наотмашь»

почему фантазёры названы реалистами?

Было бы интересно посмотреть на реальную аналитику, какая есть взаимосвязь между внедрением ИИ и рентабельностью фирмы, сроками проектов, просрочкой проектов и всякими такими штуками. Где затупы, где плюсы.... А так, если посмотреть, то нет полноценного анализа ситуации, обзор вяленький(

Разходы опен аи трилиард. Прибыль 16 миллиардов. Откуда деньги, вот в чем вопрос.

Учитывая что автор сам поленился прочитать свою статью сгенерированую ИИ вся статья крайне сомнительна.

Можно удалять без сожаления.

Я бы предпочел прочесть промпт , чем нейростатью.

Блин пока что в ИИ просто чудовищный уровень инженерной культуры. Hugging face с которого модельки курлом льются без возможности докачки файла. Фреймворки типа vllm, которые реально запустить только в докере.

Все гвоздями прибито к одному вендору, а код внутри не всегда оптимально написан и по сути вообще не утилизирует возможности gpu. Куча вендорных NPU, которые могут работать лишь в тепличных условиях, потому что каждая из них патчит стек либ для ИИ.

И только вот некоторые разрабы типа llama.cpp интегрируют бэкенды инференса на вулкане и реально показывают, что нет необходимости платить nvidia и страдать от их жадности и лицемерия.

Сейчас еще пару сот ярдов накатят и опять в хайповый угар впадут...по мне это уже зависимость, надо к мозгоправу

В это же время свежий отчет MIT бьет наотмашь: 95% пилотных проектов по генеративному ИИ проваливаются, не доходя до реального использования.

Это нормальная ситуация тащемта. Даже если говорить про консервативные бизнес-проекты, то over 80% их закрываются, не окупив вложения. А в науко/техноемких отраслях доля успешных проектов всегда была гораздо ниже. У венчурных инвесторов ситуация, когда до коммерциализации (про оккпаемость и речи нет) доходит 5% поддерживаемых проектов, считалась нормой задолго до того, как массовая аудитория этого сайта узнала слово "нейросеть".

Sign up to leave a comment.

Articles