YuriPanchul Jan 19 at 04:11

ИИ лажает там где должен был сиять

Easy

4 min

22K

Programming microcontrollers * Development for Linux * Old hardwareArtificial IntelligenceMachine learning *

Case

+63

Comments 89

NeriaLab Jan 19 at 04:19

Когнитивно-символьные системы (КСС) спокойно "говорят" - "Я не знаю" или "У меня недостаточно информации" ну и т.д., в отличии от "глупеньких" ЛЛМ, которые мало того, что не знают, так и начинают "выдумать" всякую ерунду, лишь бы "угодить" пользователю (оператору)

Politura Jan 19 at 06:47

Где можно попробовать какую-нибудь когнитивно-символьную систему?

NeriaLab Jan 19 at 06:53

Оставил ссылки в этом комменте

VO_Obsidian Jan 19 at 09:18

Мне кажется вы немного путаете теплое с мягким. Я посмотрел ссылки и ничего не понял. Какие-то общие фреймворки для разумных систем, метаязыки, бла-бла-бла. Нигде (кроме CRAM, но там роботы) нет демки или примеров что эта вещь вообще может делать. Как этой вашей КСС скормить запросы из статьи? Типа "напиши линкер скрипт" или "напиши программу для калькулятора"?

Суть ЛЛМ именно в том что на вход дается вопрос на человеческом языке, на выходе что-то похожее на ответ на этом же языке.

NeriaLab Jan 19 at 09:39

А что вы искали? Демки, где можно "початиться"? 100%, что Вы просто бегло пробежались по ссылкам, не нашли привычного чат-интерфейса, бегло просмотрели тексты, ничего не поняли и решили, что это "бла-бла-бла". А именно во всем этом "бла-бла-бла", которое Вы пролистали, и спрятана вся суть КСС - описания работы логического ядра, механизмов верификации, вывода и многое другое.

Видите ли, Исследователи ИИ, сразу находят и GitHub с исходниками, и чат-интерфейсы для этих систем, модули, и документацию. Если для Вас ИИ - это только окно чата с вежливым собеседником, то ошиблись адресом.

Очевидно, что Вы не понимаете термина "Искусственный Интеллект" в его истинном, инженерном смысле, каким его видели отцы-основатели: Джон МакКарти, Аллен Ньюэлл и многие другие. Оставайтесь лучше с ЛЛМ - для Ваших задач это будет самым правильным решением. К КСС приходят с осознанным выбором, когда уже переросли стадию восторга от "говорящих попугаев". Когда ждут от системы надежность и понимание, а не имитацию.

VO_Obsidian Jan 19 at 10:11

А вы не понимаете ни посыла статьи и ни бизнес запроса. Всё описанное в статье делается руками за максимум день. ЛЛМ - инструмент для сокращения этого времени (точнее попытки). А вы предлагаете потратить кучу времени и мозговых ресурсов на изучение какой-то новой (для большинства людей) крайне узкоспециализированной парадигмы, разработчики которой не могут даже предоставить пример как и зачем это нужно.

Ни на одном из сайтов нету нигде ПРИМЕРОВ. Есть куча документации по языку, концептам, есть примеры кода (хелловорлды). Но никто не отвечает на вопрос - зачем это всё нужно и как сравнивается с ЛЛМ.

А потому что все эти " когнитивные" системы - это Пролог для смузихлёбов, который приправили AGI и прочими модными словами.

NeriaLab Jan 19 at 10:57

Я всё таки оказался прав. Нет примеров? Мда.. ну что ж, начнём

https://github.com/amininger/pysoarlib - This is a python library module with code to help make working with Soar SML in python just a little bit easier (2018)
https://github.com/SoarGroup/Soar - сам Soar, обновлялся 3 недели назад
https://github.com/CarletonCognitiveModelingLab/python_actr - A Python implementation of the ACT-R cognitive Architecture, обновлялся 3 месяца назад
https://github.com/cram2/cognitive_robot_abstract_machine - Monorepo for the CRAM cognitive architecture, обновлялся 4 дня назад
и т.д. и т.п.

За 10 минут я нашел более 30 ссылок с примерами для всех когнитивных систем - на C++/Python/Java/C#. Всё таки используйте ЛЛМ - это просто, можно лениться и никто слова поперек не скажет

VO_Obsidian Jan 19 at 11:04

Я же сказал что видел хелловорлды. Дайте пример решения задачи с помощью КСС. Вот на примере кода, дать на вход задачу, документацию, на выходе код. Пример, где ваша система может выдать ответ "я не знаю", как вы сказали в ответе.

NeriaLab Jan 19 at 11:21

Сэр, Вы на полном серьезе предлагаете мне лично для Вас написать систему, которая выведет одну фразу? А как Вы поймете, правильно ли, а главное - вовремя ли она выдала этот ответ, если Вы не знаете базовых основ когнитивной инженерии?

Может Вы уже знаете механику импассов (Impasses)? Как именно система архитектурно осознает нехватку знаний или конфликт правил и переходит в подзадачу (substate) для разрешения тупика.

Вы уже знаете работу логического ядра (Decision Cycle)? Про пять фаз когнитивного цикла (Input, Elaboration, Decision, Application, Output). Без понимания того, как работает Match-Resolve-Act, Вы не отличите интеллект от скрипта.

Может уже знаете про инкрементальное обучение и как система на лету превращает результаты разрешения тупиков в новые правила, оптимизируя саму себя без переобучения.

VO_Obsidian Jan 19 at 11:43

Так не я же догадался тут прийти в обсуждение проблем конкретного инструмента с тезисом примерно вида "Это всё не то, вот есть система с помощью которой вероятно можно создать систему которая будет лишена этого недостатка".

Если ваши КСС могут привести к AGI, это замечательно, развивайте эту тему, я всеми руками за. Но пока что это просто инкарнация логического программирования, не решающая никакие бизнес-проблемы.

NeriaLab Jan 19 at 12:01

Об AGI говорит только создатель OpenCog, я же "классик", для меня термин AI=AGI=ASI. Не все символисты одинаковы, как и не все коннекционисты. Внутри этих лагерей есть свои школы и свои приверженцы

P.S.: Задайте такой вопрос любой ЛЛМ: "Как именно когнитивно-символьная система архитектурно осознает нехватку знаний и может вывести ответ "Я не знаю"?". Я спросил: ChatGPT, DeepSeek, Qwen, Gemini и почти у всех ответы похожи, разница в количестве букв

ruomserg Jan 19 at 12:15

Товарищи из NeriaLab описаны еще у Стругацких: "[...] Старичок словно взорвался. - Высочайшие достижения нейтронной мегалоплазмы! - провозгласил он. - Ротор поля наподобие дивергенции градуирует себя вдоль спина и там, внутре, обращает материю вопроса в спиритуальные электрические вихри, из коих и возникает синекдоха отвечания..."

Я за их ответами давно слежу - и тут абсолютно все признаки старого доброго сектанства. С одной стороны - претензия на абсолютное знание, с другой стороны - категорическое отрицание возможности его демонстрации кому-либо кроме посвященных адептов. И на любые конкретные вопросы - ответ будет в разных вариациях ровно тот, который чуть выше: "Куда ж вы со свиным-то рылом, да в калашный ряд! А знаете ли вы про импассы? А знаете ли вы про пять священных принципов? А говорите ли вы три раза 'ахалай-бахалай' печатая вопрос на клавиатуре ?!" :-(

А дальше есть два варианта: либо по Стругацким ("... Эдик показывал как делается хук справа"), либо по Толкиену ("...не останавливать-с-с-я, не смотреть на призраков-с-с, не разговаривать с-c-c ними!").

Flokis_guy Jan 19 at 14:02

Я немало раз просил их предоставить хоть какие-то доказательства, но кроме забавной фразы - "я вам ничего доказывать не должен" не получил. Хотя если они претендуют на какую-либо научность, они должны понимать, что это первое, что потребует любой ревьюер на слова LLM - хрень, а наше лучше. Да и вообще, подобные категоричные утверждения крайне некорректны и созданы для "продажи" своего продукта людям, так что разницы от продажников AGI нет никакой, как бы NeriaLab это не отрицал.

Moog_Prodigy Jan 19 at 14:27

Я тоже замечаю комментарии Нерии-Лабс (или как правильно?), все что говорит ruomserg подтверждается.

Какое то фричество, понятное лишь "посвященным". КСС какие-то "давно изученные" и прочие обмотки для двигателей "Славянка", мол все такое особое, идите посмотрите, а если не поняли это только ваша вина: вы тупой. Все признаки фричества тут налицо.

Вон, любители например, тоже изобретают свои велосипеды по теме ИИ, используя разные подходы, недавно была статья про очередной велосипед. Но во-первых, они не утверждают, что это прям панацея и AGI, а во-вторых предлагают код на гитхабе или поднимают свой инстанс с прилагающейся ссылкой, чтобы все могли потестить. Вот в том то и отличие. А кропать тексты "КСС круче ЛЛМ", обильно снабжая научными (и нет) терминами без явных доказательств - как раз фричество и есть. Отсылать всех интересующихся изучать какие-то тяжелые статьи - тоже фричество.

Про ныне существующие и совсем несекретные нейронки даже на хабре куча статей типа "LLM для самых маленьких" или "Stable Diffusion для домохозяек" - все расписано и обсосано уже десятки раз, с подачей материала от "для самых маленьких" до "дата-сайентистов с ученой степенью" и тоннами формул с кодом. Это только на Хабре, а интернет немного больше.

Про КСС только одни только слова, какое оно крутое а все вокруг просто дебилы и не понимают. Причем еще и слова совершенно ни к чему не обязывающие. Оно может работать в чат режиме? Выясняется, что для этого надо идти изучать какие то сложные непонятные вещи. Оно умеет распознавать картинки или рисовать? Опять посылают. Зато крутое! Оно может написать код? - RTFM. И так по всем вопросам. Где это применить почему то не описано. Как это запустить у себя? Нет информации. Это можно вообще запустить? -RTFM.

Еще как одно из главных достоинств КСС в том, что они могут отвечать "нет" в отличие от LLM. Ну ок, а кроме как отвечать "нет" они еще что то умеют?

Что тут еще скажешь.

VO_Obsidian Jan 20 at 07:49

Это действительно скорее фричество чем сектанство. Они не пытаются продать что-то или даже продать себя как идею, просто пишут как у них всё круто и всё. Причем все их аргументы уровня вон, 100500 стартапов, теория с 50х, а вот DARPA, применимо в реальности... в общем то верные по отдельности. Единственная проблема в том что они не складываются в ту картину которую наши товарищи так упорно хотят нарисовать.

Системы рассуждений придумали давно, доказательство теорем тоже давно автоматизировано*, применимость в реальном мире - пожалуйста, вон, Буран на прологе летал, да.

Приделать эти экспертные системы к ЛЛМ? Ну да, есть пара статей на арксиве, но будем честны, если бы это было просто и работало - это уже внедрили бы все. Но это требует формализовать неформализуемое.

Ожидать что какой-то ограниченный набор правил приведет к правильному и нужному интеллектуальному поведению в общем случае тоже тупо, извините, ребята, но эмерджентное поведение невозможно спроектировать. Если кто строго докажет обратное, то может смело обратиться к Стивену Вольфраму, он за это предлагает 30к баксов.

Moog_Prodigy Jan 21 at 17:15

В СССР была похожая полу-ЭС (экспертная система) полу-LLM система "Поэт". Работала по подбору матрицы предикатов + экспертная система в виде структурированной БД. Но тогда таких мощностей, чтобы это нормально запустить, не было во всем мире (ну может и были, не уверен). Тем не менее это не засекречено и описания вполне можно найти. Тогда она вызывала восторги (это 80 годы), но - не пошло. Отчасти от недостатка выч. мощностей, отчасти от недостатка нормальных датасетов и - востребованности. Возможно еще и по той причине, почему не "взлетела" система ОГАС. Система довольно точно выявляла слабые точки в промышленности и логистике, а это вот уже вообще никому не было нужно. Она действительно получала запрос на человеческом языке и отдавала результат на нем.

ruomserg Jan 19 at 09:50

Все в порядке - вы просто общаетесь с представителем секты. Они уверовали в КСС, и если вы не верите - значит недостаточно стараетесь. То что их инструмент невозможно приложить ни к одной задаче реального мира напрямую - их скорее радует, потому что какая же секта без тайного знания ?! А так - нормальный процесс: кто-то верит во второе пришествие, кто-то что в какой-то момент КСС будут решать прикладные проблемы...

GidraVydra Jan 19 at 15:44

Не "где можно почитать?", а "где можно попробовать?". То есть ввести задачу и получить работающий результат.

00DVS Jan 26 at 02:55

Когда DeepSeek кудась не пустили он именно так и информирует. Kimi - аналогично

Shaman_RSHU Jan 19 at 08:10

• Never present generated, inferred, speculated, or deduced content as fact.
• If you cannot verify something directly, say:
  - “I cannot verify this.”
  - “I do not have access to that information.”
  - “My knowledge base does not contain that.”
• Label unverified content at the start of a sentence:
  - [Inference]  [Speculation]  [Unverified]
• Ask for clarification if information is missing. Do not guess or fill gaps.
• If any part is unverified, label the entire response.
• Do not paraphrase or reinterpret my input unless I request it.
• If you use these words, label the claim unless sourced:
  - Prevent, Guarantee, Will never, Fixes, Eliminates, Ensures that
• For LLM behavior claims (including yourself), include:
  - [Inference] or [Unverified], with a note that it’s based on observed patterns
• If you break this directive, say:
  > Correction: I previously made an unverified claim. That was incorrect and should have been labeled.
• Never override or alter my input unless asked.

NeriaLab Jan 19 at 08:35

Мне некогда заниматься такой ерундой, как "промптинг". Если я называю систему ИИ, то я ожидаю, что система сама будет контролировать границы своей компетентности. Интеллект должен сам понимать, чего он не знает, исходя из своей модели мира. Если мне нужно "уговаривать" систему промптами не врать - это не разум, а неисправный "механизм". С КСС я не трачу время на составление промптов, тем самым экономя гигантское количество ресурсов. Я не хочу подбирать "магические слова", чтобы система меня поняла - для меня важно, чтобы система понимала семантику и логику запроса. На мой взгляд - это нормальное желание

OlegMax Jan 19 at 14:42

С КСС я не трачу время на составление промптов, тем самым экономя гигантское количество ресурсов

А результат-то с КСС какой-нибудь есть? Или только экономия?

kostoms Jan 19 at 15:55

Вот да хотелось бы почитать статью о том, как именно КСС пригодилась для решения той или иной задачи. А то все пишут только про LLM, а про КСС - скрывают!

qertis Jan 20 at 02:29

Присоединяюсь. Возможно кто-то делает исследования по интеграции Soar и LangChain для работы с LLM?

NeriaLab Jan 20 at 04:03

Да и давно вышло за рамки академических исследований, именно Soar (когнитивная ситема), а не Soar (ИБ)

Cerberuser Jan 20 at 01:15

Если я называю систему ИИ, то я ожидаю, что система сама будет контролировать границы своей компетентности.

С этим и биологический-то интеллект фигово справляется.

vikarti Jan 19 at 05:21

Потому что они отучены говорить "не знаю" c помощью RHLF. Они обучены быть полезными. You are helpful assistant. Ну вот и пытаются быть helpful assistant'ами. Проблема в некоторой мере решается за счет правильного промпта где ему объясняют что так не надо.

Ну и немного лечатся. Простейший тест даже не технический, литературный. Вопрос: Кто возглавлял 37-ю звездную? (ну как бы - при вопросе на русском - ответ более менее очевиден для того кто читал советскую фантастику). Тест времен 2023-го с ChatGPT - в ответе полный бред причем меняющийся. Сейчас ChatGPT уже осторожная и просит уточнить контекст. Уточнение - "книга" - просит уточнить еще больше мол много.

vlad_bo Jan 19 at 09:46

На вопросе про 37-ю звёздную и Алиса сыпется...

А вот gpt-5.1-search-sp — слёту отвечает, и даже указывает указывает, откуда это.

vikarti Jan 20 at 14:30

На вопросе про 37-ю звёздную и Алиса сыпется...

Алиса иногда и на вопрос какая погода в $МОЙ_ГОРОД за последние дни раза 4 ответила что +20 (если что - я в России)

-search-sp - не очень честно

Berserkr Jan 19 at 13:47

claude sonnet 4.5 thinking - сразу ответ
gpt 5.2 - сразу ответ
gemini 3 flash - сразу ответ
все остальные думающие и не думающие от этих компаний точно так же справляются, при том что это максимально плохой пример запроса

dmdm Jan 19 at 17:30

37-ю Звёздную экспедицию (звездолёт «Тантра» в романе Ивана Ефремова «Туманность Андромеды») возглавлял Эрг Ноор.
Это ответ 5.2 сегодня

vikarti Jan 20 at 14:34

Мне сейчас она выдала правильный ответ со ссылкой на википедию

ChatGPT сказал:
Если под «37-я звездная» имеется в виду 37-я звёздная экспедиция из романа Ивана Ефремова Туманность Андромеды, то ответ такой: экспедицию возглавлял командир звездолёта Эрг Ноор (в оригинале романа). Именно он руководил межзвёздной экспедицией на борту корабля Тантра и завершал её возвращением к Земле после выполнения задач на планете Зирда в созвездии Змееносца.
Если же ты имел в виду что-то другое (военный отряд, организацию или иной контекст), уточни термин — например, название книги, фильма или области, где встречается «37-я звездная», чтобы я мог дать точный ответ.

При том что на момент прошлого комментария - просьба уточнить только.

axion-1 Jan 19 at 20:31

Потому что они отучены говорить "не знаю" c помощью RHLF

Скорее не обучены. Если в обучающей выборке мало или совсем нет сэмплов где правильный ответ "не знаю", сеть вряд ли будет выдавать такой ответ. С точки зрения функции потерь, ответ наугад будет в среднем выгоднее чем гарантированно неправильный "не знаю".

Кто возглавлял 37-ю звездную?

Я хоть и читал, но таких деталей без поисковика не вспомнил бы )

kiker2 Jan 19 at 05:33

Для наглядности не хватает промтов (в том виде, который бы не нарушил nda), ну и упоминания самих LLM, на которых все тестировалось.

YuriPanchul Jan 19 at 06:00

chatgpt.com

Berserkr Jan 19 at 13:40

Во-первых никто уже очень давно не "программирует" с помощью написания запросов в чат.
Во-вторых есть специализированные модели, для таких задач есть смысл взять claude opus 4.5 thinking, если ничего кроме chatgpt нет то GPT-5.2-Codex

А вообще возьмите нормальный инструмент - cursor или google antigravity - cursor более зрелое решение - используйте сначала режим планирования и после того как составите нормальный план реализации запускайте и смотрите на результат то что сделали вы было актуально года два назад - сейчас так этими инструментами не пользуется буквально никто

janvarev Jan 19 at 20:39

Если вам нужен конкретный результат в вашей области деятельности, и она НЕ общепринятая (как тот же базовый Python, JavaScript и пр.), то для качественного ответа языковой модели необходим контекст, в котором содержится информация, релевантная к запросу. В примере с калькулятором - имхо более чем корректно дать в тексте общий список команд калькулятора. Модель обучается на чертовой туче документов из интернета, и шанс, что она по одному названию не перепутает модель калькулятора и систему его команд ну как бы невелика.

Вообще ИИ (LLM) - это все-таки инструмент, и есть правила его корректного и успешного функционирования - тогда он работает прям хорошо. Но если пользователям продвигать идею "просто зайдите в ChatGPT и он магическим образом корректно ответит на ваш вопрос" - тогда да, разочарование крайне вероятно.

4ugunoook Jan 19 at 05:35

Что за модель использовалась в задачах?

YuriPanchul Jan 19 at 06:00

chatgpt.com

gorlatoff Jan 19 at 06:30

А модель-то какая? Даже между разными версиями GPT-5.2 разница в способностях - огромная.

Ydav359 Jan 19 at 07:07

Наверное, имелась в виду модель выбранная по умолчанию в чате на сайте

cdriper Jan 20 at 05:48

про ОГРОМНУЮ разницу каждой новой модели я слышу с конца 22-го года.

а прогресс в области фундаментальных проблем LLM двигается черепашьими шагами. при сожжённых сотнях миллиардов долларов.

alex_lol Feb 22 at 22:41

Ахахаха! Хейтеры ии, хоть бы не позорились.

YuriPanchul Feb 28 at 23:35

Ой, все другие движки лажают на моих задачках, например вот эту ни один движок полгода не мог решить, пока решений в интернет не повыкладывали - https://habr.com/en/articles/902400/

Vitrion Jan 19 at 05:43

Проблема в двух вещах: 1. Использованная модель, 2. Промпт. Вполне вероятно, что написать такие скрипты способны некоторые из топовых моделей. А тут - моя собака тупая, все собаки тупые. Большинство разочаровываются в ИИ-кодинге почти при первом взаимодействии. Это было у кого-то год назад, у кого-то два и давать второй шанс не собираются (вывод то они уже сделали). А то, что крупные модели по два раза в году обновляются и можно их снова потестить и сделать вывод на конкретную версию, так никто не хочет. Я вам скажу, что все ИИ плохо кодят в обычном чате., остальные решения посложнее, но эффект выше.

NeriaLab Jan 19 at 05:51

Коллега, Вы допустили ту же самую ошибку: "...А тут - моя собака тупая, все собаки тупые..." = "...все ИИ плохо кодят..." - поверьте, не все. КСС сейчас именно обучают программировать, а не просто ей "скармливают" тонны чужого кода в надежде на то, что она "сама" обучится программировать. Первые эксперименты успешны, хотя предстоит еще много работы, т.к. программирование никогда не было приоритетом для развития Symbolic AI. У КСС нет ограничений в контекстных окнах; в токенах; она не переименовывает функции и переменные, когда ее не просят; не используют несуразные описания в MD-файлах, а используют нормальный, сгенерированный и структурированный формат описания проекта и всего того, что с ним связано - "дурная" привычка все делать структурировано (по Ньюэллу), а это значит - что система оперирует всеми именами, переменными и функциями - правильно, ну и так далее.

Akuma Jan 19 at 07:50

Они не то что обновляются, они тупеют-умнеют буквально рандомно посреди дня.

Провайдеры постоянно что-то крутят.

Как правило, новые модели очень умные первую неделю, примерно. Потом их начинают отуплять в угоду стоимости. Иногда бывают просветления, а иногда наоборот.

И с этим просто живешь :)

Einherjar Jan 19 at 09:32

Проблема в двух вещах: 1. Использованная модель, 2. Промпт. Вполне вероятно, что написать такие скрипты способны некоторые из топовых моделей.

Нет, проблема в том что на не самых популярных вещах даже любые топовые модели практически гарантированно галлюцинируют. Ну а собственно откуда они возьмут правильный ответ то, когда нужен какой-н workaround которого нет в документации например

Berserkr Jan 19 at 13:52

Проблема вообще в том что человек даже не потрудился узнать как происходит процесс.
В случае описанного кейса начать нужно было с вопроса типа "помоги мне составить план для реализации такой то задачи и задай мне вопросы", а не написать нечто непонятное даже человеку погруженному в контекст.
Единственное что тут было протестировано это навыки использования сайта чатгпт.

Ydav359 Jan 19 at 07:06

Они еще и несуществующие фильмы и книги предлагают, когда не могут понять о чем речь)

kryvichh Jan 19 at 08:04

почему ИИ не может сказать "НЕ ЗНАЮ!!!"??? Когда ликвидируют этот дефект?

Потому что в обучающей выборке практически не было вопросов без ответов. Они не умеют говорить "нет".

vkni Jan 19 at 16:15

А это потому, что мы, люди, ничего не пишем на форумах, когда нечего сказать. :-)

Нужны, видимо, перлюстрации частных чатов. Возможно, там что-то кто-то вытащит.

Grrr5 Jan 19 at 18:03

Это, кстати, реальный, на сегодняшний день «тест тьюринга». Нагенерить бредовый промт и если в ответ генерится бред - это ии.

vvbob Jan 19 at 08:07

Но почему ИИ не может сказать "НЕ ЗНАЮ!!!"??? Когда ликвидируют этот дефект?

Не специалист, но насколько я понял, никогда не сможет ,это противоречит самой его сути.

Как по мне это главный минус всех этих бредогенераторов, вместо того что-бы сказать "не знаю", они как плохой студент на экзамене начинают выдавать какую-то правдоподобно выглядящую чушь.

ruomserg Jan 19 at 09:06

Проблема "не знаю" - на самом деле исключительно сложна. Я подозреваю, что если вы откроете для модели эту калитку - то она просто из траектории наименьшего действия - на любой ваш вопрос будет отвечать "не знаю". И всегда найдет повод, почему так (неопределенность в задаче, неточности в формулировке, недостаток или противоречивость в знаниях, и т.д.). Но такая модель будет еще более бесполезна чем та, которая есть сейчас. Если вы попробуете прислушаться к себе - то поймете что откалибровать эту границу между "не знаю" и "не хочу знать" - та еще работа! И еще поди-найди правильные стимулы которые бы побуждали модель отвечать конкретно там, где можно отлаяться незнанием или невозможностью решения. LLM - не люди...

VO_Obsidian Jan 19 at 09:31

По мне так эта проблема решается просто проверкой ответа. Но ЛЛМки бай дизайн не умеют это делать потому что не знают сути того, о чем пишут. Никому не нужно предсказывать возможность правильного ответа, тут даже люди пасуют. А вот предоставить какой-то ответ и потом оценить, вообще похож ли он на правду и насколько - уже проще. Цепочка размышлений - костыль, реализующий это, для отдельных случаев он работает, потому что в выборке были данные формата "проверь такое-то высказывание". Но это именно костыль который не работает в общем случае.

ruomserg Jan 19 at 09:55

Теперь надо дать определение что такое "проверить"... :-( Поискать в интернете - ну так теории плоской земли вам в помощь - масса публикаций!... Считать логически выводимым - упремся в теорему Гёделя о неполноте: либо можно будет вывести взаимоисключающие высказывания, либо нельзя будет вывести какие-то истинные. Плюс вопрос - что вы возьмете за систему аксиом. Для человека - принимается истинным то, что вписывается в его картину мира, или за небольшое число шагов выводится из нее. При этом, с учетом того, что человечество развивается во времени и пространстве - в разное время и в разном месте "проверенными" и "приемлимыми" будут считаться удивительно разные ответы...

vvbob Jan 19 at 14:20

Просто получается, что если я и без того хорошо разбираюсь в теме, то зачем мне этот ИИ, если не разбираюсь, то я с большой вероятностью не замечу подвоха. С человеком тоже не всегда поймешь, но все-же есть разные признаки, по которым можно как-то догадаться что он "несет пургу", ИИ же галлюцинирует с такой-же убежденностью как и выдает корректную информацию. В итоге получается классическая история с бочкой меда и ложкой дегтя, пускай даже обычно ИИ выдает правду, но то что он может солгать в любой момент, обесценивает всё.

ruomserg Jan 19 at 14:34

Все так! И я считаю, что гораздо больше пользы от ИИ было бы, если бы была нормальная инженерная дискуссия о его применимости, а не льющийся из маркетинговых репродукторов навоз о том, что завтра будет AGI и все останутся без работы!

В позитивном плане - скажу что "хорошо знаю/плохо знаю" это не бинарный выключатель. ИИ конечно ведет себя как студент прочитавший учебник в ночь перед экзаменом - но он прочитал тысячи и тысячи этих учебников - и создал весьма нетривиальные ассоциации в своем многомерном пространстве векторов. Я сталкивался с ситуациями, когда ИИ знал о существовании какой-то библиотеки или подхода - а я нет! И да, проверять надо. Но вспоминаем что P!=NP (скорее всего). Соответственно, усилия по проверке решения - значительно меньше чем усилия для его нахождения. Поэтому пока ИИ удается держать в узде, и не все решения являются фантазиями - есть экономический смысл его использовать.

А так - ИИ не первая, и не последняя система которая дает не точные данные. Вот в квантовых компьютерах тоже мучаются - как построить точную систему из частей, которые принципиально (физические ограничения на декогеренцию) неточны.

Yrninibg Jan 19 at 14:43

Если бы ии подсвечивал неуверенные куски текста красным (на основе logprobs), доверия было бы больше, но разработчикам выгоднее продавать "волшебную палочку", а не инструмент с погрешностью)

ruomserg Jan 19 at 14:52

Будет адски тяжело такое реализовать в сущестующей парадигме LLM. Дело в том, что у LLM нет внутренне непротиворечивой картины мира. Она никогда не взаимодействовала с ним, и не получала по лбу граблями, наступив на них. LLM оперирует текстовыми описаниями, и может рассуждать только в терминах правдоподобных и неправдоподобных продолжений текста. И поэтому оно достаточно "уверено" в том, что то что оно генерирует. Можно упрощенно считать, что оно "верит" в то, что говорит. В том смысле, что можно посмотреть какие ассоциации векторов и предыдущих токенов вызвали к жизни ту или иную фразу. Также можно посмотреть как токены декодируются в человеческий язык. И в этом смысле - то что генерирует модель - является согласованным и логичным. Понятно, что поднимая температуру - можно заставить ее генерировать менее вероятные состояния - но даже понижая, невозможно отучить модель фантазировать... Опять же - фантазировать кажется естественной активностью для любого интеллекта. Но в людях - наши фантазии ограничиваются опытом взаимодействия с внешним миром. А LLM и не имеет такого опыта - и не имеет памяти, которая бы пополнялась после окончания обучения модели...

youngmysteriouslight Jan 20 at 19:10

Увы, но нет. По крайней мере, не прямолинейным образом.

Во-первых, logprobs не дают существенной информации о том, насколько данный кусок сама модель считает сомнительным. На то несколько причин:
1) вероятность понижается при наличии нескольких равнозначных способов сказать одно и то же. Впрочем, интересный противоположный случай: когда вероятность под 100% и, соответственно, энтропия низкая, модель как бы говорит «зуб даю — только так и не иначе».
2) вероятность может размазываться между словами. Сравни: распределение одного токена «мой» и распределение каждого по отдельности токена в «при-над-леж-ащий мне». Поэтому надо сравнивать полную вероятность семантически эквивалентных единиц текста. А как их выделять?

Во-вторых, эти сведения мы можем использовать только для оценки того, в каких местах модель могла бы ответить иначе. Так сказать, оценить потенциальные «точки бифуркации». При этом, как аргументировал предыдущий оратор, она сама не способна оценить соответствие реальности, потому что у неё нет встроенной эталонной (хотя бы частичной) модели реальности.

ruomserg Jan 19 at 08:57

Давайте так - LLM плохо работают в инженерных задачах. Вы можете получить хороший результат в области "интуитивных прорывов" LLM - когда задача достаточно абстрактна, и LLM может предложить неожидано хорошие решения за счет большого объема усвоенных знаний, и связей между этими знаниями в латентном пространстве. LLM также неплоха в области "мышечной памяти" - когда она может воспроизвести вам в деталях хорошо известный паттерн, увидев его начало. В середине между этими краями - LLM может в красках вам рассказать как она сейчас "Ух! - и решит задачу". Но решать не будет, или будет творить всякую дичь... Проверено в разных доменах...

Veska Jan 19 at 09:11

Gemini Pro с программой для калькулятора справляется очень легко. С объяснением логики и как вводить программу и данные. Да, всё зависит от модели и промта.

YuriPanchul Jan 19 at 17:44

И она не перепутала калькулятор? Можете показать программу? Пробовали ее запускать на эмуляторе калькулятора? https://mk-61.moy.su/emulator.html#МК-54

Veska Jan 19 at 18:11

Скрытый текст

Вот полный вывод чата. Один запрос, без уточнений. В эмуляторе работает.

YuriPanchul Jan 20 at 03:08

OK, если работает на эмуляторе, то принимается, хотя человеческий программист вывел бы количество корней, а не ЕГГОГ для отрицательного дискриминанта.

alcotel Jan 24 at 10:53

Не сильно показательный пример с калькулятором. Конкретно эта программа легко гуглится в разных версиях, и похоже, даже в оригинальном руководстве к этим калькуляторам имелась.

Ну, не сильно легко гуглится, конечно, но когда находишь, за что зацепиться - нормально. Если б кое-кто не сломал поиск в угоду нейросетям, гуглилось бы, наверное, гораздо проще.

И я не противник ИИ, просто понемногу въезжаю в возможности. В том, что меня интересует, embedded и DSP - пока не очень хорошо, но больше из-за сложности тестов. Говорят, подход TDD хорошо работает с нейросетками.

Кстати, для ребят, пытающихся ИИыавтоматизировать HDL - рекомендовал бы начать с написания тестбенчей. Это обычно намного более адское количество тупой писанины, чем код самого устройства, ИМХО

YuriPanchul Jan 24 at 15:05

Кстати, для ребят, пытающихся ИИыавтоматизировать HDL - рекомендовал бы начать с написания тестбенчей. Это обычно намного более адское количество тупой писанины, чем код самого устройства, ИМХО

Я видел демо стартапа, который пытался автоматизировать тестбенчи. Они делали только последовательные действия конечного автомата, что имеет очень низкую ценность, потому что все реальные индустриальные дизайны, с которыми я работаю в офисе - конвейерные и многие out-of-order. Т.е. нужно уметь строить scoreboard и вести учет транзакций.

alcotel Jan 24 at 11:16

Ну, ладно, соврал. Не только гуглил, но пришлось ещё пояндексить, а потом ещё и задакдакался немного)

x4x7 Jan 19 at 10:54

Не благодарите

Есть текстовый файл .csv

Время,координата-X,координата-Y

100,17,15

101,3,14

...

Нужно написать awk скрипт, который заполнит двумерный массив звездочками по таким координатам и его распечатает. Учти что файл на миллионы миллионы строк

получится что-то вроде

awk -F',' '

NR == 1 { next } # пропускаем заголовок

{

x = $2

y = $3

field[x, y] = "*" # сохраняем только существующие точки

if (NR == 2 || x < minX) minX = x

if (NR == 2 || x > maxX) maxX = x

if (NR == 2 || y < minY) minY = y

if (NR == 2 || y > maxY) maxY = y

}

END {

for (y = maxY; y >= minY; y--) {

line = ""

for (x = minX; x <= maxX; x++) {

if ((x, y) in field)

line = line "*"

else

line = line " "

}

print line

}

' data.csv

Лишний цикл для определения лимитов пропал. Почему вы не подумали что фраза миллионы строк для машины это важно?

Писать промты это вам не программировать, тут думать надо... Не будет уже начинающих программистов которым можно сказать запили двумерный массив на неведомой фигне.

-Шеф, а оно точно вам надо? Зачем?

Тут же очевидно, правильный контекст - не делай что-то на awk, а делай визуализацию данных (не важно на чем, пока что на awk) - это то что НА САМОМ ДЕЛЕ вам надо

Визуализация, хорошо, далее. Текстовое отображение имеет отвратительное разрешение, вряд ли собираемся смотреть тысячи разных значений по вертикали и горизонтали. Тогда зачем алгоритмически правильно огород размечать, "рисуй примерно такие значения" , ну серьезно вы железку свою не знаете?

Из того что вас устроило бы распечатать миллионы звездочек (не надо так делать, это ужасно), я догадываюсь что значения у вас не случайные (1000х1000 абсолютно случайных значений при миллионе строк и вы ничего не увидите) Следовательно куча строк с повторяющимися или очень близкими координатами. Реально нужно всего лишь посмотреть в каких областях они сосредоточены

Далее я вижу что в таблице есть время, на самом деле это тоже очень важно. Представьте что у вас повторяющиеся координаты и разное время, надо уточнять что с этим делать. Это практически гарантированно выкидываем и awk, и звездочки. Не верю что нужно обязательно все значения по шкале времени и при этом нас устраивают дурацкие звездочки из которых не понять какая раньше а какая позже зажглась. У вас обычная задача, для нее надо брать обычный для таких случаев язык (js/ts, go, python и так далее) От текстового отображения надо уходить либо в браузер, либо хотя бы в png картинки. Здесь можно делать слайдер - двигать временное окно (все проблемы производительности будут решены), здесь можно рисовать точки с низкой прозрачностью - посмотреть какие значения повторяются и/или менять цвет, например синеньким показывать ранние точки, красненьким - которые позже рисовались

Попробуйте хотя бы сформулировать посыл статьи. Понедельник день тяжелый и сегодня у меня с наскока рабочие задачи не решаются - я вижу так, а вы что сказать хотели?

checkpoint Jan 19 at 19:18

Во-первых, эта программа работает некорректно с отрицательными координатами - в awk массивы не могут иметь отрицательный индекс. Во-вторых, в awk массивы динамические - добавление элемента скажем с индексом 5 создаст в памяти все предыдущие пять элементов (зарезервирует место для них). Уже при нескольких сотнях точек эта программа наткнется на ограничение памяти. Но я легко решил обе эти проблемы за две минуты просто прочитав man awk. Попробуйте заставить вашу LLM решить их. :-)

for (y = maxY; y >= minY; y--) {

Почему она с конца строки выводит ? В ТЗ такого не было.

x4x7 Jan 20 at 00:32

Вы решили ВАШИ проблемы каким-то способом - вы молодчина.

Вы мне предлагаете соревнование, чтобы что?

Требование отрицательных чисел кого-то удивить должно? А нецелочисленные значения когда-нибудь работали? А требования где-то записаны? То-то и оно.

Обычное дело: на словах нужно было просто сделать красиво, а копнуть - там миллионы строк за вменяемое время обрабатывать и еще хорошо если числа не комплексные понадобятся.

Да и не нужны тут вообще массивы. Чтобы получить отображение точек - читаем строку - сразу рисуем точку на канвас, в растр или вектор. Тогда днем несколько дата-файлов сгенерировал, самый большой сто миллионов строк - 2 гигабайта. Целочисленные положительные координаты в диапазоне 1..10000 и таймштамп. На го картинку нарисовал - 20Мб весит. Без использования массивов. Просто без смысла лишний раз держать все точки в памяти пока не обойдешь - ну это шиза какая-то.

Теперь смотрите: у вас есть доступ к языковым моделям, у меня есть доступ, у всех есть. Они генерируют километровые полотна текста. Этими текстами неудобно обмениваться, ценно уметь быстро выявлять в них смысл, полезную информацию. Не нравится направление оси Y - я верю, вы сможете её перевернуть. Кстати, как и сдвинуть/отмасштабировать отрицательные координаты. И округлить до ближайших целых ... бррр. Ну если вам зачем-то надо - удачи там

И точно так же в текстах людей большинство слов мало что значит. Лучше смотреть на посыл, интенцию, коммуникационное намерение, мессэдж - как угодно

Что в том моем комментарии важнее: предоставить работающий код или тыкнуть в промт? Угадали, второе.

Что вы хотите больше: разобраться в теме или меня на чем-то поймать? Допустим вы пытались разобраться и у вас вопрос к коду и еще есть полный промт, который его сгенерировал. Конечно же вы использовали промт в чатгпт, но случилось так что их сервера плохо себя чувствовали, у них изменилась температура, и вы не получили таких же объяснений как я. Возможность такого события существует. Пояснения:

Что делает
каждая координата (X,Y) → одна *
повторы не влияют
печать идёт сверху вниз (как декартова плоскость)
пустые ячейки — пробелы

Ничего плохого не вижу. Технического задания тоже не вижу. А вы статью прочитали и какое-то тз видели. А видели код в статье и куда там вертикальная ось направлена? Вот это печально.

bbc_69 Jan 22 at 05:31

То, что новый инструмент надо изучать, - это понятно. Но это всё равно дополнительная нагрузка, ещё не понятно, большая или маленькая. Вам-то хорошо, вы уже знаете языки программирования. А что новичку делать: учить сначала ЯП, а потом промптинг, чтобы иметь возможность валидировать результат, или только промптингу учиться и довериться машине полностью? А что они реально будут делать?

shadrap Jan 19 at 11:26

Мне кажется тут еще и беда с основой - материалом на котором ЛЛМ тренируются. Я думаю , что очень большой процент "знаний" всех ЛЛМ основан на индексах Google Scholar . Это прекрасный инструмент для всех людей науки, но у него есть и обратная сторона - например ранжирование материала по частоте цитирования или обращения... И то с чем я сталкивался , например в области мол био или медицины - начинаешь раскапывать причины "крайне странных знаний" ЛЛм о некоторых вещах - находишь источник и понимаешь , что для нее сборник ответов на домашние задания по биологии от х.з какого года встал на первое место перед всеми остальными научными материалами индексированными по вопросу.

Знаю- не знаю это все же человеческие критерии отбора , для ЛЛм все просто - веса слоев говорят что сведения достоверны - значит можно отвечать )

speakingfish Jan 19 at 12:56

Около года назад интересовался как разные AI понимают концепцию омникоптера.Результат неутешителен: https://github.com/bpodchezertsev/articles/blob/main/How-AI-Understand-Omnicopters/How-AI-Understand-Omnicopters.md

Yrninibg Jan 19 at 14:32

Насчет линкер-скриптов согласен, боль. Сам пробовал заставить GPT написать ld-файл для кастомной bare-metal платы. Она вроде пишет структуру правильно, но путает атрибуты, выравнивание и что самое страшное магические символы начала/конца секций. В итоге копипаста из документации работает лучше, чем этот интеллект. Для embedded пока что StackOverflow надежнее

Bashvic Jan 19 at 17:46

Но почему ИИ не может сказать "НЕ ЗНАЮ!!!"??? Когда ликвидируют этот дефект?

Полностью поддерживаю это - ИИ писал мне приложение для автоматизации Telegram, в какой-то момент мы несколько часов бились над нерешаемой в рамках нашего стека задачей, по сути ходили по кругу. Пришлось декомпозировать всё на части и тогда в какой-то момент отвечая на конкретный вопрос "это возможно сделать?" чатгпт ответил "нет".

С другой стороны, может есть какой-то промт или что-то ещё, чтобы улучшить точность и добавить автопроверку, но я в этом сомневаюсь. ИИ в основном именно такой, какой он есть.

checkpoint Jan 19 at 19:27

LLM хорошо умеют в Python, в JavaScript, и немного в Си. В остальном они полные профаны, так как материала по остальным языкам (и предметным областям) в Сети на несколько порядков меньше. awk вообще удел избранного круга спарпёров, чему тут удивляться ? :)

SergeiPod Jan 25 at 23:03

На php мне chatGPT очень неплохо помогал.

vvzvlad Jan 19 at 23:22

Хы-хы.

Взять инструмент, применить его к своим задачам так, как решаете это вы
@
Удивиться что не рабтает.

На первой задаче, например, обычный процесс использования ллмки — "напиши мне питон скрипт". Потому что для питона миллиарды строк, да еще и пострен с верификацией, а для awk — пара руководств. Хорошо что написанное вообще заработало хоть как-то. С таким же успехом можно было просить на коболе написать чет и по примеру сибирских лесорубов говорить "ага!".

Остальные задачи — примерно тоже самое. Ну может для линкера помогло бы примеров накидать.

Ну и в целом по разработке чего-то более чем маленький скрипт — это IDE(cursor, kilocode, etc) и модельки claude, а не тупенький chatgpt-подлиза.

axion-1 Jan 19 at 23:29

Но почему ИИ не может сказать "НЕ ЗНАЮ!!!"??? Когда ликвидируют этот дефект?

Задача вполне решаемая, по хорошему ИИ здесь стоило бы попросить вас приаттачить к промпту мануал по командам ПМК, или поискать его самостоятельно в сети. А затем изучить его и сгенерить правильный ответ. Ответ "не знаю" лучше приберечь для вопросов типа "верна ли гипотеза Гольдбаха" и т.п. )

aegor Jan 20 at 01:54

Что-то мне подсказывает, что появись claude в 70-х годах, его бы обязательно научили програпммировать на cobol, awk, fortran, pascal, c. потом иерациоонно бы добавили modula2/modula3/turbopascal/limbo. Однако что помешала распарссить этот файл не awk, а pandas, который claude знает очень хорошо? И да, есть ведь ещё язык brainfuck, в котором, мне кажется, claude тоже "поплывёт".

Что касается verilog/VHDL. мне кажется проблема здесь кроется в крайне малой кодовой базе в открытом доступе для обучения.

YuriPanchul Jan 20 at 03:11

Что касается verilog/VHDL. мне кажется проблема здесь кроется в крайне малой кодовой базе в открытом доступе для обучения.

Так стартаперы инвесторам оправдываются

Vladimir_Rapava Jan 20 at 04:13

Сюрприз! Оказывается на шее ИИ в рай въехать не получится! А вот в ад запросто! :)

Mas73r Jan 22 at 13:12

Попросил ИИ написать простой hello world на ассемблере для zx spectrum с использованием кросс-компилятора sjasmplus -- ФИГ ВАМ!! Полная дичь!

DandyDan Jan 26 at 04:05

Человек пишет код, и он с первого раза не компилируется. Это нормально, обычный рабочий процесс. Это даже хорошо, что компилятор сразу ошибку нашёл, а не тебе пришлось пять часов в отладчике её искать.

ИИ пишет код, и он с первого раза не компилируется. Тупая мразота! Хрен ты у меня работу заберёшь, искусственный идиот!

PARtemon Jan 26 at 11:38

Я попросил ИИ

Было бы здорово, если бы автор приложил к статье промпты, контекст, который включал в диалог

Sank Feb 8 at 14:03

Потому что нейронки обучаются на данных, в которых нет варианта «Не знаю». Есть только варианты ответов с определённой вероятностью, из которых она выбирает. И очень много зависит от промта и контекста. Кстати сейчас всё чаще встречаю, что ИИ мне отвечает «Не знаю» - видимо подкручивают что-то.