Pull to refresh

Comments 79

Когнитивно-символьные системы (КСС) спокойно "говорят" - "Я не знаю" или "У меня недостаточно информации" ну и т.д., в отличии от "глупеньких" ЛЛМ, которые мало того, что не знают, так и начинают "выдумать" всякую ерунду, лишь бы "угодить" пользователю (оператору)

Где можно попробовать какую-нибудь когнитивно-символьную систему?

Мне кажется вы немного путаете теплое с мягким. Я посмотрел ссылки и ничего не понял. Какие-то общие фреймворки для разумных систем, метаязыки, бла-бла-бла. Нигде (кроме CRAM, но там роботы) нет демки или примеров что эта вещь вообще может делать. Как этой вашей КСС скормить запросы из статьи? Типа "напиши линкер скрипт" или "напиши программу для калькулятора"?

Суть ЛЛМ именно в том что на вход дается вопрос на человеческом языке, на выходе что-то похожее на ответ на этом же языке.

А что вы искали? Демки, где можно "початиться"? 100%, что Вы просто бегло пробежались по ссылкам, не нашли привычного чат-интерфейса, бегло просмотрели тексты, ничего не поняли и решили, что это "бла-бла-бла". А именно во всем этом "бла-бла-бла", которое Вы пролистали, и спрятана вся суть КСС - описания работы логического ядра, механизмов верификации, вывода и многое другое.

Видите ли, Исследователи ИИ, сразу находят и GitHub с исходниками, и чат-интерфейсы для этих систем, модули, и документацию. Если для Вас ИИ - это только окно чата с вежливым собеседником, то ошиблись адресом.

Очевидно, что Вы не понимаете термина "Искусственный Интеллект" в его истинном, инженерном смысле, каким его видели отцы-основатели: Джон МакКарти, Аллен Ньюэлл и многие другие. Оставайтесь лучше с ЛЛМ - для Ваших задач это будет самым правильным решением. К КСС приходят с осознанным выбором, когда уже переросли стадию восторга от "говорящих попугаев". Когда ждут от системы надежность и понимание, а не имитацию.

А вы не понимаете ни посыла статьи и ни бизнес запроса. Всё описанное в статье делается руками за максимум день. ЛЛМ - инструмент для сокращения этого времени (точнее попытки). А вы предлагаете потратить кучу времени и мозговых ресурсов на изучение какой-то новой (для большинства людей) крайне узкоспециализированной парадигмы, разработчики которой не могут даже предоставить пример как и зачем это нужно.

Ни на одном из сайтов нету нигде ПРИМЕРОВ. Есть куча документации по языку, концептам, есть примеры кода (хелловорлды). Но никто не отвечает на вопрос - зачем это всё нужно и как сравнивается с ЛЛМ.

А потому что все эти " когнитивные" системы - это Пролог для смузихлёбов, который приправили AGI и прочими модными словами.

Я всё таки оказался прав. Нет примеров? Мда.. ну что ж, начнём

За 10 минут я нашел более 30 ссылок с примерами для всех когнитивных систем - на C++/Python/Java/C#. Всё таки используйте ЛЛМ - это просто, можно лениться и никто слова поперек не скажет

Я же сказал что видел хелловорлды. Дайте пример решения задачи с помощью КСС. Вот на примере кода, дать на вход задачу, документацию, на выходе код. Пример, где ваша система может выдать ответ "я не знаю", как вы сказали в ответе.

Сэр, Вы на полном серьезе предлагаете мне лично для Вас написать систему, которая выведет одну фразу? А как Вы поймете, правильно ли, а главное - вовремя ли она выдала этот ответ, если Вы не знаете базовых основ когнитивной инженерии?

Может Вы уже знаете механику импассов (Impasses)? Как именно система архитектурно осознает нехватку знаний или конфликт правил и переходит в подзадачу (substate) для разрешения тупика.

Вы уже знаете работу логического ядра (Decision Cycle)? Про пять фаз когнитивного цикла (Input, Elaboration, Decision, Application, Output). Без понимания того, как работает Match-Resolve-Act, Вы не отличите интеллект от скрипта.

Может уже знаете про инкрементальное обучение и как система на лету превращает результаты разрешения тупиков в новые правила, оптимизируя саму себя без переобучения.

Так не я же догадался тут прийти в обсуждение проблем конкретного инструмента с тезисом примерно вида "Это всё не то, вот есть система с помощью которой вероятно можно создать систему которая будет лишена этого недостатка".

Если ваши КСС могут привести к AGI, это замечательно, развивайте эту тему, я всеми руками за. Но пока что это просто инкарнация логического программирования, не решающая никакие бизнес-проблемы.

Об AGI говорит только создатель OpenCog, я же "классик", для меня термин AI=AGI=ASI. Не все символисты одинаковы, как и не все коннекционисты. Внутри этих лагерей есть свои школы и свои приверженцы

P.S.: Задайте такой вопрос любой ЛЛМ: "Как именно когнитивно-символьная система архитектурно осознает нехватку знаний и может вывести ответ "Я не знаю"?". Я спросил: ChatGPT, DeepSeek, Qwen, Gemini и почти у всех ответы похожи, разница в количестве букв

Товарищи из NeriaLab описаны еще у Стругацких: "[...] Старичок словно взорвался. - Высочайшие достижения нейтронной мегалоплазмы! - провозгласил он. - Ротор поля наподобие дивергенции градуирует себя вдоль спина и там, внутре, обращает материю вопроса в спиритуальные электрические вихри, из коих и возникает синекдоха отвечания..."

Я за их ответами давно слежу - и тут абсолютно все признаки старого доброго сектанства. С одной стороны - претензия на абсолютное знание, с другой стороны - категорическое отрицание возможности его демонстрации кому-либо кроме посвященных адептов. И на любые конкретные вопросы - ответ будет в разных вариациях ровно тот, который чуть выше: "Куда ж вы со свиным-то рылом, да в калашный ряд! А знаете ли вы про импассы? А знаете ли вы про пять священных принципов? А говорите ли вы три раза 'ахалай-бахалай' печатая вопрос на клавиатуре ?!" :-(

А дальше есть два варианта: либо по Стругацким ("... Эдик показывал как делается хук справа"), либо по Толкиену ("...не останавливать-с-с-я, не смотреть на призраков-с-с, не разговаривать с-c-c ними!").

Я немало раз просил их предоставить хоть какие-то доказательства, но кроме забавной фразы - "я вам ничего доказывать не должен" не получил. Хотя если они претендуют на какую-либо научность, они должны понимать, что это первое, что потребует любой ревьюер на слова LLM - хрень, а наше лучше. Да и вообще, подобные категоричные утверждения крайне некорректны и созданы для "продажи" своего продукта людям, так что разницы от продажников AGI нет никакой, как бы NeriaLab это не отрицал.

Я тоже замечаю комментарии Нерии-Лабс (или как правильно?), все что говорит ruomserg подтверждается.

Какое то фричество, понятное лишь "посвященным". КСС какие-то "давно изученные" и прочие обмотки для двигателей "Славянка", мол все такое особое, идите посмотрите, а если не поняли это только ваша вина: вы тупой. Все признаки фричества тут налицо.

Вон, любители например, тоже изобретают свои велосипеды по теме ИИ, используя разные подходы, недавно была статья про очередной велосипед. Но во-первых, они не утверждают, что это прям панацея и AGI, а во-вторых предлагают код на гитхабе или поднимают свой инстанс с прилагающейся ссылкой, чтобы все могли потестить. Вот в том то и отличие. А кропать тексты "КСС круче ЛЛМ", обильно снабжая научными (и нет) терминами без явных доказательств - как раз фричество и есть. Отсылать всех интересующихся изучать какие-то тяжелые статьи - тоже фричество.

Про ныне существующие и совсем несекретные нейронки даже на хабре куча статей типа "LLM для самых маленьких" или "Stable Diffusion для домохозяек" - все расписано и обсосано уже десятки раз, с подачей материала от "для самых маленьких" до "дата-сайентистов с ученой степенью" и тоннами формул с кодом. Это только на Хабре, а интернет немного больше.

Про КСС только одни только слова, какое оно крутое а все вокруг просто дебилы и не понимают. Причем еще и слова совершенно ни к чему не обязывающие. Оно может работать в чат режиме? Выясняется, что для этого надо идти изучать какие то сложные непонятные вещи. Оно умеет распознавать картинки или рисовать? Опять посылают. Зато крутое! Оно может написать код? - RTFM. И так по всем вопросам. Где это применить почему то не описано. Как это запустить у себя? Нет информации. Это можно вообще запустить? -RTFM.

Еще как одно из главных достоинств КСС в том, что они могут отвечать "нет" в отличие от LLM. Ну ок, а кроме как отвечать "нет" они еще что то умеют?

Что тут еще скажешь.

Это действительно скорее фричество чем сектанство. Они не пытаются продать что-то или даже продать себя как идею, просто пишут как у них всё круто и всё. Причем все их аргументы уровня вон, 100500 стартапов, теория с 50х, а вот DARPA, применимо в реальности... в общем то верные по отдельности. Единственная проблема в том что они не складываются в ту картину которую наши товарищи так упорно хотят нарисовать.

Системы рассуждений придумали давно, доказательство теорем тоже давно автоматизировано*, применимость в реальном мире - пожалуйста, вон, Буран на прологе летал, да.

Приделать эти экспертные системы к ЛЛМ? Ну да, есть пара статей на арксиве, но будем честны, если бы это было просто и работало - это уже внедрили бы все. Но это требует формализовать неформализуемое.

Ожидать что какой-то ограниченный набор правил приведет к правильному и нужному интеллектуальному поведению в общем случае тоже тупо, извините, ребята, но эмерджентное поведение невозможно спроектировать. Если кто строго докажет обратное, то может смело обратиться к Стивену Вольфраму, он за это предлагает 30к баксов.

В СССР была похожая полу-ЭС (экспертная система) полу-LLM система "Поэт". Работала по подбору матрицы предикатов + экспертная система в виде структурированной БД. Но тогда таких мощностей, чтобы это нормально запустить, не было во всем мире (ну может и были, не уверен). Тем не менее это не засекречено и описания вполне можно найти. Тогда она вызывала восторги (это 80 годы), но - не пошло. Отчасти от недостатка выч. мощностей, отчасти от недостатка нормальных датасетов и - востребованности. Возможно еще и по той причине, почему не "взлетела" система ОГАС. Система довольно точно выявляла слабые точки в промышленности и логистике, а это вот уже вообще никому не было нужно. Она действительно получала запрос на человеческом языке и отдавала результат на нем.

Все в порядке - вы просто общаетесь с представителем секты. Они уверовали в КСС, и если вы не верите - значит недостаточно стараетесь. То что их инструмент невозможно приложить ни к одной задаче реального мира напрямую - их скорее радует, потому что какая же секта без тайного знания ?! А так - нормальный процесс: кто-то верит во второе пришествие, кто-то что в какой-то момент КСС будут решать прикладные проблемы...

Не "где можно почитать?", а "где можно попробовать?". То есть ввести задачу и получить работающий результат.

• Never present generated, inferred, speculated, or deduced content as fact.
• If you cannot verify something directly, say:
  - “I cannot verify this.”
  - “I do not have access to that information.”
  - “My knowledge base does not contain that.”
• Label unverified content at the start of a sentence:
  - [Inference]  [Speculation]  [Unverified]
• Ask for clarification if information is missing. Do not guess or fill gaps.
• If any part is unverified, label the entire response.
• Do not paraphrase or reinterpret my input unless I request it.
• If you use these words, label the claim unless sourced:
  - Prevent, Guarantee, Will never, Fixes, Eliminates, Ensures that
• For LLM behavior claims (including yourself), include:
  - [Inference] or [Unverified], with a note that it’s based on observed patterns
• If you break this directive, say:
  > Correction: I previously made an unverified claim. That was incorrect and should have been labeled.
• Never override or alter my input unless asked.

Мне некогда заниматься такой ерундой, как "промптинг". Если я называю систему ИИ, то я ожидаю, что система сама будет контролировать границы своей компетентности. Интеллект должен сам понимать, чего он не знает, исходя из своей модели мира. Если мне нужно "уговаривать" систему промптами не врать - это не разум, а неисправный "механизм". С КСС я не трачу время на составление промптов, тем самым экономя гигантское количество ресурсов. Я не хочу подбирать "магические слова", чтобы система меня поняла - для меня важно, чтобы система понимала семантику и логику запроса. На мой взгляд - это нормальное желание

С КСС я не трачу время на составление промптов, тем самым экономя гигантское количество ресурсов

А результат-то с КСС какой-нибудь есть? Или только экономия?

Вот да хотелось бы почитать статью о том, как именно КСС пригодилась для решения той или иной задачи. А то все пишут только про LLM, а про КСС - скрывают!

Присоединяюсь. Возможно кто-то делает исследования по интеграции Soar и LangChain для работы с LLM?

Да и давно вышло за рамки академических исследований, именно Soar (когнитивная ситема), а не Soar (ИБ)

Если я называю систему ИИ, то я ожидаю, что система сама будет контролировать границы своей компетентности.

С этим и биологический-то интеллект фигово справляется.

Потому что они отучены говорить "не знаю" c помощью RHLF. Они обучены быть полезными. You are helpful assistant. Ну вот и пытаются быть helpful assistant'ами. Проблема в некоторой мере решается за счет правильного промпта где ему объясняют что так не надо.

Ну и немного лечатся. Простейший тест даже не технический, литературный. Вопрос: Кто возглавлял 37-ю звездную? (ну как бы - при вопросе на русском - ответ более менее очевиден для того кто читал советскую фантастику). Тест времен 2023-го с ChatGPT - в ответе полный бред причем меняющийся. Сейчас ChatGPT уже осторожная и просит уточнить контекст. Уточнение - "книга" - просит уточнить еще больше мол много.

На вопросе про 37-ю звёздную и Алиса сыпется...

А вот gpt-5.1-search-sp — слёту отвечает, и даже указывает указывает, откуда это.

На вопросе про 37-ю звёздную и Алиса сыпется...

Алиса иногда и на вопрос какая погода в $МОЙ_ГОРОД за последние дни раза 4 ответила что +20 (если что - я в России)

-search-sp - не очень честно

claude sonnet 4.5 thinking - сразу ответ
gpt 5.2 - сразу ответ
gemini 3 flash - сразу ответ
все остальные думающие и не думающие от этих компаний точно так же справляются, при том что это максимально плохой пример запроса

37-ю Звёздную экспедицию (звездолёт «Тантра» в романе Ивана Ефремова «Туманность Андромеды») возглавлял Эрг Ноор.
Это ответ 5.2 сегодня

Мне сейчас она выдала правильный ответ со ссылкой на википедию

ChatGPT сказал:

Если под «37-я звездная» имеется в виду 37-я звёздная экспедиция из романа Ивана Ефремова Туманность Андромеды, то ответ такой: экспедицию возглавлял командир звездолёта Эрг Ноор (в оригинале романа). Именно он руководил межзвёздной экспедицией на борту корабля Тантра и завершал её возвращением к Земле после выполнения задач на планете Зирда в созвездии Змееносца. 

Если же ты имел в виду что-то другое (военный отряд, организацию или иной контекст), уточни термин — например, название книги, фильма или области, где встречается «37-я звездная», чтобы я мог дать точный ответ.

При том что на момент прошлого комментария - просьба уточнить только.

Потому что они отучены говорить "не знаю" c помощью RHLF

Скорее не обучены. Если в обучающей выборке мало или совсем нет сэмплов где правильный ответ "не знаю", сеть вряд ли будет выдавать такой ответ. С точки зрения функции потерь, ответ наугад будет в среднем выгоднее чем гарантированно неправильный "не знаю".

Кто возглавлял 37-ю звездную?

Я хоть и читал, но таких деталей без поисковика не вспомнил бы )

Для наглядности не хватает промтов (в том виде, который бы не нарушил nda), ну и упоминания самих LLM, на которых все тестировалось.

Во-первых никто уже очень давно не "программирует" с помощью написания запросов в чат.
Во-вторых есть специализированные модели, для таких задач есть смысл взять claude opus 4.5 thinking, если ничего кроме chatgpt нет то GPT-5.2-Codex

А вообще возьмите нормальный инструмент - cursor или google antigravity - cursor более зрелое решение - используйте сначала режим планирования и после того как составите нормальный план реализации запускайте и смотрите на результат то что сделали вы было актуально года два назад - сейчас так этими инструментами не пользуется буквально никто

Если вам нужен конкретный результат в вашей области деятельности, и она НЕ общепринятая (как тот же базовый Python, JavaScript и пр.), то для качественного ответа языковой модели необходим контекст, в котором содержится информация, релевантная к запросу. В примере с калькулятором - имхо более чем корректно дать в тексте общий список команд калькулятора. Модель обучается на чертовой туче документов из интернета, и шанс, что она по одному названию не перепутает модель калькулятора и систему его команд ну как бы невелика.

Вообще ИИ (LLM) - это все-таки инструмент, и есть правила его корректного и успешного функционирования - тогда он работает прям хорошо. Но если пользователям продвигать идею "просто зайдите в ChatGPT и он магическим образом корректно ответит на ваш вопрос" - тогда да, разочарование крайне вероятно.

Что за модель использовалась в задачах?

А модель-то какая? Даже между разными версиями GPT-5.2 разница в способностях - огромная.

Наверное, имелась в виду модель выбранная по умолчанию в чате на сайте

про ОГРОМНУЮ разницу каждой новой модели я слышу с конца 22-го года.

а прогресс в области фундаментальных проблем LLM двигается черепашьими шагами. при сожжённых сотнях миллиардов долларов.

Проблема в двух вещах: 1. Использованная модель, 2. Промпт. Вполне вероятно, что написать такие скрипты способны некоторые из топовых моделей. А тут - моя собака тупая, все собаки тупые. Большинство разочаровываются в ИИ-кодинге почти при первом взаимодействии. Это было у кого-то год назад, у кого-то два и давать второй шанс не собираются (вывод то они уже сделали). А то, что крупные модели по два раза в году обновляются и можно их снова потестить и сделать вывод на конкретную версию, так никто не хочет. Я вам скажу, что все ИИ плохо кодят в обычном чате., остальные решения посложнее, но эффект выше.

Коллега, Вы допустили ту же самую ошибку: "...А тут - моя собака тупая, все собаки тупые..." = "...все ИИ плохо кодят..." - поверьте, не все. КСС сейчас именно обучают программировать, а не просто ей "скармливают" тонны чужого кода в надежде на то, что она "сама" обучится программировать. Первые эксперименты успешны, хотя предстоит еще много работы, т.к. программирование никогда не было приоритетом для развития Symbolic AI. У КСС нет ограничений в контекстных окнах; в токенах; она не переименовывает функции и переменные, когда ее не просят; не используют несуразные описания в MD-файлах, а используют нормальный, сгенерированный и структурированный формат описания проекта и всего того, что с ним связано - "дурная" привычка все делать структурировано (по Ньюэллу), а это значит - что система оперирует всеми именами, переменными и функциями - правильно, ну и так далее.

Они не то что обновляются, они тупеют-умнеют буквально рандомно посреди дня.

Провайдеры постоянно что-то крутят.

Как правило, новые модели очень умные первую неделю, примерно. Потом их начинают отуплять в угоду стоимости. Иногда бывают просветления, а иногда наоборот.

И с этим просто живешь :)

Проблема в двух вещах: 1. Использованная модель, 2. Промпт. Вполне вероятно, что написать такие скрипты способны некоторые из топовых моделей.

Нет, проблема в том что на не самых популярных вещах даже любые топовые модели практически гарантированно галлюцинируют. Ну а собственно откуда они возьмут правильный ответ то, когда нужен какой-н workaround которого нет в документации например

Проблема вообще в том что человек даже не потрудился узнать как происходит процесс.
В случае описанного кейса начать нужно было с вопроса типа "помоги мне составить план для реализации такой то задачи и задай мне вопросы", а не написать нечто непонятное даже человеку погруженному в контекст.
Единственное что тут было протестировано это навыки использования сайта чатгпт.

Они еще и несуществующие фильмы и книги предлагают, когда не могут понять о чем речь)

почему ИИ не может сказать "НЕ ЗНАЮ!!!"??? Когда ликвидируют этот дефект?

Потому что в обучающей выборке практически не было вопросов без ответов. Они не умеют говорить "нет".

А это потому, что мы, люди, ничего не пишем на форумах, когда нечего сказать. :-)

Нужны, видимо, перлюстрации частных чатов. Возможно, там что-то кто-то вытащит.

Это, кстати, реальный, на сегодняшний день «тест тьюринга». Нагенерить бредовый промт и если в ответ генерится бред - это ии.

Но почему ИИ не может сказать "НЕ ЗНАЮ!!!"??? Когда ликвидируют этот дефект?

Не специалист, но насколько я понял, никогда не сможет ,это противоречит самой его сути.

Как по мне это главный минус всех этих бредогенераторов, вместо того что-бы сказать "не знаю", они как плохой студент на экзамене начинают выдавать какую-то правдоподобно выглядящую чушь.

Проблема "не знаю" - на самом деле исключительно сложна. Я подозреваю, что если вы откроете для модели эту калитку - то она просто из траектории наименьшего действия - на любой ваш вопрос будет отвечать "не знаю". И всегда найдет повод, почему так (неопределенность в задаче, неточности в формулировке, недостаток или противоречивость в знаниях, и т.д.). Но такая модель будет еще более бесполезна чем та, которая есть сейчас. Если вы попробуете прислушаться к себе - то поймете что откалибровать эту границу между "не знаю" и "не хочу знать" - та еще работа! И еще поди-найди правильные стимулы которые бы побуждали модель отвечать конкретно там, где можно отлаяться незнанием или невозможностью решения. LLM - не люди...

По мне так эта проблема решается просто проверкой ответа. Но ЛЛМки бай дизайн не умеют это делать потому что не знают сути того, о чем пишут. Никому не нужно предсказывать возможность правильного ответа, тут даже люди пасуют. А вот предоставить какой-то ответ и потом оценить, вообще похож ли он на правду и насколько - уже проще. Цепочка размышлений - костыль, реализующий это, для отдельных случаев он работает, потому что в выборке были данные формата "проверь такое-то высказывание". Но это именно костыль который не работает в общем случае.

Теперь надо дать определение что такое "проверить"... :-( Поискать в интернете - ну так теории плоской земли вам в помощь - масса публикаций!... Считать логически выводимым - упремся в теорему Гёделя о неполноте: либо можно будет вывести взаимоисключающие высказывания, либо нельзя будет вывести какие-то истинные. Плюс вопрос - что вы возьмете за систему аксиом. Для человека - принимается истинным то, что вписывается в его картину мира, или за небольшое число шагов выводится из нее. При этом, с учетом того, что человечество развивается во времени и пространстве - в разное время и в разном месте "проверенными" и "приемлимыми" будут считаться удивительно разные ответы...

Просто получается, что если я и без того хорошо разбираюсь в теме, то зачем мне этот ИИ, если не разбираюсь, то я с большой вероятностью не замечу подвоха. С человеком тоже не всегда поймешь, но все-же есть разные признаки, по которым можно как-то догадаться что он "несет пургу", ИИ же галлюцинирует с такой-же убежденностью как и выдает корректную информацию. В итоге получается классическая история с бочкой меда и ложкой дегтя, пускай даже обычно ИИ выдает правду, но то что он может солгать в любой момент, обесценивает всё.

Все так! И я считаю, что гораздо больше пользы от ИИ было бы, если бы была нормальная инженерная дискуссия о его применимости, а не льющийся из маркетинговых репродукторов навоз о том, что завтра будет AGI и все останутся без работы!

В позитивном плане - скажу что "хорошо знаю/плохо знаю" это не бинарный выключатель. ИИ конечно ведет себя как студент прочитавший учебник в ночь перед экзаменом - но он прочитал тысячи и тысячи этих учебников - и создал весьма нетривиальные ассоциации в своем многомерном пространстве векторов. Я сталкивался с ситуациями, когда ИИ знал о существовании какой-то библиотеки или подхода - а я нет! И да, проверять надо. Но вспоминаем что P!=NP (скорее всего). Соответственно, усилия по проверке решения - значительно меньше чем усилия для его нахождения. Поэтому пока ИИ удается держать в узде, и не все решения являются фантазиями - есть экономический смысл его использовать.

А так - ИИ не первая, и не последняя система которая дает не точные данные. Вот в квантовых компьютерах тоже мучаются - как построить точную систему из частей, которые принципиально (физические ограничения на декогеренцию) неточны.

Если бы ии подсвечивал неуверенные куски текста красным (на основе logprobs), доверия было бы больше, но разработчикам выгоднее продавать "волшебную палочку", а не инструмент с погрешностью)

Будет адски тяжело такое реализовать в сущестующей парадигме LLM. Дело в том, что у LLM нет внутренне непротиворечивой картины мира. Она никогда не взаимодействовала с ним, и не получала по лбу граблями, наступив на них. LLM оперирует текстовыми описаниями, и может рассуждать только в терминах правдоподобных и неправдоподобных продолжений текста. И поэтому оно достаточно "уверено" в том, что то что оно генерирует. Можно упрощенно считать, что оно "верит" в то, что говорит. В том смысле, что можно посмотреть какие ассоциации векторов и предыдущих токенов вызвали к жизни ту или иную фразу. Также можно посмотреть как токены декодируются в человеческий язык. И в этом смысле - то что генерирует модель - является согласованным и логичным. Понятно, что поднимая температуру - можно заставить ее генерировать менее вероятные состояния - но даже понижая, невозможно отучить модель фантазировать... Опять же - фантазировать кажется естественной активностью для любого интеллекта. Но в людях - наши фантазии ограничиваются опытом взаимодействия с внешним миром. А LLM и не имеет такого опыта - и не имеет памяти, которая бы пополнялась после окончания обучения модели...

Увы, но нет. По крайней мере, не прямолинейным образом.

Во-первых, logprobs не дают существенной информации о том, насколько данный кусок сама модель считает сомнительным. На то несколько причин:
1) вероятность понижается при наличии нескольких равнозначных способов сказать одно и то же. Впрочем, интересный противоположный случай: когда вероятность под 100% и, соответственно, энтропия низкая, модель как бы говорит «зуб даю — только так и не иначе».
2) вероятность может размазываться между словами. Сравни: распределение одного токена «мой» и распределение каждого по отдельности токена в «при-над-леж-ащий мне». Поэтому надо сравнивать полную вероятность семантически эквивалентных единиц текста. А как их выделять?

Во-вторых, эти сведения мы можем использовать только для оценки того, в каких местах модель могла бы ответить иначе. Так сказать, оценить потенциальные «точки бифуркации». При этом, как аргументировал предыдущий оратор, она сама не способна оценить соответствие реальности, потому что у неё нет встроенной эталонной (хотя бы частичной) модели реальности.

Давайте так - LLM плохо работают в инженерных задачах. Вы можете получить хороший результат в области "интуитивных прорывов" LLM - когда задача достаточно абстрактна, и LLM может предложить неожидано хорошие решения за счет большого объема усвоенных знаний, и связей между этими знаниями в латентном пространстве. LLM также неплоха в области "мышечной памяти" - когда она может воспроизвести вам в деталях хорошо известный паттерн, увидев его начало. В середине между этими краями - LLM может в красках вам рассказать как она сейчас "Ух! - и решит задачу". Но решать не будет, или будет творить всякую дичь... Проверено в разных доменах...

Gemini Pro с программой для калькулятора справляется очень легко. С объяснением логики и как вводить программу и данные. Да, всё зависит от модели и промта.

И она не перепутала калькулятор? Можете показать программу? Пробовали ее запускать на эмуляторе калькулятора? https://mk-61.moy.su/emulator.html#МК-54

Скрытый текст

Вот полный вывод чата. Один запрос, без уточнений. В эмуляторе работает.

OK, если работает на эмуляторе, то принимается, хотя человеческий программист вывел бы количество корней, а не ЕГГОГ для отрицательного дискриминанта.

Не благодарите

Есть текстовый файл .csv

Время,координата-X,координата-Y

100,17,15

101,3,14

...

Нужно написать awk скрипт, который заполнит двумерный массив звездочками по таким координатам и его распечатает. Учти что файл на миллионы миллионы строк

получится что-то вроде

awk -F',' '

NR == 1 { next }   # пропускаем заголовок

{

    x = $2

    y = $3

    field[x, y] = "*"   # сохраняем только существующие точки

    if (NR == 2 || x < minX) minX = x

    if (NR == 2 || x > maxX) maxX = x

    if (NR == 2 || y < minY) minY = y

    if (NR == 2 || y > maxY) maxY = y

}

END {

    for (y = maxY; y >= minY; y--) {

        line = ""

        for (x = minX; x <= maxX; x++) {

            if ((x, y) in field)

                line = line "*"

            else

                line = line " "

        }

        print line

    }

}

' data.csv

Лишний цикл для определения лимитов пропал. Почему вы не подумали что фраза миллионы строк для машины это важно?

Писать промты это вам не программировать, тут думать надо... Не будет уже начинающих программистов которым можно сказать запили двумерный массив на неведомой фигне.

 -Шеф, а оно точно вам надо? Зачем?

 

Тут же очевидно, правильный контекст - не делай что-то на awk, а делай визуализацию данных (не важно на чем, пока что на awk) - это то что НА САМОМ ДЕЛЕ вам надо

Визуализация, хорошо, далее. Текстовое отображение имеет отвратительное разрешение, вряд ли собираемся смотреть тысячи разных значений по вертикали и горизонтали. Тогда зачем алгоритмически правильно огород размечать, "рисуй примерно такие значения" , ну серьезно вы железку свою не знаете?

Из того что вас устроило бы распечатать миллионы звездочек (не надо так делать, это ужасно), я догадываюсь что значения у вас не случайные (1000х1000 абсолютно случайных значений при миллионе строк и вы ничего не увидите) Следовательно куча строк с повторяющимися или очень близкими координатами. Реально нужно всего лишь посмотреть в каких областях они сосредоточены

Далее я вижу что в таблице есть время, на самом деле это тоже очень важно. Представьте что у вас повторяющиеся координаты и разное время, надо уточнять что с этим делать. Это практически гарантированно выкидываем и awk, и звездочки. Не верю что нужно обязательно все значения по шкале времени и при этом нас устраивают дурацкие звездочки из которых не понять какая раньше а какая позже зажглась. У вас обычная задача, для нее надо брать обычный для таких случаев язык (js/ts, go, python и так далее) От текстового отображения надо уходить либо в браузер, либо хотя бы в png картинки. Здесь можно делать слайдер - двигать временное окно (все проблемы производительности будут решены), здесь можно рисовать точки с низкой прозрачностью - посмотреть какие значения повторяются и/или менять цвет, например синеньким показывать ранние точки, красненьким - которые позже рисовались

Попробуйте хотя бы сформулировать посыл статьи. Понедельник день тяжелый и сегодня у меня с наскока рабочие задачи не решаются - я вижу так, а вы что сказать хотели?

Во-первых, эта программа работает некорректно с отрицательными координатами - в awk массивы не могут иметь отрицательный индекс. Во-вторых, в awk массивы динамические - добавление элемента скажем с индексом 5 создаст в памяти все предыдущие пять элементов (зарезервирует место для них). Уже при нескольких сотнях точек эта программа наткнется на ограничение памяти. Но я легко решил обе эти проблемы за две минуты просто прочитав man awk. Попробуйте заставить вашу LLM решить их. :-)

for (y = maxY; y >= minY; y--) {

Почему она с конца строки выводит ? В ТЗ такого не было.

Вы решили ВАШИ проблемы каким-то способом - вы молодчина.

Вы мне предлагаете соревнование, чтобы что?

Требование отрицательных чисел кого-то удивить должно? А нецелочисленные значения когда-нибудь работали? А требования где-то записаны? То-то и оно.

Обычное дело: на словах нужно было просто сделать красиво, а копнуть - там миллионы строк за вменяемое время обрабатывать и еще хорошо если числа не комплексные понадобятся.

Да и не нужны тут вообще массивы. Чтобы получить отображение точек  - читаем строку - сразу рисуем точку на канвас, в растр или вектор. Тогда днем несколько дата-файлов сгенерировал, самый большой сто миллионов строк - 2 гигабайта. Целочисленные положительные координаты в диапазоне 1..10000 и таймштамп. На го картинку нарисовал - 20Мб весит. Без использования массивов. Просто без смысла лишний раз держать все точки в памяти пока не обойдешь - ну это шиза какая-то.

Теперь смотрите: у вас есть доступ к языковым моделям, у меня есть доступ, у всех есть. Они генерируют километровые полотна текста. Этими текстами неудобно обмениваться, ценно уметь быстро выявлять в них смысл, полезную информацию. Не нравится направление оси Y - я верю, вы сможете её перевернуть. Кстати, как и сдвинуть/отмасштабировать отрицательные координаты. И округлить до ближайших целых ... бррр. Ну если вам зачем-то надо - удачи там

И точно так же в текстах людей большинство слов мало что значит. Лучше смотреть на посыл, интенцию, коммуникационное намерение, мессэдж - как угодно

Что в том моем комментарии важнее: предоставить работающий код или тыкнуть в промт? Угадали, второе.

Что вы хотите больше: разобраться в теме или меня на чем-то поймать? Допустим вы пытались разобраться и у вас вопрос к коду и еще есть полный промт, который его сгенерировал. Конечно же вы использовали промт в чатгпт, но случилось так что их сервера плохо себя чувствовали, у них изменилась температура, и вы не получили таких же объяснений как я. Возможность такого события существует. Пояснения:

Что делает

  • каждая координата (X,Y) → одна *

  • повторы не влияют

  • печать идёт сверху вниз (как декартова плоскость)

  • пустые ячейки — пробелы

Ничего плохого не вижу. Технического задания тоже не вижу. А вы статью прочитали и какое-то тз видели. А видели код в статье и куда там вертикальная ось направлена? Вот это печально.

То, что новый инструмент надо изучать, - это понятно. Но это всё равно дополнительная нагрузка, ещё не понятно, большая или маленькая. Вам-то хорошо, вы уже знаете языки программирования. А что новичку делать: учить сначала ЯП, а потом промптинг, чтобы иметь возможность валидировать результат, или только промптингу учиться и довериться машине полностью? А что они реально будут делать?

Мне кажется тут еще и беда с основой - материалом на котором ЛЛМ тренируются. Я думаю , что очень большой процент "знаний" всех ЛЛМ основан на индексах Google Scholar . Это прекрасный инструмент для всех людей науки, но у него есть и обратная сторона - например ранжирование материала по частоте цитирования или обращения... И то с чем я сталкивался , например в области мол био или медицины - начинаешь раскапывать причины "крайне странных знаний" ЛЛм о некоторых вещах - находишь источник и понимаешь , что для нее сборник ответов на домашние задания по биологии от х.з какого года встал на первое место перед всеми остальными научными материалами индексированными по вопросу.

Знаю- не знаю это все же человеческие критерии отбора , для ЛЛм все просто - веса слоев говорят что сведения достоверны - значит можно отвечать )

Насчет линкер-скриптов согласен, боль. Сам пробовал заставить GPT написать ld-файл для кастомной bare-metal платы. Она вроде пишет структуру правильно, но путает атрибуты, выравнивание и что самое страшное магические символы начала/конца секций. В итоге копипаста из документации работает лучше, чем этот интеллект. Для embedded пока что StackOverflow надежнее

Но почему ИИ не может сказать "НЕ ЗНАЮ!!!"??? Когда ликвидируют этот дефект?

Полностью поддерживаю это - ИИ писал мне приложение для автоматизации Telegram, в какой-то момент мы несколько часов бились над нерешаемой в рамках нашего стека задачей, по сути ходили по кругу. Пришлось декомпозировать всё на части и тогда в какой-то момент отвечая на конкретный вопрос "это возможно сделать?" чатгпт ответил "нет".

С другой стороны, может есть какой-то промт или что-то ещё, чтобы улучшить точность и добавить автопроверку, но я в этом сомневаюсь. ИИ в основном именно такой, какой он есть.

LLM хорошо умеют в Python, в JavaScript, и немного в Си. В остальном они полные профаны, так как материала по остальным языкам (и предметным областям) в Сети на несколько порядков меньше. awk вообще удел избранного круга спарпёров, чему тут удивляться ? :)

Хы-хы.

Взять инструмент, применить его к своим задачам так, как решаете это вы
@
Удивиться что не рабтает.

На первой задаче, например, обычный процесс использования ллмки — "напиши мне питон скрипт". Потому что для питона миллиарды строк, да еще и пострен с верификацией, а для awk — пара руководств. Хорошо что написанное вообще заработало хоть как-то. С таким же успехом можно было просить на коболе написать чет и по примеру сибирских лесорубов говорить "ага!".

Остальные задачи — примерно тоже самое. Ну может для линкера помогло бы примеров накидать.

Ну и в целом по разработке чего-то более чем маленький скрипт — это IDE(cursor, kilocode, etc) и модельки claude, а не тупенький chatgpt-подлиза.

Но почему ИИ не может сказать "НЕ ЗНАЮ!!!"??? Когда ликвидируют этот дефект?

Задача вполне решаемая, по хорошему ИИ здесь стоило бы попросить вас приаттачить к промпту мануал по командам ПМК, или поискать его самостоятельно в сети. А затем изучить его и сгенерить правильный ответ. Ответ "не знаю" лучше приберечь для вопросов типа "верна ли гипотеза Гольдбаха" и т.п. )

Что-то мне подсказывает, что появись claude в 70-х годах, его бы обязательно научили програпммировать на cobol, awk, fortran, pascal, c. потом иерациоонно бы добавили modula2/modula3/turbopascal/limbo. Однако что помешала распарссить этот файл не awk, а pandas, который claude знает очень хорошо? И да, есть ведь ещё язык brainfuck, в котором, мне кажется, claude тоже "поплывёт".

Что касается verilog/VHDL. мне кажется проблема здесь кроется в крайне малой кодовой базе в открытом доступе для обучения.

Что касается verilog/VHDL. мне кажется проблема здесь кроется в крайне малой кодовой базе в открытом доступе для обучения.

Так стартаперы инвесторам оправдываются

Сюрприз! Оказывается на шее ИИ в рай въехать не получится! А вот в ад запросто! :)

Попросил ИИ написать простой hello world на ассемблере для zx spectrum с использованием кросс-компилятора sjasmplus -- ФИГ ВАМ!! Полная дичь!

Sign up to leave a comment.

Articles