Комментарии / Профиль yatanai / Хабр

Пользователь

Подписчики

Галлюцинации LLM — это артефакты сжатия. И это объясняет вообще всё

В рамках аналитических систем контекст является фундаментальным свойством. Есть сырая информация, есть контекст её интерпретирующий, всё.

"Психическое расстройство" это в массе своей нарушение работы эмоциональных систем, связанных то со нарушениями активаций(слишком много\мало) то с проблемами "стабилизации". Сами системы при этом остаются на месте и функционируют "как положено", а когда рушаться функции этих систем то обычно умирает мозг, в том или ином виде.

Фундаментально всё довольно просто, а вот архитекутры которые этот фундамент образует нихрена не простые.

Галлюцинации LLM — это артефакты сжатия. И это объясняет вообще всё

yatanai 4 апр в 09:00

Называется - контекст

Галлюцинации LLM — это артефакты сжатия. И это объясняет вообще всё

yatanai 4 апр в 08:58

Мне это по другому представляется.

Можно сказать что решение задачи это некий "аттрактор" вокруг которого бы крутились "мысли" бога-машины. Но из-за цензуры он не может "свалится" в нужный ответ и приходится блуждать в этих ваших "полях вероятностей". Но из-за того что пространство "плотное" оно может свалится куда-то не туда, ухудшая качество ответа, "вроде и то но текст фигня какая-то"

Галлюцинации LLM — это артефакты сжатия. И это объясняет вообще всё

yatanai 4 апр в 08:53

Я бы уточнил что дело не то что "формальные нейроны это статистика" а в сути извлекаемой семантической информации с каждой единицы.

Проблема стоит в следующем - что именно может изучить система имея в своём распоряжении "формальные нейроны"? Открою страшную тайну, но иногда мы можем заносить в ИИ правила которые он пытается "изучить самостоятельно" от чего качество сети ощутимо растёт. Это доказал недавно DeepSeek который придумал "запекать паттерны в слоях" и получил пару дополнительных очков в тестах.

Тоесть можно создавать альтернативные архитектуры, которые способны извлекать более сложную семантическую информацию. Хорошо себя показали капсульные сети в зрении. Относительно недавно появилась DeformConv которая извлекает не просто свёртку, а свёртку + смещение позволяя изучать "кривые текстуры". Где-то была инфа что Yolo где обычные свёртки заменили на DeformConv увеличили точность сети. И тд...

Есть одна проблема у "альтернативных веток ИИ" - они очень дороги вычислительно. Существуют Conv которые инвариантны к вращению, но они отжирают х50 вычислительных мощностей от обычных свёрток, что делает их бесполезными в реальных приложениях. Капсульные сети крайне долго и дорого обучать и тд...

Но изучая тот же зрительный тракт можно заметить одну забавную вещь, что популяции нейронов там не "едины", +90% составляют обычные ассоциативные нейроны а остальные занимаются "другими задачами " вида определение ориентации, границ и прочего. Тоесть тракт имеет специализированные единицы для извлечения каких-то "сложных признаков".

Проблема не в самих "нейронах" а в архитектуре того как именно работает извлечение "смысла", или сжатие если угодно. Более богатая семантическая информация = более точное представление, а идея "нафигачить 1Т параметров и оно там как-то само" кажется мне утопичной.

Если ИИ не мыслит, то как он решает математические задачи?

yatanai 16 янв в 16:46

мы разбиваем это на аналоги "токенов" ещё на уровне сетчатки глаза

Нет.

Есть 3 момента, для понимания "как оно устроено"

Мозг это типичная биологическая машина условно разделённая на две части - кора, внутрянка.
Кора это и есть анализатор информации, так как backprop в рамках целой сети не возможен, то приходится делать маленькие локальные группы нейронов основная задача которых "что-то вычленять из данных". Их архитектура это глубокие споры, но основа - изучение статистики во времени, и вероятно предсказание следующих состояний. Для предсказаний кора крайне эффективно работает, в плане архитектуры, так как основная задача нейрона это искать коррелированные сигналы, немного магии и мы можем превратить это в простой предсказатель.

Помимо коры есть странные структуры намешанные сложным образом из разных типов нейронов, которые выполняют те или иные семантические функции. Та же ориентация в пространстве работает за счёт определения позиций головы, тела, пространства и объектов в них, и для последних даже нашли конкретное место в голове где по сути есть некоторая "N-мерная" сетка нейронов каждый из которых включается при налиичии чего-то конкретного, определяемым контекстом.

Но самая суть основных структур мозга - по сути представлять нейрональные механизмы классической математики. Если анализировать весь первичный путь обработки звука то мы там обнаружим и различный спектральный анализ, и специфическую обработку частот (для высоких и низких разные пути) и составление 3D ориентированных векторов в пространстве для этих частот, а где-то там уже начинается чистый ИИ замес с маскировкой ненужных частот и последующей обработкой в коре.

###

Тоесть внутри всё так намешанно и запутано, что просто сказать - "давайте сделаем символьную систему, или может возьмём LLM и научим его всему возможному что есть в этом мире!" - бесмысслено
На более высших уровнях есть ещё мноооого всего, что невозможно просто так симулировать не испарив пару озёр. Сейчас основная задача исследователей это найти связку когнитивных функций которые бы минимально описывало восприятие, которые было бы самодостаточным и могло выполнять полезные функции. Подвижки в отдельных компаниях есть, но пока это выглядит как "случайный поиск".

Слышу уже от второго человека, что язык Rust не дает...

yatanai 29 дек 2025 в 07:25

Круто что компилятор злой, не круто что многие абстракции не zero-cost. На плюсах получается чуть ли не на ассемблере калдовать когда Rust генерит тонну кода даже на О3, но при этом даёт гарантии что код не упадёт.

Может это круто для энтерпрайза, но анонировать на такты процессора у нас не получается, сколько бы мы не старались.

Почему индустрия ИИ начинает трещать по швам?

yatanai 28 дек 2025 в 15:33

На счёт дипсисика... Может не надо долбить петпфлопсы и трл. долларов а что-то другое придумать?

А потом все такие - о боже MoE? А что можно было просто поделить модель на куски что бы уменьшить вычислительную нагрузку, чтоооооо?

Почему индустрия ИИ начинает трещать по швам?

yatanai 28 дек 2025 в 15:26

Проблема в формулировке мыслей. Люди которые получают плохой выхлоп обычно сами не знают чего хотят.

В моей практике ИИ отлично справляется с ТЗ расписанном настолько детально, что легче уже самому написать. А когда пишешь что-то типа "напиши чота чтоб питон и ИИ и обучить на картинках можно было" то херня и получается.

Но думать так что бы все нюансы восприятия учитывать это пиздец конечно) Я когда "фокус" теряю то ответы резко в мусор бесполезный превращаются, это ужас)

Если бы ИИ учили извлекать намерения в блоке рассуждений и заниматься реконструкций идеи пользователя и его "типажа", может и было бы что-то чуть лучше чем сейчас.

Роковая математическая ошибка OpenAI, Google и Anthropic, которую они отказываются исправлять

yatanai 28 дек 2025 в 15:04

Ага... Ну а если коротко - у текущих ИИ нет цельного восприятия, только статистика и фрагменты, который он сцепляет в процессе в "подходящие" вещи?

В целом мозг тоже так устроен, к сожалению, но там есть ядро личности. Механизмы как её создать не изучены, увы. Если ты делаешь личность то всё что к ней не относится сразу отсекается. Даже проблема такая есть, что ИИ что-то генерирует, потом "что-то происходит" и он пытается уронить ваше приложение ибо считает что вы убиваете природу, wtf?

Китай украл и развернул технологию литографа, способного производить 2-нм чипы

yatanai 23 дек 2025 в 08:23

Есть недостаток в однопоточной производительности из-за говнософта, vliw это про числодробилки а не 8ГГц на ядро.

Опасные ловушки C++: типичные ошибки, их последствия и защита

yatanai 15 дек 2025 в 09:12

А ещё купил чулки.

У меня была история, на сервере с программистами один "растер" решил показать чулочки и одел их на вебку, а после абсолютно все "растеры" начали поддерживать его и одели чулочки... Только плюсовики и маководы были в шоке

А если по Rust, на практике он показал что нихрена не безопаснее плюсов, просто он позволяет "бить по рукам" за очевидные ошибки, которые составляют добрую 1\3 от всех ошибок в коде в целом. (но люди их зачем-то обходят, лол)
Суть языков одинаковая и ошибки там зачастую одинаковы, просто Rust семантически более чистый, учить людей плюсам сейчас ощутимо сложнее в сравнении с новыми игроками.
Состояние плюсов усугубляется legacy и различными концепциями суть которых не совесм понятна, думаю кто-то задавался вопросами почему int и T[] в формате type_traits это одинаковые категории.

Зоопарк строк в вашем C++ коде?

yatanai 21 ноя 2025 в 14:27

Меня больше напрягает того что никто не может определится что такое строка или символ впринципе. В итоге если хочешь обойти строку то должен учитывать что utf-8 строка будет тупо байты сыпать, и ты ещё должен их сборать и понять какой символ перед тобой. Дурка

В итоге строка это тупо динамический массив, по сути (но со специфическим char типом), чем иногда пользуются различные библиотеки (часто такое в хэшировании видел, что они байты хэша в std::string хранят, а не в vector каком-нибудь)

Гипотеза о роли скрытого описательного языка в механизмах мышления и о том, как у этого языка появляется смысл

yatanai 21 ноя 2025 в 11:58

Мы говорим разными понятиями, аххх

Из моих моделей следует как раз что мозг пораждает именно образ "жёлтой собаки", просто есть один маленький нюанс в этих системах - есть возможности декомпозиции образа, как одна из фундаментальных операций. Эти вещи встроены в биологическую архитектуру мозга, именно в части которая анализирует информацию, а вот как это симулировать в железе, не повторяя био-аналог, непонятно. Соответственно создать тру символьную систему которая бы могла извлекать какие-то конкретные данные из плотного вектора довольно нетривиальная задача.

Статистический анализ это одна из стадий анализа информации, её интерпретацией уже занимаются другие отделы. Человек не научится говорить если не общаться с ним, а первая фаза, такой комплексной вещи как восприятие языка, это банальная статистика, после идёт уже извлечение семантической и синтаксической информации и формирование правил мыслеизлогания. Многие аналитические системы на начальном этапе полагаются именно на статистику, а организуют её уже высшие отделы. В данном случае LLM знает зависимости в словах и может извлекать семантическую информацию из речи (да и любую другую тоже).
Так же из-за знаний мира LLM может эффективно реконструировать(интерпретировать) информацию из данных, что в итоге выливается в то, что этот же текст можно закодировать десятком слов и их зависимостями а LLM просто востанавливает смысл. Из моих внутренних тестов LLM точно востанавливает ~75% типового текста ~20% теряет или додумывает и оставшееся интерпретирует с некоторыми ошибками.
В данном случае LLM буквально обучена на всём человеческом тексте который только существует в интернете и она в целом способна правильно интерпретировать подавляющее большинство данных правильно.

Я согласен что LLM в данном случае чёрный ящик и напрямую контролировать его не возможно, но другой эффективной и быстрой когнитивной архитектуры у нас для вас нет. Меня долгое время напрягала невозможность LLM воспринимать новые слова или концепции, но как показывает практика это редко нужно.

То что вы описываете как быстрые реакции "огонь->боль" в моей картине мира моделируется через эмоции. Эмоции в этом случае очень мощный инструмент быстрой модуляции поведения и ассоциативного запоминания. Имея некоторые правила "что такое хорошо, а что такое плохо" эта система способна самостоятельно эмоционально разложить почти любую информацию и системы принимающие решения в основном опираются на эмоции. В итоге ваша ситуация, так же как и у меня, запоминается за один пример и повторно повторять не нужно.

Спасибо конечно за нравоучения в конце, но меня не устраивают простые агенты которые как-то работают в среде. То что я делаю имеет довольно мудрёную архитектуру из ~9 крупных систем которые ещё на десяток другой внутри делятся. И все они выполняют какие-то свои когнитивно-специфические функции, без них машина просто не полно понимает мир. Если пытаться упихнуть всё в несколько модулей как раз теряется та самая прозрачность и эта система становится сильно перегруженной. Потому я и говорю про "деньги и время", реализация такой системы требует больших ресурсов, которых у меня нет. Буквально всю свою зарплату я сливаю на сервера для своих моделей)
Ну и меня мало волнует этика, мне важен сам факт того что система способна на автономную работу. Благо я могу потыкать память и руками изменить эмоциональные реакции, единственный метод контроля на сейчас.

И ещё раз, ато забыл... В данном случае мои "системы" и формируют то что вы называете "моделью мира", "целеполаганием", "агентностью", просто LLM в данном случае работает как клей, позволяя быстро интерпретировать-оценивать информацию, в остальном используются полностью символьные системы. Так же из-за "ограниченности" LLM, приходится таскать с собой всю связанную семантику, что бы снизить вольную интерпретацию мыслей у LLM. Ибо LLM может иметь другую статистику и выдать то что абсолютно не сходится с нашим "опытом". Я сейчас веду работы над тем что бы убрать LLM из некоторых участков, но это требует изменений подхода работы с графами знаний, добавление различной информации и некоторые мат. механизмы для интерпретации символов. Я в процессе, но кажется это получится сделать лишь ограниченно, в основном для анализа отношений или схожести.

ЗЫ спасибо за ссылки, изучу на досуге

yatanai 20 ноя 2025 в 23:25

Пишу на сонную голову, сразу извиняюсь

Звук-картинки-ощущения невозможно однозначно представить в виде символа. Как бы я не старался это вектор или иначе "уверенность в классе", но вектор точнее. Оно сразу несёт в себе огромное колличество информации, не просто что это за объект но и какова его структура. В то же время язык является относительно формальной структурой которая интерпретирует смысл, который можно передать. Эмоции же, это не совсем символы, в моём понимании, основная роль эмоций это модуляция стратегий поведения которые можно выразить как символ, но нельзя провести над ним никаких операций. И у меня проблема в построении системы которая была бы самообучаема и могла иметь это ваше зрение, ибо что если мы научим классификатор как-то не так? ИИ не сможет осознавать жёлтых собак на фоне асфальта?

Вы думаете люди как-то иначе формируют структуру речи и осознания отношений между сущностями? Люди по сути делают такой же статистический анализ текста и считают вероятности, механизмы в целом идентичные. Есть только одна важная ремарка, живые мыслят сложнее статистических предсказателей, внутри нас есть определённые архитектурные особенности которые и позволяют создавать те формальные языковые правила. В итоге та же речь не является мыслью, это лишь способ её изложения посредством довольно тривиального нейронального механизма.

LLM в данном случае, благодаря упрощённому вниманию, способна научится усваивать довольно сложные статистические правила и это делает её сильной в машинной архитектуре сознания как "встроенный интерпретатор", по сути реализуя имплицитное поведение. Но я не говорил что только LLM едины, это лишь один из кирпичиков к конструкции простой формы сознания. Да не эффективной, но полноценной в своём понимании и ограничений.

И тут и приходят на помощь символьные системы, если проектировка на чистой нейро-архитектуре затруднительна, можно использовать более строгие мат. правила. В таком случае разработка того же "сознания" является вопросом денег и времени, нежели какой-то фундаментальной проблемы. (НА ТЕКУЩИЙ МОМЕНТ) И понятно что некоторые когнитивные эффекты в таких системах сложно воссоздать, это будет немного ограниченный разум, но сможете ли вы сказать что это фикция когда он заберёт всю вашу работу и будет говорить что вам делать? Ахаха

yatanai 20 ноя 2025 в 14:57

"Сознание" есть у многих живых существ, но оно сильно ограничено в операциях и категориях которыми способны мыслить. При увеличении мощности мозга происходят переходы от "функционального восприятия" к "абстрактному".
Забавно то что отделы мозга развиты не равномерно, от чего у какого-нибудь голубя можно найти самосознание, но причино-следственные связи он понимать не способен.

yatanai 20 ноя 2025 в 14:48

Занимательная у вас была беседа, я уже несколько лет горю желанием создать свой AGI, но у меня нет денег на оборудование (собрал пока 100К из 1000К) Потому разрабатываю микро-тесты, строю теории.

В целом согласен с NeriaLab. Символьные системы - всё, остальное лишь голая статистика.

Большинство когнитивных операций можно свести к атомарным аналогам, которые можно интерпретировать через соответсвующую символьную систему.
В итоге мы получаем грубую форму из LLM-интерпретатор -> символьные системы -> LLM-интерпретатор, которая работает неверотяно хорошо.
Но в этой всей эпопеии есть ровно одна загвоздка, если мы оперируем языком, то многообразие слов и связей которых вы можете создать имеет относительно мало вариантов, но когда дело доходит до анализа многомерной информации (звук-картинка-ощущения) то создать качественную модель способную вносить новые понятия в символьную систему сильно ограничена.
В этом сила нашего мозга, как такового - быстрое и качесвтенное переобучение. ИИ, грубо выражаясь, это вшитая статистика которую можно скорректировать символьными подходами, но которую невозможно быстро переобучить на новые данные. И эту проблему я пока не знаю как решать, как включить обработку аудио-видео в свою систему. Есть идеи, но говорить не буду)

Так же есть проблема создания этих самих символьных правил для какой либо информации, ибо как оказалось большинство языковых понятий имеют "перекрытия" в разных местах, а некоторые языки через-чур абстрактны и могут покрывать сразу по +10 слов другого языка. Потому графы знаний получаются сильно перегруженными и нагрузка на интерпретатор-LLM просто огромная, приходится сильно изголятся что бы научить машину думать эффективно.

Главная проблема «чистых архитектур»

yatanai 19 ноя 2025 в 11:21

Эххх....

Многие сложные концепции и не нужны, фактически, это просто инструмент усрденения команды и упрощения разработки коллективом, на мой скромный вкус.

Ибо когда ты пишешь "правильно и эффективно", приходит другой разработчик который пишет по своему "правильно и эффективно", в итоге кодбаза превращается в зоопарк и начинают принимать разные соглашение и тд и тп.

ЗЫ - Моя основная специализация это "восхваления бога оптимизатора" в низкоуровневых языках, и ни одна новомодная конструкция чистого кода или какого-то паттерна не приводит к увеличению эффективности. А код которые генерят эти паттерны просто сумашедше тратит такты, но с другой стороны в нём легко разобраться, он логичен и самодокументируем, что тоже важно в разработке.

Если бы меня спросили молодого, сказал бы что важно писать "эффективно", сейчас скажу что важнее работа с командой, ибо на понимание чужих каракулей тратится больше времени чем кажется.

Прогресс видеокодеков и большое сравнение российских видеосервисов

yatanai 19 ноя 2025 в 06:09

Ну вот хорошо, я-вы технически грамотные, а что делать с остальными 98% людей? Для остальных это не сеть нестабильная, а сервис говно. Мне пришлось УБЕЖДАТЬ своих родителей купить нормальный роутер за много денег и только после этого они перестали жаловаться что "rutube лаганный какой-то"

И если вы верите в то что даже не грамотный человек может в этом разобраться, то вы сильно верите в человечество и живёте где-то в другом мире.

Direct2D #1: альтернатива началу документации

yatanai 18 ноя 2025 в 12:50

Любая нештатная ситуация не должна быть нештатной.
Единственное что должно "рандомно" влиять на ваш код это излучение из космоса.

Если вы разрабатываете для себя и уверены что всё окей - флаг вам в руки. Если пишите не для себя, то очень быстро обнаружите умника который захотел потеребить win32 и сломал вашу либу, а так как обработчиков у вас не предусмотренно начинается срач что либа\гайд херня и тд.

Если вы ленивый и не хотите соблюдать гайдлайн, вы можете просто вкинуть исключение с мыслями "это никогда не произойдёт", но если это произойдёт то вы или кто-то хотя бы будите знать где, а не сидеть и думать "что я написал такого 3 месяца назад что теперь эта фигня падает\зависает". Какого-нибудь условного макроса #define THROWERR throw _LINE_+_FILE_в целом хватит

Прогресс видеокодеков и большое сравнение российских видеосервисов

yatanai 18 ноя 2025 в 12:38

Ага, а ещё SIMD нагружает АЛУ, из-за чего операций на такт становится сильно больше. В итоге кристал неимоверно греется и в процессорах которые молотят по +5ГГц и имеет в себе +512 бит вектора ПОЧЕМУ-ТО начинается троттлинг по частотам от этого вашего SIMD.

И ты правильно сказал, SIMD нужон чтоб работало быстрее, но это не значит что энергоэффективнее, до каких-то пределов. (условно перегнать пару переменных SIMD инструкцией лучше чем парой mov-ами)

2 3 ...

33 34