ovsale Oct 23 at 12:23

LLM не обязаны знать — LLM должны уметь. Andrej Karpathy подтвердил мою гипотезу

Easy

6 min

3.8K

Artificial Intelligence

Opinion

Comments 21

proxy3d Oct 23 at 13:12

Проблема галлюцинаций моделей за последние годы так и не была решена. Однако практический опыт (включение поиска в ChatGPT) показывает, что проблема почти полностью исчезает и взаимодействие с моделью выходит на принципиально иной уровень надежности.

Проблема ни куда не исчезает, она ещё и множится и усугубляется. Возможно для простых вещей, вроде рецепт приготовления супа все нормально, но более сложных - полнейшее фиаско и галлюцинации.

Это отлично видно на математике, где важна точность и логика. Через поиск она находит какую-то работу, берет из нее фрагмент, который косвенно связан. Переформулирует на свое усмотрение и выдает, что "согласно исследованиям/теореме, мы получаем". Смотришь, а там другое, да слова совпадают и даже есть аналогия, но формулы другие, речь о другом. И такое постоянно.

А режим исследования в ChatGPT, вы пробовали смотреть на что он опирается? Там можно посмотреть весь список материалов. Так вот там легко вам может попасться срач на форуме мамочки.ру (условно), где они обсуждали мозги. А ты попросил исследований конкретной темы по неокортексу. Так как модель не может отличить значимость мамочки.ру и сайт с публикацией исследований, особенно когда они рядом в выводе.

Нейронки в текущей архитектуре как были подвержены галлюцинациям, так и будут. Так как проблема не в доступе к информации, не в рассуждениях. Это проблема самой архитектуры, ее ограничений.

ovsale Oct 23 at 13:27

по моему опыту 90% галлюцинаций исчезает в режиме поиска.
не важно на что он опирается (загружает) важно что оттуда использует
мамочкиру полагаю релевантный источник для ряда задач

Architect_01 Oct 23 at 13:29

Вот тут вы верно подметили - основная проблема - архитектура. У меня есть подозрение, что сами разработчики уже это поняли - но переделывать - это больше бюрократические процессы, чем технические. Уже сейчас можно работать с данными моделями - но при одном условии - что есть надстройка, которая может эффективно работать с ИИ. Надстройка, которая может управлять процессами логики, отсеивать мусор и выдавать полезный, аргументированный ответ.

ovsale Oct 23 at 13:47

я как раз не критикую трансформенную архитектуру. считаю что для достижения среднесрочных целей достаточно по другому обучать. и не использовать ЛЛМ без инструментов.

ramayasket Oct 23 at 16:30

Бурное развитие нейросетей в последние годы, кажется, сформировало представление, что путь от слабого ИИ к сильному будет эволюционным - то есть, за счёт только лишь развития нейросетей мы получим AGI. Однако, этот тезис не доказан ни теоретически, ни практически. А что, если он и вовсе ошибочен?

ovsale Oct 23 at 16:34

когда некий подход позволяет решить задачи которые до этого не решались то возникает разумное предположение что этот подход сможет и больше. насколько больше? трудно сказать до проведения нового эксперимента

fixikus Oct 27 at 14:06

Ну да, ну да...общая теория относительности хорошо решает задачи в области икривления пространства, но за 100 лет мы так и не получили антигравитационного двигателя и бытового искривлятора пространства, может быть что-то с самой теорией не то? Это первое. Второе, какие задачи смог решить llm? Развернуть структуру белка?дак и до этого разворачивали, просто этот процесс ускорился.

Hardcoin Oct 23 at 21:44

AGI здесь используется в практическом определении - система способная выполнить 90% задач которые делают офисные сотрудники за компьютером.

Очень ошибочный подход. Если из 10 задач агент будет делать одну таким образом, что будет приносить вред, это тоже 90% успеха, но он будет полностью бесполезен.

Необходимо делить на три категории. Смог, не смог, незаметно ошибся. Именно плохо видимые ошибки нужно снижать до нуля. Неверные цифры в отчёте, удаление свежей статьи на сайте, падение AWS, в конце концов.

ovsale Oct 24 at 08:22

определение AGI дано лишь для обьяснения моих заметок
по поводу 10 процентов вреда. проверить всегда проще чем сделать. в случае кода - один агент пишет пишет код. другой пишет тесты.
вообще если почитаете мой тг канал то там в основном критика идеи что llm это путь в agi. да и Карпатый в этом интервью говорит что ожидает еще 10 лет до "AGI"
я уже молчу про проблемы с мультимодальностью

Kamil_GR Oct 24 at 03:00

Цепочка рассуждения - это неосознанная попытка внедрить нарративный подход к мышлению.

Вообще использование нарративов в LLM интересная тема для статьи.

ovsale Oct 24 at 08:14

расскажите подробнее. лучше с примером

Kamil_GR Oct 24 at 08:45

Попробую в выходные написать статью.

Модель воспитана на миллионах человеческих текстов, в которых тысячи сюжетов. Само наличие нарративов выучивает модель двигаться по сюжетной линии эмерджентно, без явного обучения... СоТ пытается помочь модели удержать сюжет, вводя промежуточные точки.

...Chain-of-Thought является прямым использованием этого механизма, заставляя модель создавать эксплицитный, пошаговый нарратив своего "мыслительного процесса", что стабилизирует траекторию и снижает вероятность срыва в менее релевантные области латентного пространства. Срыв нарратива, проявляющийся в виде галлюцинаций, часто является следствием конфликта между нарративным давлением и внутренними весами модели....

ovsale Oct 24 at 17:40

Chain-of-Thought модель не умеет после претрейна (стадия обучения на текстах). эта способность появляется после RL стадии (https://arxiv.org/pdf/2501.12948). про стадии Андрей отлично рассказывает в этой лекции https://www.youtube.com/watch?v=7xTGNNLPyMI.
так вот не появляются у моделей способности к цепи мыслей после прочтения текстов с нарративами. возможно мало там логических построений которые можно переиспользовать. может еще почему. В том интервью на которое я ссылаюсь в статье Андрей говорит что то на чем учат модели на претрейн стадии - в основном мусор.
сейчас самый многообещающий подход это синтетические (сгенерированные другой моделью) данные.

Kamil_GR Oct 24 at 17:52

СоТ вообще возможен только после того как модель пропиталась нарративами.

Это одна из конкретных сюжетных ролей. Но понимание сюжета село вместе с основным обучением

ovsale Oct 24 at 18:13

вы можете подтвердить свое утверждение? примером научной работы или экспериментом?

ovsale Oct 24 at 18:15

если конечно любую последовательность слов назвать нарративом - то да не поспоришь)

Kamil_GR Oct 24 at 19:41

Не любую...

FSmile Oct 26 at 11:06

Все почему-то думают, что время это некий гарант развития технологии.

ovsale Oct 26 at 16:11

нет? пирамиды?)

rikert Oct 28 at 17:29

Интересно, почему при таком количестве чванливых комментаторов, нами не сделана ни одна конкурентная ллм и выложена в опенсорс? От прочитанных комментариев складывается ощущение, что где то в шарашках готовится убийца чата гпт или клауде.

ovsale Oct 28 at 20:54

Сергей Марков руководит в сбере этим направлением он крутой. чета делают. компута мало. утечка мозгов. да иновации идут из сша или китая (deepseek qwen)