Pull to refresh

Comments 21

Проблема галлюцинаций моделей за последние годы так и не была решена. Однако практический опыт (включение поиска в ChatGPT) показывает, что проблема почти полностью исчезает и взаимодействие с моделью выходит на принципиально иной уровень надежности.

Проблема ни куда не исчезает, она ещё и множится и усугубляется. Возможно для простых вещей, вроде рецепт приготовления супа все нормально, но более сложных - полнейшее фиаско и галлюцинации.

Это отлично видно на математике, где важна точность и логика. Через поиск она находит какую-то работу, берет из нее фрагмент, который косвенно связан. Переформулирует на свое усмотрение и выдает, что "согласно исследованиям/теореме, мы получаем". Смотришь, а там другое, да слова совпадают и даже есть аналогия, но формулы другие, речь о другом. И такое постоянно.

А режим исследования в ChatGPT, вы пробовали смотреть на что он опирается? Там можно посмотреть весь список материалов. Так вот там легко вам может попасться срач на форуме мамочки.ру (условно), где они обсуждали мозги. А ты попросил исследований конкретной темы по неокортексу. Так как модель не может отличить значимость мамочки.ру и сайт с публикацией исследований, особенно когда они рядом в выводе.

Нейронки в текущей архитектуре как были подвержены галлюцинациям, так и будут. Так как проблема не в доступе к информации, не в рассуждениях. Это проблема самой архитектуры, ее ограничений.

по моему опыту 90% галлюцинаций исчезает в режиме поиска.
не важно на что он опирается (загружает) важно что оттуда использует
мамочкиру полагаю релевантный источник для ряда задач

Вот тут вы верно подметили - основная проблема - архитектура. У меня есть подозрение, что сами разработчики уже это поняли - но переделывать - это больше бюрократические процессы, чем технические. Уже сейчас можно работать с данными моделями - но при одном условии - что есть надстройка, которая может эффективно работать с ИИ. Надстройка, которая может управлять процессами логики, отсеивать мусор и выдавать полезный, аргументированный ответ.

я как раз не критикую трансформенную архитектуру. считаю что для достижения среднесрочных целей достаточно по другому обучать. и не использовать ЛЛМ без инструментов.

Бурное развитие нейросетей в последние годы, кажется, сформировало представление, что путь от слабого ИИ к сильному будет эволюционным - то есть, за счёт только лишь развития нейросетей мы получим AGI. Однако, этот тезис не доказан ни теоретически, ни практически. А что, если он и вовсе ошибочен?

когда некий подход позволяет решить задачи которые до этого не решались то возникает разумное предположение что этот подход сможет и больше. насколько больше? трудно сказать до проведения нового эксперимента

Ну да, ну да...общая теория относительности хорошо решает задачи в области икривления пространства, но за 100 лет мы так и не получили антигравитационного двигателя и бытового искривлятора пространства, может быть что-то с самой теорией не то? Это первое. Второе, какие задачи смог решить llm? Развернуть структуру белка?дак и до этого разворачивали, просто этот процесс ускорился.

AGI здесь используется в практическом определении - система способная выполнить 90% задач которые делают офисные сотрудники за компьютером.

Очень ошибочный подход. Если из 10 задач агент будет делать одну таким образом, что будет приносить вред, это тоже 90% успеха, но он будет полностью бесполезен.

Необходимо делить на три категории. Смог, не смог, незаметно ошибся. Именно плохо видимые ошибки нужно снижать до нуля. Неверные цифры в отчёте, удаление свежей статьи на сайте, падение AWS, в конце концов.

определение AGI дано лишь для обьяснения моих заметок
по поводу 10 процентов вреда. проверить всегда проще чем сделать. в случае кода - один агент пишет пишет код. другой пишет тесты.
вообще если почитаете мой тг канал то там в основном критика идеи что llm это путь в agi. да и Карпатый в этом интервью говорит что ожидает еще 10 лет до "AGI"
я уже молчу про проблемы с мультимодальностью

Цепочка рассуждения - это неосознанная попытка внедрить нарративный подход к мышлению.

Вообще использование нарративов в LLM интересная тема для статьи.

расскажите подробнее. лучше с примером

Попробую в выходные написать статью.

Модель воспитана на миллионах человеческих текстов, в которых тысячи сюжетов. Само наличие нарративов выучивает модель двигаться по сюжетной линии эмерджентно, без явного обучения... СоТ пытается помочь модели удержать сюжет, вводя промежуточные точки.

...Chain-of-Thought является прямым использованием этого механизма, заставляя модель создавать эксплицитный, пошаговый нарратив своего "мыслительного процесса", что стабилизирует траекторию и снижает вероятность срыва в менее релевантные области латентного пространства. Срыв нарратива, проявляющийся в виде галлюцинаций, часто является следствием конфликта между нарративным давлением и внутренними весами модели....

Chain-of-Thought модель не умеет после претрейна (стадия обучения на текстах). эта способность появляется после RL стадии (https://arxiv.org/pdf/2501.12948). про стадии Андрей отлично рассказывает в этой лекции https://www.youtube.com/watch?v=7xTGNNLPyMI.
так вот не появляются у моделей способности к цепи мыслей после прочтения текстов с нарративами. возможно мало там логических построений которые можно переиспользовать. может еще почему. В том интервью на которое я ссылаюсь в статье Андрей говорит что то на чем учат модели на претрейн стадии - в основном мусор.
сейчас самый многообещающий подход это синтетические (сгенерированные другой моделью) данные.

СоТ вообще возможен только после того как модель пропиталась нарративами.

Это одна из конкретных сюжетных ролей. Но понимание сюжета село вместе с основным обучением

вы можете подтвердить свое утверждение? примером научной работы или экспериментом?

если конечно любую последовательность слов назвать нарративом - то да не поспоришь)

нет? пирамиды?)

Интересно, почему при таком количестве чванливых комментаторов, нами не сделана ни одна конкурентная ллм и выложена в опенсорс? От прочитанных комментариев складывается ощущение, что где то в шарашках готовится убийца чата гпт или клауде.

Сергей Марков руководит в сбере этим направлением он крутой. чета делают. компута мало. утечка мозгов. да иновации идут из сша или китая (deepseek qwen)

Sign up to leave a comment.

Articles