Comments 21
Проблема галлюцинаций моделей за последние годы так и не была решена. Однако практический опыт (включение поиска в ChatGPT) показывает, что проблема почти полностью исчезает и взаимодействие с моделью выходит на принципиально иной уровень надежности.
Проблема ни куда не исчезает, она ещё и множится и усугубляется. Возможно для простых вещей, вроде рецепт приготовления супа все нормально, но более сложных - полнейшее фиаско и галлюцинации.
Это отлично видно на математике, где важна точность и логика. Через поиск она находит какую-то работу, берет из нее фрагмент, который косвенно связан. Переформулирует на свое усмотрение и выдает, что "согласно исследованиям/теореме, мы получаем". Смотришь, а там другое, да слова совпадают и даже есть аналогия, но формулы другие, речь о другом. И такое постоянно.
А режим исследования в ChatGPT, вы пробовали смотреть на что он опирается? Там можно посмотреть весь список материалов. Так вот там легко вам может попасться срач на форуме мамочки.ру (условно), где они обсуждали мозги. А ты попросил исследований конкретной темы по неокортексу. Так как модель не может отличить значимость мамочки.ру и сайт с публикацией исследований, особенно когда они рядом в выводе.
Нейронки в текущей архитектуре как были подвержены галлюцинациям, так и будут. Так как проблема не в доступе к информации, не в рассуждениях. Это проблема самой архитектуры, ее ограничений.
по моему опыту 90% галлюцинаций исчезает в режиме поиска.
не важно на что он опирается (загружает) важно что оттуда использует
мамочкиру полагаю релевантный источник для ряда задач
Вот тут вы верно подметили - основная проблема - архитектура. У меня есть подозрение, что сами разработчики уже это поняли - но переделывать - это больше бюрократические процессы, чем технические. Уже сейчас можно работать с данными моделями - но при одном условии - что есть надстройка, которая может эффективно работать с ИИ. Надстройка, которая может управлять процессами логики, отсеивать мусор и выдавать полезный, аргументированный ответ.
Бурное развитие нейросетей в последние годы, кажется, сформировало представление, что путь от слабого ИИ к сильному будет эволюционным - то есть, за счёт только лишь развития нейросетей мы получим AGI. Однако, этот тезис не доказан ни теоретически, ни практически. А что, если он и вовсе ошибочен?
когда некий подход позволяет решить задачи которые до этого не решались то возникает разумное предположение что этот подход сможет и больше. насколько больше? трудно сказать до проведения нового эксперимента
Ну да, ну да...общая теория относительности хорошо решает задачи в области икривления пространства, но за 100 лет мы так и не получили антигравитационного двигателя и бытового искривлятора пространства, может быть что-то с самой теорией не то? Это первое. Второе, какие задачи смог решить llm? Развернуть структуру белка?дак и до этого разворачивали, просто этот процесс ускорился.
AGI здесь используется в практическом определении - система способная выполнить 90% задач которые делают офисные сотрудники за компьютером.
Очень ошибочный подход. Если из 10 задач агент будет делать одну таким образом, что будет приносить вред, это тоже 90% успеха, но он будет полностью бесполезен.
Необходимо делить на три категории. Смог, не смог, незаметно ошибся. Именно плохо видимые ошибки нужно снижать до нуля. Неверные цифры в отчёте, удаление свежей статьи на сайте, падение AWS, в конце концов.
определение AGI дано лишь для обьяснения моих заметок
по поводу 10 процентов вреда. проверить всегда проще чем сделать. в случае кода - один агент пишет пишет код. другой пишет тесты.
вообще если почитаете мой тг канал то там в основном критика идеи что llm это путь в agi. да и Карпатый в этом интервью говорит что ожидает еще 10 лет до "AGI"
я уже молчу про проблемы с мультимодальностью
Цепочка рассуждения - это неосознанная попытка внедрить нарративный подход к мышлению.
Вообще использование нарративов в LLM интересная тема для статьи.
расскажите подробнее. лучше с примером
Попробую в выходные написать статью.
Модель воспитана на миллионах человеческих текстов, в которых тысячи сюжетов. Само наличие нарративов выучивает модель двигаться по сюжетной линии эмерджентно, без явного обучения... СоТ пытается помочь модели удержать сюжет, вводя промежуточные точки.
...Chain-of-Thought является прямым использованием этого механизма, заставляя модель создавать эксплицитный, пошаговый нарратив своего "мыслительного процесса", что стабилизирует траекторию и снижает вероятность срыва в менее релевантные области латентного пространства. Срыв нарратива, проявляющийся в виде галлюцинаций, часто является следствием конфликта между нарративным давлением и внутренними весами модели....
Chain-of-Thought модель не умеет после претрейна (стадия обучения на текстах). эта способность появляется после RL стадии (https://arxiv.org/pdf/2501.12948). про стадии Андрей отлично рассказывает в этой лекции https://www.youtube.com/watch?v=7xTGNNLPyMI.
так вот не появляются у моделей способности к цепи мыслей после прочтения текстов с нарративами. возможно мало там логических построений которые можно переиспользовать. может еще почему. В том интервью на которое я ссылаюсь в статье Андрей говорит что то на чем учат модели на претрейн стадии - в основном мусор.
сейчас самый многообещающий подход это синтетические (сгенерированные другой моделью) данные.
Все почему-то думают, что время это некий гарант развития технологии.
Интересно, почему при таком количестве чванливых комментаторов, нами не сделана ни одна конкурентная ллм и выложена в опенсорс? От прочитанных комментариев складывается ощущение, что где то в шарашках готовится убийца чата гпт или клауде.
LLM не обязаны знать — LLM должны уметь. Andrej Karpathy подтвердил мою гипотезу