All streams
Search
Write a publication
Pull to refresh
22
94.4
Датаист @andre_dataist

ИИ-исследователь

Send message

Почему ИИ галлюцинирует и как он учится управлять миром в матрице — лучшие статьи об ИИ за август 2025

Reading time14 min
Views2.3K

ИИ всё чаще выходит за рамки однотипных задач и начинает демонстрировать качества, похожие на человеческие: он рискует, хитрит, ошибается и… делает это с полной уверенностью в своей правоте. В августовском обзоре — статьи о том, почему модели галлюцинируют и как можно сместить стимулы в сторону честности, зачем агентам память и когнитивные карты, как построить мультиагентные системы без хаоса и что значит по-настоящему интерактивный мир для обучения ИИ; от новых методов борьбы с выдумками и систем глубоких исследований до роботов, умеющих готовить завтрак и ориентироваться в реальном пространстве. В этой статье новые архитектуры, метрики и фреймворки, которые уже меняют подход к созданию ИИ-агентов.

Читать далее

Как научить ИИ мыслить по-человечески: разбор WebResearcher и его революционной стратегии

Reading time4 min
Views1.9K

Зачем ИИ нужен блокнот, а не бесконечная свалка знаний? Большинство современных исследовательских агентов просто складывают всё, что нашли, в одно огромное окно памяти, пока оно не превращается в шумный архив, где сложно что-то найти. Но авторы WebResearcher решила пойти другим путём — её ИИ не тащит за собой весь багаж знаний, а регулярно останавливается, выписывает главное на черновик и начинает следующий раунд с чистой страницей. Получается своего рода интеллектуальная прокачка: агент учится рассуждать шаг за шагом, не захлёбываясь лишней информацией, а данные для таких «марафонов» ему готовит целая фабрика сложных задач. Новая стратегия уже показала себя на бенчмарках — и местами обошла крупные коммерческие решения. Как всё это устроено, почему помогает мыслить по-человечески и что будет дальше — разбираемся в деталях.

Читать далее

Как научить ИИ-агентов работать с инструментами без ручной разметки

Reading time4 min
Views1K

Как сделать так, чтобы ИИ-агент уверенно бронировал рейсы, проверял балансы, собирал ответы из нескольких сервисов — и не упирался в кучу искусственных ограничений? Команда исследователей решила взглянуть на этот вопрос иначе: если мир реальных инструментов слишком хаотичен, почему бы не построить для агента полноценную тренировочную среду — с тысячами функций и строгим контролем каждого шага? Оказалось, что такой виртуальный полигон способен научить модели не только формально вызывать API, но и действовать так, будто она действительно понимает происходящее. Что придумали авторы — в подробностях этой статьи.

Читать далее

Агенты, которые не теряют цель: как научить ИИ решать многошаговые задачи

Reading time4 min
Views2.4K

Открыть телефон, быстро найти нужный файл, перенести данные между приложениями — для нас привычная рутина, а для ИИ-агентов с их умением «видеть» экран это настоящее испытание. Важно не просто нажать правильные кнопки, а удерживать замысел: дойти до финала, не сбиться на полпути и не потерять контекст. Крупные языковые модели уже умеют работать со скриншотами и даже рассуждать о шагах, но когда задача требует больше двух-трех действий подряд, начинается настоящее веселье. Почему ИИ так легко «теряет нить», и как свежие исследования учат его держать в голове весь сценарий — рассказываем на живых примерах и с неожиданными находками из мира полуонлайн-обучения.

Читать далее

Эмоции на длинной дистанции: как ИИ учится быть эмпатичным

Reading time3 min
Views644

Почти все тесты на «эмоции» у больших языковых моделей — это короткие реплики: вежливый ответ, парочка поддерживающих слов, и всё на этом. Но в жизни всё работает иначе. Когда разговор затягивается, люди уводят тему в сторону, вспоминают старое, возвращаются — и именно тогда важные нюансы легко теряются. Могут ли современные ИИ не сбиться с эмоциональной нити на длинной дистанции, когда речь идёт не о паре фраз, а о десятках страниц и сложных диалогах? Исследователи решили проверить это на практике: собрали стресс‑тест для моделей с объемными, реальными сценариями, в которых приходится дотошно разбирать переживания и поддерживать разговор до конца. И вместе с этим придумали пару довольно интересных трюков, чтобы дать моделям шанс не «утонуть» в потоке эмоций. Как ИИ справился с этим марафоном — и что из этого вышло, читайте далее.

Читать далее

ИИ-агенты выходят на рынок: как строится новая агентная экономика

Reading time4 min
Views3.1K

Когда мы слышим про ИИ‑агентов, многие представляют себе умных помощников. Но что если эти агенты уже сегодня учатся не просто помогать, а напрямую участвовать в цифровой экономике? Они торгуются между собой, обмениваются данными, зарабатывают репутацию, заключают сделки, а иногда — принимают решения быстрее, чем человек успеет моргнуть. Становится похоже на новую игру, правила которой ещё только пишутся. Как устроены эти «песочницы», где автономные агенты учатся жить по своим законам, почему рынок будет меняться гораздо быстрее, чем кажется, и какие подводные камни ждут впереди — разбираемся на свежем примере из исследовательской лаборатории Google DeepMind.

Читать далее

Как мозг предсказывает следующее слово и при чем тут ИИ

Reading time3 min
Views1.6K

Наш мозг всё время пытается угадать следующее слово, почти как современные большие языковые модели. Это не просто метафора: недавнее исследование показало, что предсказания ИИ удивительно совпадают с тем, что происходит в мозге человека во время восприятия речи. Учёные выяснили, что чем точнее ожидание слова, тем меньше усилий требуется мозгу для его обработки, и наоборот. Чтобы доказать это, они посадили добровольцев в томограф, включили им аудиокнигу и сопоставили электрическую активность мозга с оценками предсказуемости из модели. Разберёмся, как именно проходил эксперимент и что эти результаты могут значить для будущего нейротехнологий.

Читать далее

Как обучение с подкреплением перестраивает мышление LLM

Reading time4 min
Views1.7K

Когда говорят о продвинутых ИИ-моделях, чаще всего обсуждают точность фактов или впечатляющую скорость ответа. Но если копнуть глубже, становится ясно: настоящая магия — в умении рассуждать и строить сложные цепочки мыслей. Недавнее исследование показало, что обычное обучение с подкреплением меняет не только цифры в метриках, но и заставляет модель внутренне перестраиваться. Постепенно появляется четкое разделение — где просто выполняется инструкция, а где возникает настоящий план, со своими “давай попробуем” и “а что если”. Оказывается, важнее всего — это скрытая стратегия, которая позволяет моделям ловить редкие инсайты, делать ошибки на совершенно новом уровне и обыгрывать старые методы по всем фронтам. Как это устроено на практике и почему отдельные группы токенов вдруг становятся стратегами — об этом и пойдет речь.

Читать далее

Агенты без скриптов: что происходит, когда ИИ сталкивается с реальностью

Reading time4 min
Views2.4K

Звучит просто: подключил суперсовременную LLM к десятку инструментов — и пусть решает любые задачи в реальном времени. Только вот на практике всё выходит куда прозаичнее. Даже самые мощные модели уверенно работают в лабораторных условиях, где всё строго по шаблону. А стоит им оказаться в живой, шумной среде — появляются ошибки, неожиданные сбои и довольно неожиданные выводы о том, где у современных ИИ-агентов на самом деле слабые места. Новое исследование показывает, что, когда у модели есть сотня способов решить задачу, успех — далеко не гарантирован. Почему даже мощные LLM так часто спотыкаются на пустом месте и что им мешает делать работу, как человек — разберёмся на ярких примерах из нового бенчмарка LiveMCP-101.

Читать далее

Репозитории на автопилоте: как ИИ сам поднимает окружение и запускает код

Reading time4 min
Views806

Открытые репозитории — это кладезь готовых моделей, скриптов и датасетов, но работа с ними порой напоминает сборку конструктора без инструкции. Сначала разбираешься, как всё устроено, потом ловишь баги на ровном месте, устанавливаешь зависимости — и только после этого кое-как запускаешь нужную задачу. А как было бы здорово, если бы сами репозитории умели понимать, что от них хотят, настраивать себе среду и ещё договариваться между собой!

Вот тут на сцену выходит EnvX — система, которая превращает обычные проекты в автономных агентов: они читают документацию, поднимают окружение, выполняют нужные функции и… общаются друг с другом. Получается совсем новый взгляд на то, каким может стать open-source.

Читать далее

Как ИИ начинает понимать чёрный юмор

Reading time4 min
Views688

Уловить тонкую грань между остроумной шуткой и чем-то оскорбительным — часто задача не из простых даже для человека. В мемах всё ещё сложнее: идея прячется на стыке картинки, подписи и культурного бэкграунда. Как объяснить искусственному интеллекту, что вызывает улыбку, а что — горький смех? Оказывается, учить нейросети разбирать чёрный юмор — занятие не только любопытное, но и полезное для понимания того, как машины читают человеческие смыслы между строк. Исследователи решили подойти к теме с новой стороны: они собрали датасет мемов, где шутки далеко не всегда безобидные, и научили ИИ не просто распознавать юмор, но ещё и объяснять, из-за чего тот становится чёрным. Разбираемся, как у них это получилось.

Читать далее

Как оживить научные статьи: превращаем исследования в интерактивных ИИ-ассистентов

Reading time4 min
Views598

Обычная научная статья ― это десятки страниц текста, сложные графики и ссылка на репозиторий где-то в глубине интернетов. Часто кажется, что в этот мир допускаются только те, кто готов неделями разбираться с чужим кодом и настраивать окружение через танцы с бубном. А что если бы статья могла сама «оживать» и превращаться в настоящего ИИ-ассистента, с которым можно разговаривать на обычном языке и сразу запускать любые её методы?

В свежем исследовании авторы предлагают именно это: новый инструмент, который берет научную работу и делает из неё агента-напарника. Теперь из пассивного PDF получается активный собеседник — он объясняет, считает, строит графики и даже сам проверяет свои результаты. Звучит как будущее, которое только что стало чуть ближе.

Читать далее

Что скрыто за характером LLM: читаем поведенческие отпечатки

Reading time4 min
Views969

Задумывались ли вы когда-нибудь, почему две языковые модели с одинаковыми оценками на тестах ведут себя совершенно по-разному в реальном общении? Оценки вроде бы одни и те же, а ощущения от общения — совсем нет: одна охотно подыгрывает, другая спорит до последнего, третья резко меняет мнение из-за незначительной формулировки. Кажется, за сухими числами мы теряем самое интересное — характер и повадки моделей.

Исследователи решили перестать мерить всё под одну гребёнку и попробовали разобраться, какими чертами личности и поведения на самом деле отличаются современные LLM. В ход пошли не только бенчмарки, но и целый профиль моделей — от умения мыслить абстрактно до устойчивости к лести. 

Что оказалось на поверхности, какие неожиданные черты всплывают и почему выбор ИИ — это теперь не только про точность, но и про стиль взаимодействия? Подглядываем в поведенческие отпечатки моделей, чтобы понять: что за личность сидит внутри LLM.

Читать далее

Почему LLM врут с умным видом

Reading time4 min
Views3.2K

Иногда кажется, что большие языковые модели уверены в себе больше, чем большинство людей в понедельник утром. Задаёшь простой вопрос — а в ответ получаешь удивительный факт, на который хочется переспросить: а ты точно знаешь, о чем говоришь или просто угадываешь?

Оказывается, у этой привычки «галлюцинировать» и выдавать ответы даже тогда, когда стоило бы промолчать, есть вполне логичные основания. Проблема заложена ещё на этапе обучения и подкрепляется тем, как мы потом оцениваем работу LLM. Почему даже самые продвинутые модели чаще выбирают угадать, чем признаться в собственном незнании, и что с этим делать — свежее исследование предлагает неожиданно простое объяснение.

Читать далее

Глубокие исследования без границ: выбираем свою LLM и управляем стратегией поиска

Reading time4 min
Views2.6K

Инструменты для поиска и анализа информации на базе LLM становятся все умнее, но есть один нюанс: почти всегда они работают по заранее заданному сценарию. Вы набрали запрос — а дальше модель сама решит, какие источники ей искать, как проверять данные и что включить в отчет. Но большинство таких сервисов не предлагают никаких особых подходов — например, собственные правила проверки, любимую LLM или уникальную стратегия поиска.

В свежем исследовании Nvidia появилась идея: а что, если сделать так, чтобы вы сами могли выбирать, какая LLM будет искать для вас информацию, и описывать свои собственные алгоритмы исследования простым человеческим языком без программирования. По сути, это попытка дать пользователю то самое управление, которого раньше так не хватало. 

Как это выглядит на практике и зачем вообще отдавать в руки человека стратегию глубокого поиска — разбираемся в деталях.

Читать далее

ИИ как соавтор: как агенты меняют науку прямо сейчас

Reading time4 min
Views1.8K

Пару лет назад казалось, что искусственный интеллект в науке — это про умных помощников: они сортируют данные, визуализируют графики, подсказывают формулы, но остаются просто искусными руками для человека. Но теперь всё меняется. На горизонте появился новый герой — научный агент. Он уже не ждет указаний, а сам берется за чтение статей, формулирует свежие гипотезы, ставит эксперименты, а если что-то идет не так — может сам себя скорректировать. Такой ИИ — это не просто ассистент, а почти полноценный соавтор в лаборатории. Пока одни ученые еще скептически приглядываются к этой идее, в биологии, химии и материаловедении научные агенты уже совершают реальные открытия. Кажется, научный цикл меняется прямо на наших глазах.

Читать далее

Vision Language World Model: язык как картина мира

Reading time4 min
Views488

До сих пор искусственный интеллект воспринимает мир как набор пикселей. Но что, если научить ИИ понимать смысл увиденного, а не только картинки? Один из свежих подходов — VLWM: модель, которая переводит реальность в слова и смыслы, позволяя роботам строить осмысленные планы на будущее. В этой статье разбираемся, как агенты научились планировать, проверять гипотезы внутри своей модели мира и выбирать самый разумный вариант.

Читать далее

Почему Text-to-SQL до сих пор ломается и как это исправить

Reading time3 min
Views3.5K

Если вы когда-нибудь пытались получить нужный отчет из базы данных с помощью ИИ — скорее всего, столкнулись с забавной загадкой: почему-то даже продвинутые языковые модели то спотыкаются на связях между таблицами, то забывают ключевую фильтрацию, то просто возвращают не тот ответ. Формально запрос работает, а по сути — совсем не то. Почему так происходит? И можно ли научить ИИ писать правильный SQL, а не гадать до бесконечности?

В новой статье исследователи предлагают необычный подход: они учат модель распознавать собственные ошибки и исправлять логику, а не просто механически менять структуру запроса. Заодно выясняем, насколько такая система помогает избежать классических промахов и что изменится для пользователей, которым важно получать не просто рабочий код, а действительно осмысленный результат.

Читать далее

Память для роботов: как машины учатся видеть мир осознанно

Reading time4 min
Views645

Как научить робота не просто идти по указке, а видеть окружающий мир осмысленно — почти как человек? Сейчас даже самые продвинутые ИИ в роботах часто живут «здесь и сейчас»: увидели диван — пошли к дивану, только камера повернулась — всё забыли. В итоге их навигация напоминает путешествие вслепую, где нет места памяти о прошлом и настоящему планированию. А у человеческого мозга с этим всё хорошо: карта местности в голове и опыт, который легко пересобирается под цель.

Команда исследователей посмотрела, как наше мышление можно перенести на алгоритмы, и собрала для робота не просто память, а целую когнитивную карту. В результате он начинает думать маршрутами, оперировать ориентирами, «удивляться» новому и экономно хранить только важное. Ведь когда машина впервые учится замечать не только объекты вокруг, но и структуру событий — это совсем другой уровень ИИ. 

Как устроен этот подход и что получилось в реальных экспериментах — обо всём по порядку.

Читать далее

Увидел-кликнул-победил: как UItron управляет компьютером по-человечески

Reading time4 min
Views634

Могут ли нейросети действительно пользоваться компьютером — видеть обычный экран, выбирать нужные кнопки, запускать приложения, одним словом, действовать как живой человек с мышкой и клавиатурой? Оказывается, такие агенты уже не фантастика.  ⠀  

В свежем исследовании команда UItron показала, как можно научить ИИ не просто понимать команды, а самостоятельно разбираться в сложных интерфейсах, планировать свои действия и шаг за шагом решать сложные задачи. Интересно, что для этого им пришлось переосмыслить саму идею о том, что значит "опыт" для машины.

Разбираемся, как всё это работает, — в новом обзоре.

Читать далее

Information

Rating
78-th
Registered
Activity