All streams
Search
Write a publication
Pull to refresh
23
88.4
Датаист @andre_dataist

ИИ-исследователь

Send message

Инженирия контекста для саморазвивающихся ИИ-агентов

Reading time4 min
Views250

Обычно качество ИИ улучшают двумя путями — дообучая веса или сокращая промты, чтобы всё работало быстрее и дешевле. Со временем короткие шаблоны теряют смысл, а длинные инструкции превращаются в кашу из выжимок.

Оказывается, сила ИИ-приложений кроется не в размере модели, а в том, как “живёт” и развивается их контекст. В роли суперспособности выступает динамичный плейбук — он не боится становиться длиннее, обновляется маленькими шажками и сохраняет тонкие доменные знания. Модель сама учится отбирать, что ей важно, а не просто сжимать всё в краткие подсказки.

В этом разборе — как инженерия контекста помогает ИИ думать гибче и как этот подход работает на практике.

Читать далее

Что, если новые бенчмарки для ИИ станут появляться сами по себе?

Reading time4 min
Views452

ИИ уже хорошо решает сложные задачи, но когда доходит до реальных соревнований и живых проектов, вдруг выясняется — старые подходы к проверке его способностей не работают так гладко, как хотелось бы. Бенчмарки, по которым модели тренируются и друг с другом сравниваются, порой буквально застревают в прошлом: их сложно обновлять, они слишком формальные… а ведь задачи мира куда разнообразнее, чем любые придуманное вручную соревнование.

Но недавно появился неожиданный подход: зачем вручную собирать одни и те же стандартизированные тесты, когда сами наборы данных способны становиться свежими полигонами для ИИ? В исследовании MLE-Smith команда обучила агентов автоматически строить новые, реалистичные задачи прямо на потоке настоящих данных — без участия человека, но с сохранением структуры и смысла.

Почему это важно? Потому что такого рода «фабрики» могут радикально поменять, как мы оцениваем ИИ, и дать ему куда более честное, разнообразное поле для прокачки. В этой статье — как работает эта система, с какими трудностями она сталкивается и почему именно автоматизация бенчмарков может стать следующим шагом для всего ИИ‑сообщества.

Читать далее

Почему тесты на безопасность ИИ-агентов внезапно перестали работать

Reading time4 min
Views1K

ИИ становится всё умнее — и вроде бы уже может справиться с самыми разными задачами в интерфейсе компьютера. Но вот парадокс: в настоящих программах даже самые продвинутые агенты до сих пор неловко кликают не туда, путают кнопки и часто просто теряются. Проблема не только в алгоритмах — не хватает настоящих, живых примеров, как действовать шаг за шагом.

Команда исследователей неожиданно нашла решение там, где его никто толком не искал: на YouTube. Вместо сложной ручной разметки они научили ИИ учиться на туториалах обычных пользователей и вычленять из роликов подробные инструкции по работе с реальными приложениями — вплоть до точек кликов и строк ввода текста. Оказалось, такого обучения хватает, чтобы агенты научились уверенно разбираться в браузерах, редакторах и медиаплеерах.

Почему именно такой способ оказался рабочим? И как это открывает новый этап в развитии ИИ для повседневных задач — без огромных затрат и костылей? Разбираемся, как машины начинают учиться «по-взрослому».

Читать далее

Почему ИИ-агенты ошибаются в простых веб-задачах — и как граф знаний помогает им перестать быть тупыми

Reading time3 min
Views3.3K

ИИ сегодня может писать тексты, решать задачи и даже управлять сайтами — казалось бы, уже почти как человек. Но вот парадокс: самые продвинутые агенты до сих пор ошибаются на простых сценариях и путаются с кнопками или таблицами. Почему решения, работающие в теории, так часто валятся на реальных веб‑задачах?

Недавнее исследование раскрывает неожиданный нюанс. Оказалось, что дело не только в мощности модели или объёме данных — важнее то, «как» агент рассуждает и организует свои действия в сложной среде. Команда предлагает свежий подход: превращать веб и документы в особый «граф знаний», а тестовые ситуации собирать из него автоматически. Такой подход сразу проявляет слабые места даже у топовых ИИ.

Разбираемся, как устроен новый бенчмарк, почему агенты спотыкаются на пути к настоящей автономности, и — главное — что всё это говорит о будущем ИИ, который должен быть и умным, и по-настоящему полезным в наших цифровых задачах.

Читать далее

Как ИИ-агенты учатся по видео на YouTube

Reading time3 min
Views647

ИИ становится всё умнее — и вроде бы уже может справиться с самыми разными задачами в интерфейсе компьютера. Но вот парадокс: в настоящих программах даже самые продвинутые агенты до сих пор неловко кликают не туда, путают кнопки и часто просто теряются. Проблема не только в алгоритмах — не хватает настоящих, живых примеров, как действовать шаг за шагом.

Команда исследователей неожиданно нашла решение там, где его никто толком не искал: на YouTube. Вместо сложной ручной разметки они научили ИИ учиться на туториалах обычных пользователей и вычленять из роликов подробные инструкции по работе с реальными приложениями — вплоть до точек кликов и строк ввода текста. Оказалось, такого обучения хватает, чтобы агенты научились уверенно разбираться в браузерах, редакторах и медиаплеерах.

Почему именно такой способ оказался рабочим? И как это открывает новый этап в развитии ИИ для повседневных задач — без огромных затрат и костылей? Разбираемся, как машины начинают учиться «по-взрослому».

Читать далее

Как ИИ научился делать научные видео — от слайдов до говорящей головы

Reading time4 min
Views953

ИИ уже умеет многое: от сочинения текстов до генерации сложных картинок. Но стоит дать ему реальную задачу — вроде создания научного видео по длинной статье, — и он тут же сталкивается с неожиданными трудностями. Почему же до сих пор самые умные модели часто уступают человеку в таких, казалось бы, рутинных задачах, где важна не только начинка, но и подача?

Новое исследование показало интересный поворот: дело не только в качестве речи или зрелищности слайдов. Ключевая сложность — правильно собрать всё вместе: знания, логику повествования, невербальные детали и даже такие мелочи, как движение курсора по слайду. Именно в этом ИИ часто спотыкается, а не в отдельной “говорящей голове” или красивой анимации.

Разбираемся, как современные ИИ учатся имитировать настоящих докладчиков: что нового придумали исследователи, почему для оценки качества нужен целый набор свежих метрик и как прозрачная модульная архитектура наконец-то позволяет ИИ не просто воспроизводить информацию, а действительно объяснять как настоящий докладчик.

Читать далее

Графики по щелчку: как ИИ-агенты берут на себя работу дата-аналитика

Reading time3 min
Views2.5K

ИИ уже неплохо пишет код для простых задач, но когда дело доходит до сложных данных и красивых графиков, всё начинает ломаться: легенды не совпадают, подписи съезжают, а обработка больших таблиц приводит к ошибкам. Почему машина, способная решать головоломки на олимпиадах, не может уверенно справиться с простой визуализацией данных в реальных задачах?

Неожиданный поворот: новое исследование показывает, что дело не только в мощности используемой модели. Группа учёных из Google предложила решать задачу создания графиков не одиночной нейросетью, а целой командой специализированных ИИ-агентов, где у каждого своя роль — от архитектора до критика. Такой подход значительно превзошёл предыдущие методы и показал стабильные результаты даже на сложных сценариях.

Как устроено это командное ИИ-мышление, в чём секрет их коллективной работы? Разобрались, как машины учатся думать шаг за шагом и почему это открывает новый взгляд на будущее автоматизации аналитики.

Читать далее

Как управлять интернетом вещей с помощью LLM

Reading time4 min
Views2.9K

ИИ сегодня уверенно распознаёт тексты, пишет программный код и подсказывает сложные решения — но как только его просят поработать с реальными датчиками или «умным» домом, всё становится неожиданно сложно. Один и тот же датчик может передавать данные в разных форматах, соединения обрываются, взаимодействие превращается в квест с кучей костылей и кастомных скриптов.

Однако совсем недавно инженеры предложили элегантное решение этой застарелой проблемы: не добавлять «ещё один слой» или велосипедить интеграции, а полностью переосмыслить, как LLM взаимодействуют с миром железа. В основе нового подхода — чистая, структурная логика, где роли чётко распределены и всё работает более похоже на реальную команду, чем на беспокойную толпу серверов.

Почему это важно? Такой сдвиг — не просто удобство для разработчиков, а первый реальный шаг к тому, чтобы ИИ начал по-настоящему работать с физическим миром. Как это получилось, где скрыты ключевые идеи и почему новая архитектура может стать стандартом для всего IoT — рассказываю простыми словами.

Читать далее

Как выжать максимум смысла из тысяч строк кода

Reading time4 min
Views2.4K

Сколько смыслов можно уместить в тысяче строк кода? Этот вопрос становится совсем не теоретическим, когда к делу подключаются современные LLM — им всё чаще приходится разбираться в огромных проектах, где важно не просто “прочитать всё”, а вытащить из бесконечного кода именно то, что нужно. При этом стандартные методы экономят время и память… но нередко теряют самую суть, упуская важные связи между частями программы.

В свежей работе исследователи предлагают неожиданно простой трюк: вместо того чтобы скармливать модели лишние мегабайты, они аккуратно выжимают из репозитория только те фрагменты, которые реально двигают модель к правильному ответу. При этом смысл сохраняется, а мусор уходит.

Оказалось, даже совсем не обучая модель и не вникая во внутренности LLM, можно кратно повысить скорость и снизить стоимость анализа длинного кода — и иногда добиться даже лучшего качества. Как это работает, почему эффект оказался внушительным и к каким деталям тут всё сводится — разбираемся на примере LongCodeZip.

Читать далее

Как ИИ-агенты учатся работать с временными рядами

Reading time4 min
Views1.2K

В мире данных однотипные графики часто выглядят уныло, а работа с ними — еще скучнее: очистка, бесконечные проверки, подбор моделей и объяснения для любопытного начальства. Классические алгоритмы предсказаний временных рядов давно знакомы аналитикам, но когда массив данных огромен, а требования к прозрачности все выше — старые методы начинают давать сбои.

Вместо того чтобы снова изобретать “лучшую” модель, команда исследователей решила взглянуть на задачу по-новому: построить мультиагентную систему, в которой несколько ИИ-агентов делят между собой всю рутину аналитика — от первой чистки до финального отчета. Что они придумали и почему это на самом деле похоже на работу настоящего исследователя? Разбираемся на живом примере из энергетики.

Читать далее

Агент-исследователь: как научить LLM работать с поиском в интернете

Reading time3 min
Views3.4K

Модели давно научились отвечать на вопросы и решать задачи, но в живом поиске по интернету они пока скорее теряются, чем становятся настоящими помощниками. Ведь здесь всё не так просто: обычного запроса не хватает, приходится возвращаться к предыдущим шагам, уточнять детали, сопоставлять факты из разных источников. Команда InfoAgent решила прокачать LLM так, чтобы она вела себя не как угадывающий бот, а как упорный веб-детектив — способный шаг за шагом пробираться через паутину ссылок и находить нужное даже в запутанных случаях. Как устроена такая система, почему старые подходы уже не работают, и что из этого вышло — обо всём по порядку.

Читать далее

Увидел-указал-полетел: как управлять автономными дронами без обучения с нуля

Reading time4 min
Views2.1K

Когда дроны только появились, ими можно было управлять разве что с пульта или через текстовые команды — «поверни налево», «лети прямо», «вверх на два метра». Всё это выглядело немного старомодно и, прямо скажем, неудобно: попробуй опиши словами маршрут, если дрон видит перед собой живую картинку, а тебе надо всё переводить в текст. И вот появился довольно неожиданный подход — вместо текстовых инструкций просто показывать дрону, куда лететь, буквально указывая нужную точку в кадре. 

Теперь команда для беспилотника — это не набор слов, а пиксель на изображении, а значит, связь между вашим замыслом и настоящим полетом стала куда более непосредственной. Модель сама определяет, как лететь к этой точке, одновременно замечает препятствия и быстро реагирует, если что-то изменится. Что получилось из этой попытки «разговаривать» с дроном языком зрения — и c какими проблемами исследователи столкнулись на практике? Всё оказалось интереснее, чем кажется на первый взгляд.

Читать далее

Что будет, если заставить ИИ-агента работать с тысячами API

Reading time4 min
Views1.6K

Вы когда-нибудь задумывались, как ИИ-агента научить сразу работать с тысячами разных API? В обычной жизни всё просто — приложение вызывает одну-две привычные функции, а тут задача куда масштабнее: собрать из разрозненных инструментов настоящий швейцарский нож, который не теряется в сложных цепочках вызовов и правильно управляет аргументами, даже если сценарии усложняются. Команда ByteDance решила попробовать — «а что если научить ИИ действовать в среде, где инструментов не просто много, а очень много, и всё это в единой логике?» Получился AgentScaler: агент, который тренируется сразу в тысячах мини-миров, учится планировать, исправлять ошибки на ходу и удивительно бодро справляется даже с нестандартными задачами. 

О том, как устроена эта вселенная для ИИ, как там моделируют работу инструментов и почему такой подход кардинально меняет обучение агентов — в новом разборе.

Читать далее

Прямой диалог с лентой или будущее рекомендательных систем

Reading time4 min
Views386

Порой кажется, что ленты рекомендаций появились вместе с интернетом — мы уже привыкли к их настойчивым попыткам угодить нам по лайкам и кликам. Но кто из нас не сталкивался с однообразными подборками в своём информационном пузыре?

Исследователи решили попробовать новый подход к рекомендациям — дать пользователю право голоса прямо в ленте: теперь можно просто сказать «это слишком дорого», и рекомендация тут же поменяется. Как устроены такие рекомендательные системы — разбираемся в новом обзоре.

Читать далее

Как думают ИИ-модели: раскладываем рассуждения на эпизоды

Reading time3 min
Views2.1K

Последние поколения LLM умеют долго рассуждать. И вот недавно исследователи решили взглянуть на этот процесс иначе — как на развернутую историю, где каждая мысль занимает свое место в последовательности эпизодов. Оказывается, у логики моделей есть неожиданные параллели с тем, как задачи решают люди: сначала читают, потом анализируют, строят план, пробуют варианты, а иногда теряются и возвращаются на пару шагов назад. Какой путь проходит ИИ, пока ищет ответ, и насколько этот путь похож на человеческий? Новая работа с аккуратной разметкой и яркими визуализациями открывает этот скрытый внутренний театр рассуждений.

Читать далее

Агентная федерация: как мультиагентные системы учатся работать сообща

Reading time4 min
Views1.7K

Большинство мультиагентных систем устроены довольно просто: у каждого своя роль, сценарий расписан заранее, и кажется, что всё работает. Но стоит выйти за границы прототипов — и выясняется, что этот подход трещит по швам. Хаос реального мира не прощает жестких шаблонов. Где найти исполнителя под специфичную задачу, если агентов — сотни, а сеть нестабильна? 

Исследователи предлагают новую идею: пусть агенты не делят между собой роли, а находят друг друга по навыкам, причём делают это на лету. Внутри такой “живой федерации” команды собираются динамично — как будто поле задачи само притягивает тех, кто лучше всего с ней справится. Как это работает и почему оказывается намного эффективнее привычных ансамблей — разбираемся на примере архитектуры Federation of Agents.

Читать далее

Умеют ли нейросети создавать игры?

Reading time4 min
Views2.2K

Как вы думаете, может ли нейросеть не просто писать код, а придумать игру с нуля — чтобы герои прыгали, анимации радовали, а всё это реально хотелось попробовать самому? Оказалось, для ИИ с этим не всё так просто. Одно дело — решить алгоритмическую задачку. Совсем другое — создать что-то, что приятно выглядит и не разбивается при первом запуске. Недавно исследователи придумали способ честно сравнивать, какой ИИ справляется с этой задачей лучше: они собрали целый полигон игровых примеров, где важна не только работа кода, но и то, что появляется на экране. Получилось не просто сравнение — а взгляд на настоящее и будущее генерации игр силами нейросетей.

Читать далее

ИИ-агенты против людей: кто сегодня пишет лучший код?

Reading time4 min
Views1.2K

Кажется, что за последний год ИИ-агенты успели стать полноценными коллегами: они сами планируют работу, пишут код, запускают тесты и даже оформляют pull request как настоящие участники проектов. Их код проходит ревью и конкурирует с работой живых людей. Но насколько они самостоятельны? Что на самом деле происходит в реальных open source-проектах, когда к команде подключается такой ИИ-агент? В свежем исследовании разбираемся, что у ИИ-агентов получается лучше всего, как их работу принимают люди, и насколько часто без человеческой поддержки всё рассыпается.

Читать далее

Почему ИИ в программировании спотыкается в реальной работе: новый бенчмарк показал всю правду

Reading time4 min
Views5K

Казалось бы, ИИ в программировании уже уверенно прописался в наших кодовых репозиториях: он чинит баги, предлагает патчи и с легкостью проходит тесты на привычных бенчмарках. Отсюда и растет ощущение, что полноценные ИИ-программисты — вот‑вот станут реальностью. Но как только дело доходит до задач из настоящей индустрии, вся сияющая картинка начинает трещать по швам. Новый бенчмарк SWE-Bench Pro устроил моделям суровый экзамен и показал, насколько велика пропасть между вежливым автокомплитом и работой инженерного уровня. Что именно не так — и почему даже самые продвинутые системы вдруг оказываются не у дел, если попросить их разобраться в большом и сложном проекте? Статья про честную проверку возможностей ИИ в мире реальных задач.

Читать далее

Меньше примеров — больше интеллекта

Reading time4 min
Views621

Сколько раз мы слышали: чтобы ИИ стал по-настоящему умным, его нужно кормить тоннами данных. Кажется, что без тысяч и тысяч примеров — никак. Но вот несколько исследователей решили пойти наперекор: они собрали всего 78 небольших, но очень насыщенных жизнью эпизодов, чтобы научить модель не просто давать ответы, а работать как настоящий агент — строить планы, исправлять ошибки, действовать вместе с человеком. Результат — LIMI, система, которая показывает, что главное не количество, а качество каждого шага и решения. Почему подход «меньше — значит больше» вдруг стал неожиданной находкой для всей индустрии ИИ — история намного интереснее банальной экономии ресурсов.

Читать далее

Information

Rating
79-th
Registered
Activity