Articles / Profile of andre_dataist / Habr

Датаист @andre_dataist

ИИ-исследователь

ProfileArticles70Posts2News12Comments16

andre_dataist 5 hours ago

Инженирия контекста для саморазвивающихся ИИ-агентов

4 min

250

Artificial IntelligenceMachine learning *

Review

Обычно качество ИИ улучшают двумя путями — дообучая веса или сокращая промты, чтобы всё работало быстрее и дешевле. Со временем короткие шаблоны теряют смысл, а длинные инструкции превращаются в кашу из выжимок.

Оказывается, сила ИИ-приложений кроется не в размере модели, а в том, как “живёт” и развивается их контекст. В роли суперспособности выступает динамичный плейбук — он не боится становиться длиннее, обновляется маленькими шажками и сохраняет тонкие доменные знания. Модель сама учится отбирать, что ей важно, а не просто сжимать всё в краткие подсказки.

В этом разборе — как инженерия контекста помогает ИИ думать гибче и как этот подход работает на практике.

Читать далее

0

andre_dataist yesterday at 16:01

Что, если новые бенчмарки для ИИ станут появляться сами по себе?

4 min

452

Artificial IntelligenceMachine learning *

Review

ИИ уже хорошо решает сложные задачи, но когда доходит до реальных соревнований и живых проектов, вдруг выясняется — старые подходы к проверке его способностей не работают так гладко, как хотелось бы. Бенчмарки, по которым модели тренируются и друг с другом сравниваются, порой буквально застревают в прошлом: их сложно обновлять, они слишком формальные… а ведь задачи мира куда разнообразнее, чем любые придуманное вручную соревнование.

Но недавно появился неожиданный подход: зачем вручную собирать одни и те же стандартизированные тесты, когда сами наборы данных способны становиться свежими полигонами для ИИ? В исследовании MLE-Smith команда обучила агентов автоматически строить новые, реалистичные задачи прямо на потоке настоящих данных — без участия человека, но с сохранением структуры и смысла.

Почему это важно? Потому что такого рода «фабрики» могут радикально поменять, как мы оцениваем ИИ, и дать ему куда более честное, разнообразное поле для прокачки. В этой статье — как работает эта система, с какими трудностями она сталкивается и почему именно автоматизация бенчмарков может стать следующим шагом для всего ИИ‑сообщества.

Читать далее

0

andre_dataist Oct 10 at 12:43

Почему тесты на безопасность ИИ-агентов внезапно перестали работать

4 min

1K

Machine learning * Artificial Intelligence

Review

ИИ становится всё умнее — и вроде бы уже может справиться с самыми разными задачами в интерфейсе компьютера. Но вот парадокс: в настоящих программах даже самые продвинутые агенты до сих пор неловко кликают не туда, путают кнопки и часто просто теряются. Проблема не только в алгоритмах — не хватает настоящих, живых примеров, как действовать шаг за шагом.

Команда исследователей неожиданно нашла решение там, где его никто толком не искал: на YouTube. Вместо сложной ручной разметки они научили ИИ учиться на туториалах обычных пользователей и вычленять из роликов подробные инструкции по работе с реальными приложениями — вплоть до точек кликов и строк ввода текста. Оказалось, такого обучения хватает, чтобы агенты научились уверенно разбираться в браузерах, редакторах и медиаплеерах.

Почему именно такой способ оказался рабочим? И как это открывает новый этап в развитии ИИ для повседневных задач — без огромных затрат и костылей? Разбираемся, как машины начинают учиться «по-взрослому».

Читать далее

+1

andre_dataist Oct 9 at 18:53

Почему ИИ-агенты ошибаются в простых веб-задачах — и как граф знаний помогает им перестать быть тупыми

3 min

3.3K

Artificial IntelligenceMachine learning *

Review

ИИ сегодня может писать тексты, решать задачи и даже управлять сайтами — казалось бы, уже почти как человек. Но вот парадокс: самые продвинутые агенты до сих пор ошибаются на простых сценариях и путаются с кнопками или таблицами. Почему решения, работающие в теории, так часто валятся на реальных веб‑задачах?

Недавнее исследование раскрывает неожиданный нюанс. Оказалось, что дело не только в мощности модели или объёме данных — важнее то, «как» агент рассуждает и организует свои действия в сложной среде. Команда предлагает свежий подход: превращать веб и документы в особый «граф знаний», а тестовые ситуации собирать из него автоматически. Такой подход сразу проявляет слабые места даже у топовых ИИ.

Разбираемся, как устроен новый бенчмарк, почему агенты спотыкаются на пути к настоящей автономности, и — главное — что всё это говорит о будущем ИИ, который должен быть и умным, и по-настоящему полезным в наших цифровых задачах.

Читать далее

+1

andre_dataist Oct 8 at 20:44

Как ИИ-агенты учатся по видео на YouTube

3 min

647

Artificial IntelligenceMachine learning *

Review

ИИ становится всё умнее — и вроде бы уже может справиться с самыми разными задачами в интерфейсе компьютера. Но вот парадокс: в настоящих программах даже самые продвинутые агенты до сих пор неловко кликают не туда, путают кнопки и часто просто теряются. Проблема не только в алгоритмах — не хватает настоящих, живых примеров, как действовать шаг за шагом.

Команда исследователей неожиданно нашла решение там, где его никто толком не искал: на YouTube. Вместо сложной ручной разметки они научили ИИ учиться на туториалах обычных пользователей и вычленять из роликов подробные инструкции по работе с реальными приложениями — вплоть до точек кликов и строк ввода текста. Оказалось, такого обучения хватает, чтобы агенты научились уверенно разбираться в браузерах, редакторах и медиаплеерах.

Почему именно такой способ оказался рабочим? И как это открывает новый этап в развитии ИИ для повседневных задач — без огромных затрат и костылей? Разбираемся, как машины начинают учиться «по-взрослому».

Читать далее

+2

andre_dataist Oct 7 at 17:15

Как ИИ научился делать научные видео — от слайдов до говорящей головы

4 min

953

Machine learning * Artificial Intelligence

Review

ИИ уже умеет многое: от сочинения текстов до генерации сложных картинок. Но стоит дать ему реальную задачу — вроде создания научного видео по длинной статье, — и он тут же сталкивается с неожиданными трудностями. Почему же до сих пор самые умные модели часто уступают человеку в таких, казалось бы, рутинных задачах, где важна не только начинка, но и подача?

Новое исследование показало интересный поворот: дело не только в качестве речи или зрелищности слайдов. Ключевая сложность — правильно собрать всё вместе: знания, логику повествования, невербальные детали и даже такие мелочи, как движение курсора по слайду. Именно в этом ИИ часто спотыкается, а не в отдельной “говорящей голове” или красивой анимации.

Разбираемся, как современные ИИ учатся имитировать настоящих докладчиков: что нового придумали исследователи, почему для оценки качества нужен целый набор свежих метрик и как прозрачная модульная архитектура наконец-то позволяет ИИ не просто воспроизводить информацию, а действительно объяснять как настоящий докладчик.

Читать далее

+4

andre_dataist Oct 6 at 10:40

Графики по щелчку: как ИИ-агенты берут на себя работу дата-аналитика

3 min

2.5K

Artificial IntelligenceMachine learning *

Review

ИИ уже неплохо пишет код для простых задач, но когда дело доходит до сложных данных и красивых графиков, всё начинает ломаться: легенды не совпадают, подписи съезжают, а обработка больших таблиц приводит к ошибкам. Почему машина, способная решать головоломки на олимпиадах, не может уверенно справиться с простой визуализацией данных в реальных задачах?

Неожиданный поворот: новое исследование показывает, что дело не только в мощности используемой модели. Группа учёных из Google предложила решать задачу создания графиков не одиночной нейросетью, а целой командой специализированных ИИ-агентов, где у каждого своя роль — от архитектора до критика. Такой подход значительно превзошёл предыдущие методы и показал стабильные результаты даже на сложных сценариях.

Как устроено это командное ИИ-мышление, в чём секрет их коллективной работы? Разобрались, как машины учатся думать шаг за шагом и почему это открывает новый взгляд на будущее автоматизации аналитики.

Читать далее

+1

andre_dataist Oct 5 at 17:06

Как управлять интернетом вещей с помощью LLM

4 min

2.9K

Machine learning * Artificial Intelligence

Review

ИИ сегодня уверенно распознаёт тексты, пишет программный код и подсказывает сложные решения — но как только его просят поработать с реальными датчиками или «умным» домом, всё становится неожиданно сложно. Один и тот же датчик может передавать данные в разных форматах, соединения обрываются, взаимодействие превращается в квест с кучей костылей и кастомных скриптов.

Однако совсем недавно инженеры предложили элегантное решение этой застарелой проблемы: не добавлять «ещё один слой» или велосипедить интеграции, а полностью переосмыслить, как LLM взаимодействуют с миром железа. В основе нового подхода — чистая, структурная логика, где роли чётко распределены и всё работает более похоже на реальную команду, чем на беспокойную толпу серверов.

Почему это важно? Такой сдвиг — не просто удобство для разработчиков, а первый реальный шаг к тому, чтобы ИИ начал по-настоящему работать с физическим миром. Как это получилось, где скрыты ключевые идеи и почему новая архитектура может стать стандартом для всего IoT — рассказываю простыми словами.

Читать далее

0

andre_dataist Oct 4 at 15:03

Как выжать максимум смысла из тысяч строк кода

4 min

2.4K

Artificial IntelligenceMachine learning *

Review

Сколько смыслов можно уместить в тысяче строк кода? Этот вопрос становится совсем не теоретическим, когда к делу подключаются современные LLM — им всё чаще приходится разбираться в огромных проектах, где важно не просто “прочитать всё”, а вытащить из бесконечного кода именно то, что нужно. При этом стандартные методы экономят время и память… но нередко теряют самую суть, упуская важные связи между частями программы.

В свежей работе исследователи предлагают неожиданно простой трюк: вместо того чтобы скармливать модели лишние мегабайты, они аккуратно выжимают из репозитория только те фрагменты, которые реально двигают модель к правильному ответу. При этом смысл сохраняется, а мусор уходит.

Оказалось, даже совсем не обучая модель и не вникая во внутренности LLM, можно кратно повысить скорость и снизить стоимость анализа длинного кода — и иногда добиться даже лучшего качества. Как это работает, почему эффект оказался внушительным и к каким деталям тут всё сводится — разбираемся на примере LongCodeZip.

Читать далее

+4

andre_dataist Oct 3 at 09:59

Как ИИ-агенты учатся работать с временными рядами

4 min

1.2K

Artificial IntelligenceMachine learning *

Review

В мире данных однотипные графики часто выглядят уныло, а работа с ними — еще скучнее: очистка, бесконечные проверки, подбор моделей и объяснения для любопытного начальства. Классические алгоритмы предсказаний временных рядов давно знакомы аналитикам, но когда массив данных огромен, а требования к прозрачности все выше — старые методы начинают давать сбои.

Вместо того чтобы снова изобретать “лучшую” модель, команда исследователей решила взглянуть на задачу по-новому: построить мультиагентную систему, в которой несколько ИИ-агентов делят между собой всю рутину аналитика — от первой чистки до финального отчета. Что они придумали и почему это на самом деле похоже на работу настоящего исследователя? Разбираемся на живом примере из энергетики.

Читать далее

+5

andre_dataist Oct 2 at 18:20

Агент-исследователь: как научить LLM работать с поиском в интернете

3 min

3.4K

Machine learning * Artificial Intelligence

Review

Модели давно научились отвечать на вопросы и решать задачи, но в живом поиске по интернету они пока скорее теряются, чем становятся настоящими помощниками. Ведь здесь всё не так просто: обычного запроса не хватает, приходится возвращаться к предыдущим шагам, уточнять детали, сопоставлять факты из разных источников. Команда InfoAgent решила прокачать LLM так, чтобы она вела себя не как угадывающий бот, а как упорный веб-детектив — способный шаг за шагом пробираться через паутину ссылок и находить нужное даже в запутанных случаях. Как устроена такая система, почему старые подходы уже не работают, и что из этого вышло — обо всём по порядку.

Читать далее

+2

andre_dataist Oct 1 at 16:40

Увидел-указал-полетел: как управлять автономными дронами без обучения с нуля

4 min

2.1K

Artificial IntelligenceMachine learning * Robotics

Review

Когда дроны только появились, ими можно было управлять разве что с пульта или через текстовые команды — «поверни налево», «лети прямо», «вверх на два метра». Всё это выглядело немного старомодно и, прямо скажем, неудобно: попробуй опиши словами маршрут, если дрон видит перед собой живую картинку, а тебе надо всё переводить в текст. И вот появился довольно неожиданный подход — вместо текстовых инструкций просто показывать дрону, куда лететь, буквально указывая нужную точку в кадре.

Теперь команда для беспилотника — это не набор слов, а пиксель на изображении, а значит, связь между вашим замыслом и настоящим полетом стала куда более непосредственной. Модель сама определяет, как лететь к этой точке, одновременно замечает препятствия и быстро реагирует, если что-то изменится. Что получилось из этой попытки «разговаривать» с дроном языком зрения — и c какими проблемами исследователи столкнулись на практике? Всё оказалось интереснее, чем кажется на первый взгляд.

Читать далее

+5

andre_dataist Sep 30 at 19:45

Что будет, если заставить ИИ-агента работать с тысячами API

4 min

1.6K

Artificial IntelligenceMachine learning *

Review

Вы когда-нибудь задумывались, как ИИ-агента научить сразу работать с тысячами разных API? В обычной жизни всё просто — приложение вызывает одну-две привычные функции, а тут задача куда масштабнее: собрать из разрозненных инструментов настоящий швейцарский нож, который не теряется в сложных цепочках вызовов и правильно управляет аргументами, даже если сценарии усложняются. Команда ByteDance решила попробовать — «а что если научить ИИ действовать в среде, где инструментов не просто много, а очень много, и всё это в единой логике?» Получился AgentScaler: агент, который тренируется сразу в тысячах мини-миров, учится планировать, исправлять ошибки на ходу и удивительно бодро справляется даже с нестандартными задачами.

О том, как устроена эта вселенная для ИИ, как там моделируют работу инструментов и почему такой подход кардинально меняет обучение агентов — в новом разборе.

Читать далее

0

andre_dataist Sep 29 at 11:29

Прямой диалог с лентой или будущее рекомендательных систем

4 min

386

Artificial IntelligenceMachine learning *

Review

Порой кажется, что ленты рекомендаций появились вместе с интернетом — мы уже привыкли к их настойчивым попыткам угодить нам по лайкам и кликам. Но кто из нас не сталкивался с однообразными подборками в своём информационном пузыре?

Исследователи решили попробовать новый подход к рекомендациям — дать пользователю право голоса прямо в ленте: теперь можно просто сказать «это слишком дорого», и рекомендация тут же поменяется. Как устроены такие рекомендательные системы — разбираемся в новом обзоре.

Читать далее

+2

andre_dataist Sep 28 at 16:42

Как думают ИИ-модели: раскладываем рассуждения на эпизоды

3 min

2.1K

Machine learning * Artificial Intelligence

Review

Последние поколения LLM умеют долго рассуждать. И вот недавно исследователи решили взглянуть на этот процесс иначе — как на развернутую историю, где каждая мысль занимает свое место в последовательности эпизодов. Оказывается, у логики моделей есть неожиданные параллели с тем, как задачи решают люди: сначала читают, потом анализируют, строят план, пробуют варианты, а иногда теряются и возвращаются на пару шагов назад. Какой путь проходит ИИ, пока ищет ответ, и насколько этот путь похож на человеческий? Новая работа с аккуратной разметкой и яркими визуализациями открывает этот скрытый внутренний театр рассуждений.

Читать далее

0

andre_dataist Sep 27 at 13:26

Агентная федерация: как мультиагентные системы учатся работать сообща

4 min

1.7K

Artificial IntelligenceMachine learning *

Review

Большинство мультиагентных систем устроены довольно просто: у каждого своя роль, сценарий расписан заранее, и кажется, что всё работает. Но стоит выйти за границы прототипов — и выясняется, что этот подход трещит по швам. Хаос реального мира не прощает жестких шаблонов. Где найти исполнителя под специфичную задачу, если агентов — сотни, а сеть нестабильна?

Исследователи предлагают новую идею: пусть агенты не делят между собой роли, а находят друг друга по навыкам, причём делают это на лету. Внутри такой “живой федерации” команды собираются динамично — как будто поле задачи само притягивает тех, кто лучше всего с ней справится. Как это работает и почему оказывается намного эффективнее привычных ансамблей — разбираемся на примере архитектуры Federation of Agents.

Читать далее

+3

andre_dataist Sep 26 at 18:04

Умеют ли нейросети создавать игры?

4 min

2.2K

Artificial IntelligenceMachine learning *

Review

Как вы думаете, может ли нейросеть не просто писать код, а придумать игру с нуля — чтобы герои прыгали, анимации радовали, а всё это реально хотелось попробовать самому? Оказалось, для ИИ с этим не всё так просто. Одно дело — решить алгоритмическую задачку. Совсем другое — создать что-то, что приятно выглядит и не разбивается при первом запуске. Недавно исследователи придумали способ честно сравнивать, какой ИИ справляется с этой задачей лучше: они собрали целый полигон игровых примеров, где важна не только работа кода, но и то, что появляется на экране. Получилось не просто сравнение — а взгляд на настоящее и будущее генерации игр силами нейросетей.

Читать далее

+2

andre_dataist Sep 25 at 12:59

ИИ-агенты против людей: кто сегодня пишет лучший код?

4 min

1.2K

Machine learning * Artificial Intelligence

Review

Кажется, что за последний год ИИ-агенты успели стать полноценными коллегами: они сами планируют работу, пишут код, запускают тесты и даже оформляют pull request как настоящие участники проектов. Их код проходит ревью и конкурирует с работой живых людей. Но насколько они самостоятельны? Что на самом деле происходит в реальных open source-проектах, когда к команде подключается такой ИИ-агент? В свежем исследовании разбираемся, что у ИИ-агентов получается лучше всего, как их работу принимают люди, и насколько часто без человеческой поддержки всё рассыпается.

Читать далее

-1

andre_dataist Sep 24 at 14:47

Почему ИИ в программировании спотыкается в реальной работе: новый бенчмарк показал всю правду

4 min

5K

Artificial IntelligenceMachine learning *

Review

Казалось бы, ИИ в программировании уже уверенно прописался в наших кодовых репозиториях: он чинит баги, предлагает патчи и с легкостью проходит тесты на привычных бенчмарках. Отсюда и растет ощущение, что полноценные ИИ-программисты — вот‑вот станут реальностью. Но как только дело доходит до задач из настоящей индустрии, вся сияющая картинка начинает трещать по швам. Новый бенчмарк SWE-Bench Pro устроил моделям суровый экзамен и показал, насколько велика пропасть между вежливым автокомплитом и работой инженерного уровня. Что именно не так — и почему даже самые продвинутые системы вдруг оказываются не у дел, если попросить их разобраться в большом и сложном проекте? Статья про честную проверку возможностей ИИ в мире реальных задач.

Читать далее

+13

andre_dataist Sep 23 at 08:34

Меньше примеров — больше интеллекта

4 min

621

Artificial IntelligenceMachine learning *

Review

Сколько раз мы слышали: чтобы ИИ стал по-настоящему умным, его нужно кормить тоннами данных. Кажется, что без тысяч и тысяч примеров — никак. Но вот несколько исследователей решили пойти наперекор: они собрали всего 78 небольших, но очень насыщенных жизнью эпизодов, чтобы научить модель не просто давать ответы, а работать как настоящий агент — строить планы, исправлять ошибки, действовать вместе с человеком. Результат — LIMI, система, которая показывает, что главное не количество, а качество каждого шага и решения. Почему подход «меньше — значит больше» вдруг стал неожиданной находкой для всей индустрии ИИ — история намного интереснее банальной экономии ресурсов.

Читать далее

+4

1