Обновить
2K+
35
Датаист@andre_dataist

🤖 Дневник ИИ-исследователя

59
Подписчики
Отправить сообщение

AudioStory: ИИ в роли звукорежиссера

Время на прочтение4 мин
Охват и читатели3.9K

Сделать так, чтобы генерация звуковых историй с помощью ИИ была не просто приемлемой, а по-настоящему убедительной и атмосферной — долгое время казалось задачей на грани фантастики. Нейросети легко создают короткие аудиофрагменты, но стоит попросить их рассказать целую историю — получается нечто из лоскутков: перебивы, потерянная логика, путаные эмоции и швы между эпизодами. Весь тот вау-эффект, который обычно вкладывает звуковой режиссёр, будто бы ускользает.

Но вот появляется AudioStory. Теперь сюжет строится шаг за шагом, сцена за сценой, а ИИ постепенно учится не просто воспроизводить инструкции, а создавать цельные, логичные и реалистичные звуковые истории, где события тянутся друг за другом так же плавно, как и в настоящих фильмах или аудиокнигах. Как им это удалось и что внутри такого ИИ-звукорежиссёра?

Читать далее

Как Avengers‑Pro превращает зоопарк LLM в супер-роутер за счёт одного ползунка

Время на прочтение4 мин
Охват и читатели7.3K

Один ползунок — и все ваши языковые модели вдруг начинают работать как слаженная команда. Банально выбирать между «дорого, но точно» и «дёшево, но кое-как» больше не обязательно: Avengers‑Pro предлагает куда более хитрую стратегию. Он невыразимо просто сочетает разные LLM — от топовых GPT‑5 до резвых Qwen — и учится менять баланс между качеством и затратами одним движением. Всё прозрачно, гибко и легко регулируется, а результат — система, способная удивить даже опытных инженеров. Как удалось приручить весь этот зоопарк моделей и что это даёт на практике?

Читать далее

Как построить мультиагентную систему, которая реально работает без магии и костылей

Время на прочтение4 мин
Охват и читатели9.8K

LLM уже умеют рассуждать, но ценность раскрывается, когда они выполняют действия в реальных задачах: ходят в веб, считают, вызывают сервисы. Там начинается хаос интерфейсов и мучение с отладкой. AgentScope 1.0 предлагает цельную систему для практичных агентов: единые сообщения, инструменты и память, параллельное исполнение и продакшн‑рантайм. В статье разбираемся в том, как этот конструктор упорядочивает мультиагентные сценарии и ускоряет путь от идеи к работающему сервису.

Читать далее

Как дообучать LLM на лету с помощью памяти вместо файнтюнинга

Время на прочтение4 мин
Охват и читатели15K

Реальные агентные задачи требуют множества шагов, вызова инструментов и гибкой памяти. Исследователи нашли возможность улучшать агента без файнтюнинга весов языковой модели: предлагается хранить удачные и неудачные кейсы и опираться на них при планировании. В итоге получились шикарные метрики на бенчмарках GAIA, SimpleQA и Human Last Exam. Разбираемся, как это работает.

Читать далее

Нажал — и мир двинулся: как Matrix-Game 2.0 делает видео интерактивным в реальном времени

Время на прочтение4 мин
Охват и читатели5.7K

Что, если видеомодель не просто генерирует кадры, а откликается на нажатия? Matrix‑Game 2.0 приближает ИИ к «осязанию» мира: авторегрессия в 25 FPS, точный контроль мышью и клавиатурой, длинные сцены без забывания. За кулисами — датасеты из Unreal Engine и GTA 5. Результат — интерактивные видео, подчинённые законам физики, и прочный фундамент для симуляторов, планирования и обучения агентов.

Читать далее

OmniTry: виртуальная примерка одежды и аксессуаров без масок — система сама найдёт, куда «надеть»

Время на прочтение4 мин
Охват и читатели6.5K

Онлайн‑примерка одежды без масок и ручной разметки сегодня становится реальностью. OmniTry — диффузионный трансформер, который сам локализует объект на фото и сохраняет идентичность конкретного товара — от очков и серёжек до сумок и галстуков. В статье — разбираемся с двухэтапным обучением, «стиранием без следов» и собственным бенчмарком на 12 категорий предметов.

Читать далее

Секрет уверенного робота — в умении указывать

Время на прочтение4 мин
Охват и читатели6.5K

Почему роботы так часто зависают между пониманием и действием? Они видят чашку, но не знают, как обойти тарелку рядом и куда эту чашку поставить. Этот разрыв между зрением и действием — главный барьер на пути к по-настоящему автономным системам. Команда Embodied-R1 предлагает неожиданно простой и мощный выход: научить робота языку «указаний» — точкам и следам на картинке. Такой язык одинаково понятен и человеку, и машине, он напрямую связывает восприятие с действием, делая поведение робота предсказуемым, устойчивым и уверенным даже в незнакомых условиях.

Читать далее

ИИ поддерживает Запад в геополитике и сам учится играть в Minecraft: топ-10 исследований июня

Время на прочтение16 мин
Охват и читатели3.1K

ИИ-агенты учатся выживать в мире Minecraft, спорят о геополитике, берут на себя все больше работы и… начинают вести себя как настоящие личности. Как современные модели учатся планировать, сотрудничать, хитрить и даже формировать собственные взгляды? В этом обзоре — свежие прорывы в создании универсальных агентов, исследования предвзятости и то, как поведенческая наука помогает понять настоящую «психологию» ИИ.

Читать далее

Роботы учатся видеть мир нашими глазами, сами пишут код и создают игры: топ-10 ИИ-исследований за май

Время на прочтение15 мин
Охват и читатели4.7K

Каждый месяц появляются тысячи статей об ИИ, но по-настоящему интересных не так много. В майском топе собрал для вас 10 исследований, которые уже меняют наш мир: от нейросетей, которые учатся мыслить сами и создавать видеоигры, до децентрализованного обучения ИИ, робопомощников, обученных с помощью умных очков и новых подходов к разработке и тестированию ПО.

Читать далее

Три письма из мультивселенной: какое будущее с ИИ мы выберем?

Время на прочтение6 мин
Охват и читатели1.8K

Представьте, что в будущем научились передавать информацию сквозь время. Вы получили три послания из разных параллельных реальностей: одно из них пугает, второе соблазняет, а третье описывает ту реальность, в которой мы, скорее всего, окажемся уже скоро. На каждом пометка: «Темное», «Светлое» и «Нефильтрованное» «Нормальное». Давайте откроем их по порядку.

Читать далее

ИИ-суперагенты: приближают ли они нас к AGI?

Время на прочтение12 мин
Охват и читатели4.7K

На протяжении веков идея машины, способной мыслить наравне с человеком, воспринималась скорее как сюжет научной фантастики, чем как практическая инженерная задача. Но сегодня появление ИИ-суперагентов, автономных систем, способных самостоятельно планировать и достигать сложных целей, заставило даже самых закоренелых скептиков задаться вопросом: мы наблюдаем за созданием очередного умного инструмента или присутствуем при строительстве фундамента, на котором будет создан настоящий AGI? Давайте разберемся, что на самом деле представляют собой эти системы и куда они нас ведут.

Читать далее

ChatGPT делает нас глупее? Что показало новое исследование MIT и Кембриджа

Время на прочтение3 мин
Охват и читатели8.1K

Представьте: дедлайн близко, пальцы судорожно стучат по клавишам — и тут на сцену выходит ChatGPT. За пару минут он выкатывает идеальную работу: факты, цитаты, чёткая структура… А через полчаса вы уже не помните, о чём вообще писали.

Что, если эта забывчивость — лишь вершина айсберга? Учёные из MIT выяснили: каждая помощь от ChatGPT работает как микрозайм у собственного мозга. Проценты капают незаметно, но счёт выставят позже — в виде слабой памяти и тусклой креативности. Хотите узнать, как не влезть в когнитивную ипотеку? Читайте обзор нашумевшей статьи.

Читать далее

Как ИИ-агенты управляют операционной системой и оживляют героев романов: топ-10 исследований ИИ за апрель 2025

Время на прочтение20 мин
Охват и читатели6.3K

Привет, Хабр! В апреле вышли несколько интересных исследований: один ИИ-агент без участия человека автоматически готовит научную статью, другой научился управлять любыми Windows-приложениями. Появились методы, позволяющие сотням симулированных пользователей выявлять слабые места в интерфейсе; платформа, где герои знакомых романов превращаются в ИИ-агентов и создают новые сюжеты; а также симуляция соцсетей, в которой сотни ИИ-юзеров читают посты, лайкают, репостят и проверяют фейки. Узнайте все подробности об этих и других исследованиях в этой статье.

Читать далее

Тест на прочность: LLM против сложных задач

Время на прочтение4 мин
Охват и читатели2.7K

В мире, где условия задач постоянно меняются, способность языковой модели учиться на ходу без перестройки своих параметров становится настоящим вызовом. Недавнее исследование показывает, как простые техники рефлексии, эволюционных эвристик и планирования превращают LLM в гибких агентов, способных адаптироваться к новым ситуациям. От классической игры «камень-ножницы-бумага» до сложных головоломок Ханойской башни — узнайте, какие стратегии работают лучше всего и какие перспективы откроются перед LLM в динамических средах.

Читать далее

Как ИИ научился думать картинками

Время на прочтение4 мин
Охват и читатели3.5K

Современные ИИ-модели достигли впечатляющих успехов в понимании текстов и изображений, однако все еще не идеальны в задачах, где важна визуальная интуиция, таких как навигация и планирование действий. Сегодня большинство моделей конвертируют визуальную информацию в текстовую и только затем принимают решения, что приводит к потере важных деталей и делает решение задач менее интуитивным.

Когнитивная наука подтверждает, что человеческий мозг использует два канала мышления — текстовый (вербальный) и визуальный (невербальный). Но современные мультимодальные модели (MLLM) чаще всего полагаются на текстовые объяснения даже там, где визуальное мышление было бы намного эффективнее. До мая 2025 года не было серьезных исследований, которые бы ответили на вопрос: могут ли современные модели решать задачи исключительно с помощью визуальной информации без использования слов?

Читать далее

Действительно ли у ИИ-агента есть внутренняя картина мира и представление о себе?

Время на прочтение5 мин
Охват и читатели4.5K

Представьте ИИ-агента в виртуальном мире: он не знает ни прошлого, ни будущего, ему доступен лишь крошечный фрагмент окружения. И все же, шаг за шагом, этот агент начинает «чувствовать» свое положение, выстраивать внутренние карты и даже формировать зачатки собственного «я». В этой статье вы узнаете, почему за кулисами обучения RL-агента скрывается удивительный процесс создания его внутренней картины мира.

Читать далее

Может ли ИИ обладать сознанием?

Время на прочтение5 мин
Охват и читатели13K

В то время как ИИ уверенно осваивает все новые сферы - от перевода текстов до разработки лекарств - мы все чаще сталкиваемся с фундаментальным вопросом: имеет ли право такой ИИ называться «сознательным»? Модель OpenAI-o1, построенная на архитектуре трансформеров и обученная с помощью RLHF, является отличным полигоном для исследования этого вопроса. Но можем ли мы всерьез говорить о зачатках сознания у машин - или это лишь очередная иллюзия, созданная алгоритмами?

Читать далее

Добро пожаловать в эру опыта: почему обучение с подкреплением изменит мир

Время на прочтение4 мин
Охват и читатели12K

ИИ подходит к новой стадии развития, которая обещает радикальные изменения во многих аспектах жизни и науки. В статье ниже мы рассмотрим ключевые изменения и технологии, которые сделают возможным наступление новой эры - эры опыта. Вы узнаете, почему нынешние подходы, основанные на человеческих данных, уже исчерпали себя, и как обучение на собственном опыте агентов откроет совершенно новые горизонты в развитии ИИ.

Читать далее

Может ли ИИ заменить вас на работе? Ученые проверили на 175 задачах

Время на прочтение4 мин
Охват и читатели23K

ИИ уже пишет код, управляет проектами и общается с коллегами. Но можно ли прямо сейчас доверить ему всю офисную работу? Исследователи протестировали 7 самых мощных нейросетей на 175 реальных задачах. Спойлер: полностью заменить сотрудников нейросети пока не могут. Но давайте разберемся, что именно у них получается лучше всего, какие задачи еще вызывают трудности и стоит ли уже сегодня нанимать себе цифрового помощника в штат.

Читать далее

VideoGameBench: 20 рандомных ретро-игр против нейросети — кто кого?

Время на прочтение4 мин
Охват и читатели1.8K

Языковые модели уже решают олимпиады и пишут код «на лету», так что пора бы им рулить и в Dark Souls… но (спойлер): первые же пиксели экшена вгоняют нейросеть в ступор. Почему ИИ пасует там, где нужен мгновенный инстинкт геймера? Разбираемся в статье.

Читать далее

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность