Мир искусственного интеллекта сегодня — это настоящая гонка: компании выпускают новые модели чуть ли не еженедельно, стремясь превзойти конкурентов. Все следят за развитием нейросетей, генерирующих тексты, изображения и код. Однако ИИ — это не только виртуальные творения. Именно искусственный интеллект учит роботов двигаться по-человечески, понимать естественную речь и адаптироваться к незнакомым ситуациям.
Давайте посмотрим, как Google DeepMind создает «мозг» для роботов с помощью моделей Gemini Robotics, как NVIDIA разрабатывает открытую платформу Isaac GR00T N1 и как компания Figure учит роботов двигаться с человеческой плавностью. Рассказываем, сколько сейчас стоят гуманоиды и как скоро вы сможете купить себе такого.
Получился внушительный лонгрид, так что если сейчас нет времени погрузиться в материал, добавляйте в закладки, почитаете на майских :)

Как Google DeepMind создает «мозг» для современных роботов
Google DeepMind разработала семейство моделей Gemini Robotics, которые существенно меняют способ взаимодействия роботов с окружающим миром. Эти модели можно назвать искусственным «мозгом», который наделяет роботов способностью понимать окружение и гибко адаптироваться к различным ситуациям.
Семейство моделей Gemini Robotics
Google DeepMind предлагает две основные модели для управления роботами. Обе они построены на базе Gemini 2.0, но у них разное назначение и функциональность.
Gemini Robotics — наиболее совершенная модель в линейке, базируется на архитектуре Transformer с адаптивным вниманием. Разработчики взяли за основу модель искусственного интеллекта Gemini 2.0 и научили ее управлять физическими движениями роботов. Они получили возможность видеть мир через камеры, понимать голосовые команды на обычном человеческом языке и преобразовывать их в точные последовательности движений.
Среди технических особенностей модели:
Алгоритм SARA (Self-Adaptive Robust Attention), который преобразует квадратичную сложность вычислений в линейную. Модель может обрабатывать гораздо больше информации за то же время, система работает более быстро и реактивно.
Метод up-training. В отличие от обычного обучения, когда модель обучается «с нуля», up-training начинается с уже обученной общей модели и дообучает ее для специализированных робототехнических задач, при этом универсальные знания сохраняются.
Технология RT-Trajectory. Эта технология добавляет в обучающие видеоролики визуальные контуры, которые описывают движения робота. Благодаря этому он понимает не только то, что нужно сделать, но и как именно нужно двигаться для достижения цели.
Эти усовершенствования позволили создать модель, способную анализировать ситуацию, взаимодействовать с пользователем и выполнять сложные многошаговые задачи с высокой точностью и минимальным временем реакции.
Gemini Robotics-ER (embodied reasoning, или «воплощенное мышление») создана на базе Gemini 2.0 Flash. Термин «воплощенное мышление» означает способность ИИ понимать физический мир и взаимодействовать с ним, учитывая пространственные отношения между объектами.
Модель Gemini Robotics-ER может:
Точно определять положение и размеры объектов в трехмерном пространстве, а не только на плоском изображении.
Понимать, как объекты взаимодействуют друг с другом. Например, что чашка стоит на столе, а не висит в воздухе.
Оценивать физические свойства объектов, такие как хрупкость и вес, для правильного взаимодействия с ними.
Предсказывать последствия действий. Например, что произойдет, если толкнуть стопку кубиков.
Планировать сложные манипуляции с учетом ограничений реального мира.
Например, когда Gemini Robotics-ER видит предмет, он не просто распознает его, а понимает, что у кружки есть ручка, за которую удобно взяться, и что кружку нужно поднимать вертикально, чтобы не пролить содержимое. Это гораздо более продвинутое понимание, чем просто классификация объектов на изображении.

Партнерство с Apptronik и расширение экосистемы
Важным шагом в развитии человекоподобной робототехники стало сотрудничество Google DeepMind с компанией Apptronik. Вместе они работают над созданием нового поколения гуманоидных роботов на базе Gemini 2.0. Результат этого сотрудничества — гуманоидный робот Apollo, который наглядно демонстрирует возможности Gemini Robotics в человекоподобном исполнении.

Apollo представляет собой высокотехнологичную платформу со множеством датчиков и приводов. Его характеристики включают:
Более 30 степеней свободы для естественных и плавных движений. Для сравнения: человеческая рука имеет около 27 степеней свободы.
Продвинутую сенсорную систему с камерами высокого разрешения и тактильными датчиками. Они позволяют роботу «чувствовать» объекты, с которыми он взаимодействует, определять их текстуру, твердость и другие свойства.
Встроенный компьютер для запуска моделей Gemini Robotics в реальном времени. Он достаточно мощный, чтобы обрабатывать сложные алгоритмы ИИ непосредственно на борту робота, — постоянно подключаться к внешним серверам не требуется.
Систему динамической балансировки. Эта система постоянно корректирует положение тела робота, чтобы он оставался устойчивым даже на неровных поверхностях или когда выполняет сложные манипуляции.
Google DeepMind активно расширяет экосистему партнеров, сотрудничая с такими компаниями, как Agile Robots, Agility Robotics, Boston Dynamics и Enchanted Tools. Это позволяет адаптировать технологию Gemini Robotics к различным типам роботов и существенно расширять спектр задач, которые они могут решать.
Как NVIDIA помогает роботам думать и действовать
NVIDIA разрабатывает комплексные решения, которые включают как программное обеспечение для «мозга» робота, так и специализированное аппаратное обеспечение для обработки сложных алгоритмов искусственного интеллекта.
Isaac GR00T N1: первая открытая базовая модель для роботов
В марте 2025 года NVIDIA представила Isaac GR00T N1 — полностью настраиваемую базовую модель для гуманоидных роботов. В отличие от проприетарных систем, которые обычно недоступны широкому сообществу разработчиков, GR00T N1 предлагается с открытыми весами и разрешительными лицензиями:
Открытые веса — это параметры модели, полученные в результате обучения. В контексте нейронных сетей веса представляют числовые значения, которые определяют силу связей между нейронами и формируют поведение модели.
Разрешительные лицензии — это тип лицензий, которые накладывают минимальные ограничения на использование и модификацию. В отличие от более жестких лицензий разрешительные позволяют свободно использовать, изменять и распространять программное обеспечение, включая коммерческое применение.
GR00T N1 — это комплексная система искусственного интеллекта: она объединяет в себе возможности зрения, понимания языка и генерации действий. Модель может принимать различные типы входных данных, включая изображения и текстовые команды, и преобразовывать их в последовательности движений для управления роботами.
Архитектура GR00T N1
Одна из особенностей GR00T N1 — ее двойная архитектура, основанная на принципах человеческого познания. Модель состоит из двух взаимодополняющих систем, каждая из которых отвечает за определенный аспект процесса принятия решений:

«Система 1» — это модель быстрого действия, которая функционирует аналогично человеческим рефлексам или интуиции. Она отвечает за преобразование высокоуровневых планов в конкретные, точные движения робота. Модель обучена на демонстрационных данных о человеческих действиях и большом объеме синтетических данных, что позволяет ей генерировать плавные, естественные движения в реальном времени.
«Система 2» — это модель медленного, методичного мышления, которая отвечает за анализ ситуации, понимание инструкций и планирование действий. Она основана на модели обработки языка и зрения и включает компонент NVIDIA-Eagle с интеграцией SmolLM-1.7B. «Система 2» позволяет роботам интерпретировать окружающую среду через зрение и язык, рассуждать об увиденном и услышанном и составлять планы действий.
Взаимодействие этих двух систем происходит следующим образом: «Система 2» анализирует изображения с камер робота и текстовые команды, затем составляет план действий, а «Система 1» преобразует этот план в конкретные движения робота, учитывая его физические возможности и ограничения.
Вычислительная платформа Jetson Thor для человекоподобных роботов
Для работы сложных AI-моделей, таких как GR00T N1, NVIDIA разрабатывает специализированное аппаратное обеспечение. В первой половине 2025 года компания планирует выпустить новую вычислительную платформу Jetson Thor, специально созданную для гуманоидных роботов.
Jetson Thor основан на архитектуре NVIDIA Blackwell с графическим процессором нового поколения. Эта платформа обеспечивает до 800 терафлопс вычислений для задач искусственного интеллекта, что делает ее идеальным «мозгом» для продвинутых роботов.
Ключевые особенности Jetson Thor включают:
Встроенный процессор функциональной безопасности обеспечивает надежную работу критически важных систем робота и гарантирует безопасное взаимодействие с людьми и окружающей средой.
Высокая пропускная способность Ethernet (100 Гбит) позволяет роботам обрабатывать большие объемы данных от различных сенсоров в реальном времени, что критически важно для точного восприятия окружающей среды и быстрой реакции на изменения.
Значительно увеличенный объем оперативной памяти: Jetson Thor оснащен 128 Гб VRAM, что вдвое больше, чем у предыдущего поколения Jetson Orin. Можно хранить и обрабатывать большие объемы данных и запускать более сложные модели ИИ.
Jetson Thor проектируется с учетом требований к современным гуманоидным роботам, которым необходимо выполнять сложные когнитивные задачи и точно контролировать множество степеней свободы в реальном времени. Предполагаемая стоимость этой платформы составит более 2000 долларов.
Разработка физического движка Newton совместно с Google DeepMind и Disney Research
Для продвижения технологий в области робототехники NVIDIA активно сотрудничает с другими лидерами индустрии. Особенно значимым является партнерство с Google DeepMind и Disney Research по разработке Newton — физического движка с открытым исходным кодом, который позволит роботам учиться выполнять сложные задачи с большей точностью. Движок построен на базе NVIDIA Warp и оптимизирован специально для задач робототехники. Ожидается, что Newton станет доступен для разработчиков до конца 2025 года.
Особенности физического движка Newton:
Высокая точность физического моделирования позволяет создавать реалистичные симуляции взаимодействия робота с объектами и окружающей средой, что критически важно для переноса навыков из виртуальной среды в реальный мир.
Совместимость с различными платформами симуляции: Newton будет работать как с MuJoCo от Google DeepMind, так и с NVIDIA Isaac Lab, что обеспечит гибкость для разработчиков.
Оптимизация для обучения роботов: движок специально адаптирован для задач машинного обучения в робототехнике — с ним обучать роботов новым навыкам получится эффективнее.
Помимо разработки Newton, Google DeepMind и NVIDIA также сотрудничают над созданием MuJoCo-Warp — технологии, которая, как ожидается, ускорит рабочие нагрузки машинного обучения в робототехнике более чем в 70 раз. MuJoCo-Warp будет доступен разработчикам через библиотеку Google DeepMind MJX с открытым исходным кодом, а также через Newton.
Как Figure учит роботов двигаться по-человечески
Одна из самых сложных задач в создании человекоподобных роботов — обучение их естественному, плавному и устойчивому передвижению. В отличие от промышленных роботов, которые обычно закреплены на одном месте, гуманоиды должны уметь балансировать на двух ногах, адаптироваться к различным типам поверхностей и сохранять устойчивость при воздействии внешних сил.
Компания Figure, основанная в 2022 году, добилась в этом значительных успехов. Ее робот Figure 02 хорошо справляется с двуногим передвижением, что выгодно отличает его от более ранних разработок.

Figure 02 отличается от других гуманоидных роботов тем, что его походка выглядит удивительно естественной и человекоподобной. Робот способен:
Передвигаться со скоростью до 1,2 метра в секунду, что сопоставимо со средней скоростью ходьбы человека и примерно в семь раз быстрее, чем первая версия робота Figure 01.
Сохранять устойчивость на различных типах поверхностей, включая неровные и наклонные.
Адаптировать походку к внешним условиям в реальном времени.
Восстанавливать равновесие после неожиданных толчков и других внешних воздействий.
В основе системы управления движением роботов Figure лежит нейронная сеть, обученная методом подкрепления (Reinforcement Learning, RL). Этот подход отличается от традиционных методов программирования движений роботов, когда инженеры вручную создают алгоритмы для каждого типа движения. Инженеры Figure применили несколько методов, которые значительно улучшили результаты обучения:
Причинно-следственный трансформер (Causal Transformer). Специальная архитектура нейронной сети учитывает историю предыдущих движений и наблюдений для принятия более обоснованных решений. Робот может адаптироваться к изменяющимся условиям и лучше предсказывать последствия своих действий.
Многоуровневая система обучения. Сложная задача ходьбы разбивается на набор подзадач: балансирование, перенос веса, шагание, адаптация к поверхности, — что позволяет более эффективно обучать отдельные компоненты движения.
Система оценки качества движения. Система учитывает не только пройденное расстояние, но и качество движения: энергоэффективность, плавность, естественность походки и устойчивость.
Результатом этого подхода стала система управления, с помощью которой робот Figure 02 передвигается заметно быстрее, устойчивее и с более естественной походкой, чем у конкурентов. Особенно впечатляет способность робота автоматически адаптировать свою походку к различным условиям — от гладкого пола до неровной поверхности, от горизонтальной плоскости до наклонной.
Открытие фабрики BotQ для серийного производства роботов
Это предприятие, расположенное в Сан-Франциско, спроектировано специально для серийного производства человекоподобных роботов Figure 02. Оно оснащено современными автоматизированными линиями сборки, системами контроля качества и испытательными стендами. На начальном этапе фабрика способна выпускать до 12 тысяч роботов ежегодно. В перспективе планируется увеличение объемов производства в десять раз — до 120 тысяч единиц в год.
Серийное производство также позволяет значительно снизить стоимость роботов за счет эффекта масштаба. По оценкам основателя Figure Бретта Адкока, в перспективе цена на Figure 02 может составить около 20 000 долларов, что соответствует ценам других производителей гуманоидов.

Figure уже заключила партнерские соглашения с несколькими крупными компаниями, включая BMW. Роботы Figure 02 будут выполнять различные задачи на заводах автогиганта.
Что мешает роботам выйти в массовое производство
Несмотря на активное развитие гуманоидной робототехники, существует ряд серьезных препятствий, которые необходимо преодолеть, прежде чем роботы станут доступны массовому потребителю.
Технические сложности. Существующие контроллеры обычно сводят управление к небольшому числу степеней свободы. Это работает для систем с ограниченной функциональностью, таких как квадрокоптеры или автомобили, но недостаточно для гуманоидов, которым нужно выполнять разнообразные задачи в непредсказуемых условиях.
Человекоподобные роботы, в отличие от колесных платформ, не обладают пассивной устойчивостью и требуют постоянной активной балансировки. Эта задача усложняется при переноске грузов или взаимодействии с объектами разного веса и формы. Необходимо одновременно контролировать десятки степеней свободы и обрабатывать данные множества сенсоров в реальном времени — это огромная вычислительная нагрузка.
Чтобы преодолеть эти ограничения, требуются развитие нескольких ключевых технологий:
Более эффективные алгоритмы обучения с подкреплением для адаптации роботов к незнакомым ситуациям.
Нейросети, способные быстро обрабатывать данные с датчиков и принимать решения о движениях.
Улучшенная система компьютерного зрения для точного восприятия окружающей среды.
Адаптивная система управления, которая может поддерживать равновесие робота на различных типах поверхностей.
Высокая стоимость оборудования. Сочетание сложности аппаратного обеспечения и нерешенных проблем в области ИИ приводит к чрезвычайно высоким затратам на разработку и производство.
Текущая стоимость гуманоидных роботов варьируется от 30 000 до 150 000 долларов за единицу. Такие цены делают роботов недоступными для большинства пользователей.
Экономическая эффективность использования роботов также вызывает сомнения. Один работник может взять на себя две смены, то есть проработать 16 часов. У современных роботов так не выйдет. Это связано с ограничением времени автономной работы современных моделей — 5 часов для Figure 02.
При стоимости около 60 000 долларов за одного робота общие инвестиции составят 180 000 долларов. Учитывая, что средняя годовая зарплата производственного рабочего в США составляет около 33 000 долларов, окупаемость таких инвестиций может занять около 5–6 лет. Это делает внедрение роботов экономически оправданным только для определенных видов работ — например, особенно опасных или требующих высокой точности. Для достижения экономической целесообразности необходимо снизить цены до примерно 18 000 долларов за робота.
Когда вы сможете купить личного робота
В ближайшие годы развитие отрасли будет определяться несколькими факторами:
Совершенствование ИИ для управления роботами. Модели типа Gemini Robotics и Isaac GR00T N1 улучшают то, как роботы понимают окружающий мир и взаимодействуют с людьми. Интеграция компьютерного зрения, понимания естественного языка и генеративного ИИ делает роботов более полезными и интуитивными.
Снижение стоимости производства. В 2022 году цены на гуманоидов составляли 50 000–150 000 долларов, сегодня — 30 000–150 000 долларов. Tesla планирует выпускать роботов Optimus примерно за 20 000 долларов. Для массового домашнего внедрения они должны быть дешевле.
Расширение функциональных возможностей и времени действия. Современные роботы становятся более ловкими и универсальными. Прогресс в аккумуляторных технологиях должен увеличить время автономной работы с нынешних 2–3 часов до полного рабочего дня.
Массовое внедрение человекоподобных роботов в повседневную жизнь, вероятно, будет происходить поэтапно. В ближайшие годы мы увидим широкое внедрение гуманоидных роботов в промышленности и логистике. Эта фаза станет важным шагом к массовому производству и снижению стоимости технологии.
По мере совершенствования технологий и снижения цен роботы начнут появляться в сфере услуг — гостиницах, аэропортах, торговых центрах и медицинских учреждениях. Они будут выполнять функции консьержей, помощников, обслуживающего персонала. Уже сегодня роботы вроде Pepper и KIME используются для взаимодействия с клиентами и приготовления напитков.
К началу 2030-х годов при условии дальнейшего снижения стоимости до уровня современных бытовых приборов человекоподобные роботы начнут появляться в домах. Сначала это будут специализированные модели для ухода за пожилыми людьми и людьми с ограниченными возможностями, затем — универсальные домашние помощники.