
Недавно в эфире 60 Minutes (CBS News) вышел подробный репортаж о прорывных разработках Google DeepMind в сфере ИИ. Корреспондент Скотт Пелли протестировал сразу несколько по‑настоящему впечатляющих технологий — от «умных очков» Astra до моделей, мгновенно создающих интерактивные 3D‑миры в том числе для обучения роботов. Давайте посмотрим, как это работает и чем все это может быть полезно.
Astra: ИИ‑ассистент, который «видит» и «слышит»
Astra - это ИИ‑ассистент, подключенный к камере и микрофонам на специальных очках. Astra распознает объекты, читает эмоции и даже придумывает истории о том, что видит. На видео видно, как журналист надел очки и спросил: «Что это за здание?» — и услышал: «Это Coal Drops Yard, торгово‑развлекательный район». В галерее Astra узнала картину Эдварда Хоппера «Автомат». На вопрос об эмоциях героини ИИ ответил, что она «задумчива и одинока», а затем придумал короткий рассказ о ее мыслях и чувствах. В интервью глава DeepMind Демис Хассабис признался, что не ожидал, насколько быстро ИИ‑системы смогут так уверенно понимать физический мир.
Veo 2: фотореалистичное видео по текстовому запросу
Еще два года назад демо‑версия модели DeepMind создавала размазанные ролики по тексту вроде «золотистый ретривер с крыльями». В новом Veo 2 при более подробном описании получился почти что фильм: четко прорисованный щенок с прозрачными перистыми крыльями, бегущий по цветущему лугу, с солнечными бликами на перьях.
Пару примеров видео, созданных Veo 2:
Genie 2: 3D‑мир из одной фотографии
Главный сюрприз показа — модель Genie 2, которая на основе одной статичной картинки строит интерактивную трёхмерную локацию. Сотрудник DeepMind загрузил фото водопада в Калифорнии. Genie 2 сгенерировала из него видео от первого лица: сперва вы стоите у края водопада, а затем ИИ «домысливает» дальше — появляются новые скалы, деревья и пейзажи за горизонтом. В другом примере бумажный самолетик парил над диким западом, а модель без остановки дорисовывала каждую следующую сцену. В DeepMind обучили «агента‑рыцаря»: он исследовал сгенерованный мир, поднялся по лестнице, а Genie 2 мгновенно «достраивала» окружающее пространство.
Хассабис объяснил, что такие «модели мира» станут основой для обучения реальных роботов: собирать огромные объемы данных в настоящем мире дорого и медленно, а в симуляции можно «прокачать» алгоритм практически без ограничений, а затем доработать на небольшом количестве реальных примеров.
Перспективы и уличные съемки
DeepMind уже пробует задействовать огромную базу Google: снимки Street View, данные карт и спутников. В будущем это поможет дать ИИ‑системам «географическое чутье» и позволит делать из ваших обычных фотографий полностью интерактивные 3D‑сцены — будь то пейзажи с отпуска или вид из окна соседней улицы.
Все эти технологии демонстрируют, как быстро развиваются ИИ-системы. Ближайшая цель DeepMind — не просто развлечь людей, а создать универсальную «модель мира», которая поймет реальные законы физики и поможет в обучении роботов и развитии виртуальных миров.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и обьясняю, как работают все эти ИИ-чудеса.