Обновить

Комментарии 42

Так где систему-то пощупать?

Угу, такие новости без ссылки ощущаются почти бессмысленными: непонятно, произошло повышение способностей моделей или нет

Погуглил, нашёл только фрагмент презентации (по которому новость и написана), там немножко показывают «в действии» («смотрите, запустили Doom»), но по такому демо тоже немного поймёшь

Пощупал уже. Если там такое во Flash, что там тогда на Pro ждать? Приятно удивил.

У меня есть пару настроек которые очень хорошо определяют уровень модели. А именно я всегда начинаю с уровня администрирования сервера. У меня достаточно много параметров для тюнинга сервера, я просто пускаю модель на сервер и прошу составить аудит всех настроек и слабых мест, оптимизации.

Пробовал такое с многими моделями, GPT5.5 лучше всех справилась. Kimi2.6 кстати был рядом ChatGPT 5.5 (10 минут), но работал в 3 раза дольше, справился за 30 минут. То есть мозги есть, но часто страдает от долгих размышлений. Если есть время Kimi2.6 вполне годная модель.

Google 3.5 Flash справился на уровне ChatGPT 5.5 но сделал это за 3 минуты и с минимальными тратами лимитов. Antigravity. Можно сказать подписка AG за 20$ начала набирать смысл. Пока не пробовал в кодинге. Если PRO окажется круче ChatGPT 5.5, есть смысл ULTRA

Claude не тестили?

Claude Opus 4.7 в дополнение, как финальный акт. Лучше или нет? Я думаю лучше, но годится как финальный проверяющий, как рабочая лошадка нет, как аудитор, опытный критик, 20$ подписки в моем случае хватает на полноценный 1 аудит впритык и сразу упирается в 5 часовой лимит. Вначале ждешь его аудит 15 минут, потом, смотришь, что лимитов не хватило... ;)

На 20 баксах там далеко не уедешь, да. Но за 100 уже комфортно

Antigravity.

>Google поручил агентам на Antigravity 2.0 и Gemini 3.5 Flash собрать работающую операционную систему с нуля.

как поставить эту работающую ОС на pixel? или всё-таки делающую-вид-что-работающую?

С учетом того что модель не просто генерировала код, а её результаты использовали агенты, которые делают реальные запуски, то в условном KVM я думаю оно запустится, другое дело скопипастить ОС (благо примеров полно) может быть и не таким великим достижением по сравнению с прикладным софтом.

как поставить эту работающую ОС на pixel

Дай бог на ардуинку, лампочками моргать

Ось понятие растяжимое

Год назад где-то написал рабочую ось с ChatGPT (прямо в чате), оно работало даже, запускалось, задачи переключало, но очень все базово. Сейчас, с реальными ОС и драйверами у нас получается ну такое - Opus 4.7 генерирует рандомный код, который через N-итераций может заработает, в то же время что-то другое сломается.

С нуля - это как ?
По книжкам ассемблера и С++ ?
Или всё же у них был доступ к истории разработок различных ОС ?
Оба варианта "с нуля" - но, как в анекдоте, есть НЮАНС

Нули бывают разные!

Да как-как, наконец модели для обучения дали исходники ядра и утилит Линукса, и она "сама-сама, вот видите, совсем сама!" и "из головы" и придумала.

Правда, вспоминается анекдот про секретарей-машинисток:

Три машинистки беседуют. Одна говорит:

- Я могу печатать со скоростью 200 знаков в минуту.

Другая:

- А я 250!

Третья:

- А я 1000!

Все: ???!!!

Третья продолжает (тихонько так)

- ...только такая фигня получается...

А вы когда код пишете, вы с нуля, с книжек или ещё и личный опыт в программировании используете? А может, грешным делом, и в интернете гуглили?

Я не заявляю, что написал с нуля.
С нуля ОС работающую видел - только менуэт. Остальное форки.
Вот если бы там было написано, что это форк того же линукса или андроида - тогда ОК, но написано "с нуля".

Windows может закрываться?

Какой-то абстрактный софт делают. Давайте ближе к реальной разработке.

Дали спеку на МВП, потом изменения на изменения и так итерационно. И ЛЛМ должна сама по спекам сделать рабочий продукт, соответствующий спекам. Про качество и полноту спек тоже не нужно забывать, что там будут пробелы, которые ЛЛМ должна догадаться/спросить пользователя.

Полагаю такой пайплайн сейчас многие собирают или уже собрали но молчат

Если такой пайп есть и он рабочий, то почему мы не видим его реализации и анонса от опенаи и антропика? Они же все делают для поддержания хайпа, например, эта новость тому пример

Сначала на нем надо заработать, полагаю. В конторе сейчас этим занимаемся. Подробнее не расскажу, но проблема которую нужно решить это воспроизводимость реализации

Я про реализацию от самой большой тройки ИИ или опенсорс. Идея на поверхности лежит.

С интересами большой тройки это расходится, т.к. выручка коррелирует с потраченными токенами, а не с решенными клиентскими задачами)

Интересы большой тройки потопить остальных из этой тройки, любыми путями.

Не очень понял, как они сравнивали скорость работы проприетарных моделей? Ведь она зависит от оборудования, на которых они работают.

Было бы интересно узнать о быстродействии на какой-нибудь одной и той же хоть сколько-нибудь разумно доступной потребительской системе.

Скорость можно сравнить в том же openrouter, предварительно выбрав быстрого провайдера для каждой модели.

Я, наверное, что-то не понимаю, но как мне кажется - это измерение скорости работы провайдера, а не модели самой по себе. Поставит провайдер себе карточек побольше и пошустрее - и повысится у него параметр Throughput, разве не так?

Согласен, тут не скорость непосредственно модели.

Самое интересное - как теперь модель вызывает инструменты и как они для неё описываются. Нужно ли каждый раз засорять контекст мануалами по их использованию. То есть что является уже встроенным железобетонно и не требует свистоплясок с инъекциями

Ну вот гугол решил идти в ногу со временем и превратил antigravity в голого агента, без редактора кода. И без автокликера retry. И как теперь быть? Поставил antigravity IDE а там то же самое, нет кода -_-

надо удалить содержание папки localapp/antigravity и поставить именно antigravity 2 ide заново, мне помогло. Путь может быть не верен, делайте бэкапы проверяйте информацию.

или вот так

  1. Paste this directory path exactly and hit Enter: %LOCALAPPDATA%\Programs\Antigravity\

  2. Open the resources folder.

  3. Find the file named app.asar (this is the new 2.0 Agent runtime). Right-click it, rename it, and change it to: app.asar.bak

  4. Go back up one directory level to the main folder and look for Antigravity IDE.exe. Right-click it and choose Run as administrator.

Погонял модель немного, и первично - по юзабилити и правда напоминает Pro 3.1. Шустрый (прямо выплёвывает стену текста), умеет дёргать тулзы, как будто бы в плане рассуждений тоже не дурак. Порежут его, правда, наверняка потом порежут...

Гугл в течении декад лидировал по экспертизе ИИ, научная статья attention is all you need была написана именно гениями гугла, всякие клауде и чатжпт - это залётные оппортунисты по сравнению с гуглом, тем временем гугл неторопливо побеждает по вообще всем ии фронтам на истощение

Потому что продают рекламу всему миру. И бабла хоть залейся.

При этом в начале нулевых они не знали как начать зарабатывать на рекламе и наняли спеца со стороны. Такие вот гении.

Я, наверное, предвзят, но из этой троицы я бы предпочёл именно Гугла. Несмотря на все претензии к нему, он всё же is less evil, чем Anthropic и OpenAI, по моим ощущениям.

Разработать ОС на c++ с встроенным сервером для приема/передачи бинарных данных: https://share.google/aimode/EV8rmBHjQ2lh0OIqc Какой бы следующий вопрос задали бы вы? С чего бы начали такую разработку?

Загнал свой бенчмарк по сборке и кодингу проектов на Swift и Objective-C. Получил результаты для Gemini 3.5 Flash:

  • Время - 22 минуты и 20 секунд

  • Цена - 3.34 $

  • Токены - 7 млн 107 тыс

В прошлый раз Gemini 3.1 Flash (Lite) не смогла решить всю задачу, но решила основную часть за 4 минуты и 5 центов.

Gemini 3.1 Pro ее решила так:

  • Время - 6 минут

  • Цена - 0.86 $

  • Токены - 885 тыс

Claude Opus 4.7 такие данные были:

  • Время - 20 минут 24 сек

  • Цена - 2.92 $

  • Токены - 2 млн 795 тыс

Виден прогресс, прошлая версия Flash (3.1) не смогла решить задачу, новая версия решает, но дороже и дольше конкурентов. Также отработала чуть качественнее и дешевле (но дольше) чем GPT 5.5. Пока не вижу смысла переключаться на нее, только если оплачивается компанией, а не лично. Ждем Gemini 3.5 Pro.

Там еще и засада с ценой.

Если у кого-то в API Openrouter была прописана модель Gemini Flash Latest,

то цена токенов внезапно вырастет в три раза.

Увидел вчера, что софт стал использовать Gemini 3.5 Flash вместо дешевой предыдущей и побежал пересобирать конфиги.

Да, тоже настораживают эти latest. Я смотрю Logs вкладку на openrouter.ai, которая показывает модель и провайдера, чтобы точно удостоверится что в opencode выбрано верно.

Детальные тайм-коды с презентации https://www.youtube.com/watch?v=wYSncx9zLIU Комменты, к сожалению, закрыты, поэтому не могу туда добавить

00:01 Introduction and Google’s AI Vision

01:40 Sundar Pichai on Hyper-Progress and Infrastructure

03:53 Token Scaling and Global Product Adoption

05:41 Reimagining Search and Maps with Gemini

07:40 Transformative Search Experiences in YouTube

09:12 Docs Live: Real-time Voice Editing Demo

11:52 Custom Silicon: Next-gen TPU 8t and 8i

15:56 DeepMind’s Progress Toward World Models and AGI

17:15 Introducing Gemini Omni for Multimodal Generation

20:50 SynthID and Content Transparency Standards

23:11 Launching Gemini 3.5 Flash Performance Benchmarks

25:20 Antigravity 2.0: Agent-First Development Platform

28:04 Live Demo: Building an OS from Scratch

34:55 Gemini Spark: Your Personal AI Agent

36:27 Managing Complex Tasks with Spark Dashboard

40:24 Mobile Voice Command and Multi-tasking Demo

43:33 The Next Chapter of Google AI Search

46:01 Redesigning the Iconic Search Box Experience

47:56 Search Agents: Personalized 24/7 Information Monitors

50:42 Agentic Coding and Generative UI in Search

54:43 Custom Stateful Experiences and Planning Tools

58:43 Agentic Commerce: Universal Cart and Payments

1:08:02 Redesigning the Gemini App Experience

1:13:10 Creative Video Editing with Gemini Omni

1:15:00 Daily Brief and MCP Partner Integrations

1:18:25 Gemini for Mac OS Voice Dictation Demo

1:23:41 Google Pics: New Image Editing Tool

1:25:33 Stitch: Collaborative Web UI Design Platform

1:28:11 Google Flow Agent: Large-Scale Creative Edits

1:33:02 Android XR and Intelligent Eyewear Progress

1:34:32 Samsung, Warby Parker, and Gentle Monster Partnership

1:40:01 Live Demo: Smart Glasses with Personal Intelligence

1:45:15 AI in Cybersecurity and Code Security Agents

1:46:37 Gemini for Science: Accelerating Scientific Discovery

1:47:35 WeatherNext: Predicting Hurricanes via AI Simulation

1:49:14 Solving Disease with Biotech and AlphaFold

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости