runaway_llm19 мая в 17:38

ИИ собрал рабочую ОС за 12 часов: представлена Gemini 3.5 Flash

2 мин

15K

Искусственный интеллектМашинное обучение *

Комментарии 42

Wesha 19 мая в 17:47

Так где систему-то пощупать?

phillennium 19 мая в 18:34

Угу, такие новости без ссылки ощущаются почти бессмысленными: непонятно, произошло повышение способностей моделей или нет

Погуглил, нашёл только фрагмент презентации (по которому новость и написана), там немножко показывают «в действии» («смотрите, запустили Doom»), но по такому демо тоже немного поймёшь

akardapolov 20 мая в 06:27

ontop 19 мая в 20:47

Пощупал уже. Если там такое во Flash, что там тогда на Pro ждать? Приятно удивил.

У меня есть пару настроек которые очень хорошо определяют уровень модели. А именно я всегда начинаю с уровня администрирования сервера. У меня достаточно много параметров для тюнинга сервера, я просто пускаю модель на сервер и прошу составить аудит всех настроек и слабых мест, оптимизации.

Пробовал такое с многими моделями, GPT5.5 лучше всех справилась. Kimi2.6 кстати был рядом ChatGPT 5.5 (10 минут), но работал в 3 раза дольше, справился за 30 минут. То есть мозги есть, но часто страдает от долгих размышлений. Если есть время Kimi2.6 вполне годная модель.

Google 3.5 Flash справился на уровне ChatGPT 5.5 но сделал это за 3 минуты и с минимальными тратами лимитов. Antigravity. Можно сказать подписка AG за 20$ начала набирать смысл. Пока не пробовал в кодинге. Если PRO окажется круче ChatGPT 5.5, есть смысл ULTRA

vaslobas 19 мая в 21:32

Claude не тестили?

ontop 20 мая в 12:33

Claude Opus 4.7 в дополнение, как финальный акт. Лучше или нет? Я думаю лучше, но годится как финальный проверяющий, как рабочая лошадка нет, как аудитор, опытный критик, 20$ подписки в моем случае хватает на полноценный 1 аудит впритык и сразу упирается в 5 часовой лимит. Вначале ждешь его аудит 15 минут, потом, смотришь, что лимитов не хватило... ;)

vaslobas 20 мая в 13:32

На 20 баксах там далеко не уедешь, да. Но за 100 уже комфортно

whoisking 20 мая в 01:33

Пощупал уже

Топикстартер говорил про ОС, а не про ллм

mojetbit 20 мая в 05:40

Antigravity.

linashop 19 мая в 17:51

>Google поручил агентам на Antigravity 2.0 и Gemini 3.5 Flash собрать работающую операционную систему с нуля.

как поставить эту работающую ОС на pixel? или всё-таки делающую-вид-что-работающую?

MechanicZelenyy 19 мая в 18:33

С учетом того что модель не просто генерировала код, а её результаты использовали агенты, которые делают реальные запуски, то в условном KVM я думаю оно запустится, другое дело скопипастить ОС (благо примеров полно) может быть и не таким великим достижением по сравнению с прикладным софтом.

Dhwtj 19 мая в 18:46

как поставить эту работающую ОС на pixel

Дай бог на ардуинку, лампочками моргать

Ось понятие растяжимое

AlexeiZavjalov 19 мая в 18:58

Год назад где-то написал рабочую ось с ChatGPT (прямо в чате), оно работало даже, запускалось, задачи переключало, но очень все базово. Сейчас, с реальными ОС и драйверами у нас получается ну такое - Opus 4.7 генерирует рандомный код, который через N-итераций может заработает, в то же время что-то другое сломается.

7OH 19 мая в 18:51

С нуля - это как ?
По книжкам ассемблера и С++ ?
Или всё же у них был доступ к истории разработок различных ОС ?
Оба варианта "с нуля" - но, как в анекдоте, есть НЮАНС

Wesha 19 мая в 19:23

Нули бывают разные!

achekalin 19 мая в 20:21

Да как-как, наконец модели для обучения дали исходники ядра и утилит Линукса, и она "сама-сама, вот видите, совсем сама!" и "из головы" и придумала.

Правда, вспоминается анекдот про секретарей-машинисток:

Три машинистки беседуют. Одна говорит:
- Я могу печатать со скоростью 200 знаков в минуту.
Другая:
- А я 250!
Третья:
- А я 1000!
Все: ???!!!
Третья продолжает (тихонько так)
- ...только такая фигня получается...

IAmNotMe 20 мая в 16:46

А вы когда код пишете, вы с нуля, с книжек или ещё и личный опыт в программировании используете? А может, грешным делом, и в интернете гуглили?

7OH 20 мая в 17:55

Я не заявляю, что написал с нуля.
С нуля ОС работающую видел - только менуэт. Остальное форки.
Вот если бы там было написано, что это форк того же линукса или андроида - тогда ОК, но написано "с нуля".

Kot_na_klaviature 19 мая в 18:55

Windows может закрываться?

vaslobas 19 мая в 18:58

Какой-то абстрактный софт делают. Давайте ближе к реальной разработке.

Дали спеку на МВП, потом изменения на изменения и так итерационно. И ЛЛМ должна сама по спекам сделать рабочий продукт, соответствующий спекам. Про качество и полноту спек тоже не нужно забывать, что там будут пробелы, которые ЛЛМ должна догадаться/спросить пользователя.

olku 20 мая в 05:08

Полагаю такой пайплайн сейчас многие собирают или уже собрали но молчат

vaslobas 20 мая в 06:41

Если такой пайп есть и он рабочий, то почему мы не видим его реализации и анонса от опенаи и антропика? Они же все делают для поддержания хайпа, например, эта новость тому пример

olku 20 мая в 06:46

Сначала на нем надо заработать, полагаю. В конторе сейчас этим занимаемся. Подробнее не расскажу, но проблема которую нужно решить это воспроизводимость реализации

vaslobas 20 мая в 06:47

Я про реализацию от самой большой тройки ИИ или опенсорс. Идея на поверхности лежит.

fakedup 20 мая в 11:25

С интересами большой тройки это расходится, т.к. выручка коррелирует с потраченными токенами, а не с решенными клиентскими задачами)

vaslobas 20 мая в 11:42

Интересы большой тройки потопить остальных из этой тройки, любыми путями.

Medeyko 19 мая в 20:30

Не очень понял, как они сравнивали скорость работы проприетарных моделей? Ведь она зависит от оборудования, на которых они работают.

Было бы интересно узнать о быстродействии на какой-нибудь одной и той же хоть сколько-нибудь разумно доступной потребительской системе.

fermentum 19 мая в 21:33

Скорость можно сравнить в том же openrouter, предварительно выбрав быстрого провайдера для каждой модели.

Medeyko 20 мая в 08:37

Я, наверное, что-то не понимаю, но как мне кажется - это измерение скорости работы провайдера, а не модели самой по себе. Поставит провайдер себе карточек побольше и пошустрее - и повысится у него параметр Throughput, разве не так?

fermentum 20 мая в 09:06

Согласен, тут не скорость непосредственно модели.

TimurZhoraev 19 мая в 20:52

Самое интересное - как теперь модель вызывает инструменты и как они для неё описываются. Нужно ли каждый раз засорять контекст мануалами по их использованию. То есть что является уже встроенным железобетонно и не требует свистоплясок с инъекциями

Barnaby 19 мая в 22:06

Ну вот гугол решил идти в ногу со временем и превратил antigravity в голого агента, без редактора кода. И без автокликера retry. И как теперь быть? Поставил antigravity IDE а там то же самое, нет кода -_-

dkeiz 20 мая в 10:21

надо удалить содержание папки localapp/antigravity и поставить именно antigravity 2 ide заново, мне помогло. Путь может быть не верен, делайте бэкапы проверяйте информацию.

или вот так

Paste this directory path exactly and hit Enter: %LOCALAPPDATA%\Programs\Antigravity\
Open the resources folder.
Find the file named app.asar (this is the new 2.0 Agent runtime). Right-click it, rename it, and change it to: app.asar.bak
Go back up one directory level to the main folder and look for Antigravity IDE.exe. Right-click it and choose Run as administrator.

Wolf4D 19 мая в 22:20

Погонял модель немного, и первично - по юзабилити и правда напоминает Pro 3.1. Шустрый (прямо выплёвывает стену текста), умеет дёргать тулзы, как будто бы в плане рассуждений тоже не дурак. Порежут его, правда, наверняка потом порежут...

SingleDigitIq 20 мая в 00:06

Гугл в течении декад лидировал по экспертизе ИИ, научная статья attention is all you need была написана именно гениями гугла, всякие клауде и чатжпт - это залётные оппортунисты по сравнению с гуглом, тем временем гугл неторопливо побеждает по вообще всем ии фронтам на истощение

Drayden 20 мая в 08:29

Потому что продают рекламу всему миру. И бабла хоть залейся.

При этом в начале нулевых они не знали как начать зарабатывать на рекламе и наняли спеца со стороны. Такие вот гении.

Medeyko 20 мая в 08:40

Я, наверное, предвзят, но из этой троицы я бы предпочёл именно Гугла. Несмотря на все претензии к нему, он всё же is less evil, чем Anthropic и OpenAI, по моим ощущениям.

nomhoi 20 мая в 00:31

Разработать ОС на c++ с встроенным сервером для приема/передачи бинарных данных: https://share.google/aimode/EV8rmBHjQ2lh0OIqc Какой бы следующий вопрос задали бы вы? С чего бы начали такую разработку?

house2008 20 мая в 05:44

Загнал свой бенчмарк по сборке и кодингу проектов на Swift и Objective-C. Получил результаты для Gemini 3.5 Flash:

Время - 22 минуты и 20 секунд
Цена - 3.34 $
Токены - 7 млн 107 тыс

В прошлый раз Gemini 3.1 Flash (Lite) не смогла решить всю задачу, но решила основную часть за 4 минуты и 5 центов.

Gemini 3.1 Pro ее решила так:

Время - 6 минут
Цена - 0.86 $
Токены - 885 тыс

Claude Opus 4.7 такие данные были:

Время - 20 минут 24 сек
Цена - 2.92 $
Токены - 2 млн 795 тыс

Виден прогресс, прошлая версия Flash (3.1) не смогла решить задачу, новая версия решает, но дороже и дольше конкурентов. Также отработала чуть качественнее и дешевле (но дольше) чем GPT 5.5. Пока не вижу смысла переключаться на нее, только если оплачивается компанией, а не лично. Ждем Gemini 3.5 Pro.

fermentum 20 мая в 09:10

Там еще и засада с ценой.

Если у кого-то в API Openrouter была прописана модель Gemini Flash Latest,

то цена токенов внезапно вырастет в три раза.

Увидел вчера, что софт стал использовать Gemini 3.5 Flash вместо дешевой предыдущей и побежал пересобирать конфиги.

house2008 20 мая в 09:42

Да, тоже настораживают эти latest. Я смотрю Logs вкладку на openrouter.ai, которая показывает модель и провайдера, чтобы точно удостоверится что в opencode выбрано верно.

AlexanderAnisimov 20 мая в 06:18

Детальные тайм-коды с презентации https://www.youtube.com/watch?v=wYSncx9zLIU Комменты, к сожалению, закрыты, поэтому не могу туда добавить

00:01 Introduction and Google’s AI Vision

01:40 Sundar Pichai on Hyper-Progress and Infrastructure

03:53 Token Scaling and Global Product Adoption

05:41 Reimagining Search and Maps with Gemini

07:40 Transformative Search Experiences in YouTube

09:12 Docs Live: Real-time Voice Editing Demo

11:52 Custom Silicon: Next-gen TPU 8t and 8i

15:56 DeepMind’s Progress Toward World Models and AGI

17:15 Introducing Gemini Omni for Multimodal Generation

20:50 SynthID and Content Transparency Standards

23:11 Launching Gemini 3.5 Flash Performance Benchmarks

25:20 Antigravity 2.0: Agent-First Development Platform

28:04 Live Demo: Building an OS from Scratch

34:55 Gemini Spark: Your Personal AI Agent

36:27 Managing Complex Tasks with Spark Dashboard

40:24 Mobile Voice Command and Multi-tasking Demo

43:33 The Next Chapter of Google AI Search

46:01 Redesigning the Iconic Search Box Experience

47:56 Search Agents: Personalized 24/7 Information Monitors

50:42 Agentic Coding and Generative UI in Search

54:43 Custom Stateful Experiences and Planning Tools

58:43 Agentic Commerce: Universal Cart and Payments

1:08:02 Redesigning the Gemini App Experience

1:13:10 Creative Video Editing with Gemini Omni

1:15:00 Daily Brief and MCP Partner Integrations

1:18:25 Gemini for Mac OS Voice Dictation Demo

1:23:41 Google Pics: New Image Editing Tool

1:25:33 Stitch: Collaborative Web UI Design Platform

1:28:11 Google Flow Agent: Large-Scale Creative Edits

1:33:02 Android XR and Intelligent Eyewear Progress

1:34:32 Samsung, Warby Parker, and Gentle Monster Partnership

1:40:01 Live Demo: Smart Glasses with Personal Intelligence

1:45:15 AI in Cybersecurity and Code Security Agents

1:46:37 Gemini for Science: Accelerating Scientific Discovery

1:47:35 WeatherNext: Predicting Hurricanes via AI Simulation

1:49:14 Solving Disease with Biotech and AlphaFold

Зарегистрируйтесь на Хабре, чтобы оставить комментарий