LLM учили на миллионах примеров использования классических инструментов и перебить это "интуитивное понимание" системной инструкций - очень сложно.
Это еще один "перевертыш" - большинство ожидали, что ИИ будет использовать самые современные разработки, а он предпочитает поговорку "старый конь борозды не испортит" :)
IMHO, единственный реальный шанс на успех для таких проектов - плавный переход.
Нужно чтобы приложение (а лучше расширение браузера) внедрялось в страницу сервиса (тот же youtube), расширяя его функционал и постепенно перенося все, что пользователь посмотрел в распределенную сеть, так что другие пользователи, у которых тоже это приложение стоит, если смотрят видео которое уже в расп.сети - смотрели его уже оттуда, а не с серверов гугла...
Постепенно все больше популярных видео скопированы, и можно также постепенно подменять интерфейс, алгоритмы поиска, рекомендации... Пользователь по прежнему может найти любые видео youtube, но уже встроенными в собственную ленту приложения... Если у пользователя нет доступа к youtube видео скачивается через других участников, но хранит его, в первую очередь, тот кто первым посмотрел (своеобразная плата за доступ), и так далее.
Идея в том чтобы пользователи могли даже не понимать как все это работает внутри. Они просто пользуются известным им сервисом, но имеют плюсы (возможность скачать видео, просмотр оффлайн, обход блокировок, гибкие настройки поиска и пр.) - а по сути развивают распределенную систему.
Но конечно, это все незаконно и не понравится глобальным сервисам (особенно в случае маломальского успеха), так что только в качестве идеи "А было бы здорово" ;)
Т.е. если, например, половина наших чеков за пределами диапазона 100-120, но мы берем достаточно большие выборки и усредняя в 95% случаев получаем их СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ в диапазоне 100-120 - то мы можем сказать что:
С вероятностью 95% истинный средний чек находится между 100 и 120 рублями.
Так?
Если да - то я вас поздравляю, вы настолько запутанно объяснили эту несложную концепцию, что она по статье совершенно не считывается :)
Рассуждения вроде понятны, но не понятно о какой "фундаментальной ошибке" вы говорите во фразе:
С вероятностью 95% истинный средний чек находится между 100 и 120 рублями.
Если я скажу эту фразу менеджеру то он поймет ее так:
вариант 1. "если у нас будет много много чеков, то примерно 95% из них будут от 100 до 120 р".
вариант 2. "если я ткну в таблице случайный чек, то с вероятностью 95% он будет от 100 до 120 р".
Поясните где тут фундаментальная ошибка?
Из статьи понятно, что есть мат. дисциплина в которой именно так сказать будет некорректно так как в ней приняты к употреблению другие термины. Тут вопросов нет.
Ну, а в геометрии, например, слово "секунда" имеет не то же значение, что в управлении проектами. Но если менеджер спросит меня сколько времени автомат выдает чек то рассуждать об углах будет довольно странно, даже если в автомате выдачи чеков геометрия занимает важное место...
Понятно, что это все выглядит бессмысленной придиркой, вы недаром изложили материал иронично и понятно. Но даже в шутке если вы выдвигаете какое-то утверждение то хочется понять почему это так. По вашей статье я так и не понял почему ваш способ описывать реальность лучше чем у менеджера.
если такой агент сможет играть на уровне приличного игрока, то результат будет универсальным.
Если.
Извините, сложно удержаться)
А вообще, imho, чтобы взять такую планку по реакции, одной равномерной архитектуры мало. Нужна многоскоростная сеть, где внутри одной модели живут «быстрые» и «медленные» нейроны/блоки. Быстрые — сильно сжатая/квантованная подсеть, их мало, поэтому они могут обновляться гораздо чаще и выдавать грубый ответ за ~150 мс. Медленная часть модели обновляется реже, читает состояние быстрых и уже уточняет стратегию и долгосрочное состояние.
Концептуально это что-то между multi-timescale RNN и self-speculative decoding: быстрая подсеть — это встроенная внутрь той же модели сжатая копия, которая прогоняется много раз между апдейтами «тяжёлой» и постепенно учится его опережать.
Вероятно идея не в том чтобы управлять голубем как классическим дроном с пульта. А в том чтобы условно задать "точку назначения", а дальше птица живет обычной жизнью, летает по помойкам и пр., но ее "тянет" в заданном направлении контроллер. Вот и получается, что за пару дней можно пролететь 1000 км и уже на целевом объекте снимать видео и пр.
Вызывает опасения не столько текущая реализация сколько потенциал. Например по миниатюризации тут особых ограничений почти нет. микрокамера на клюв, скрытый под перьями микроконтроллер с питанием от хаотичных перемещений - и фактически птица ничем не будет отличаться от обычной. А стоимость такого решения может составить (в перспективе) десятки центов. Модифицированные птицы могут годами наводнять города. Дополнить контроллер еще целью на основе оптического трекинга, активируемой в нужный момент... Можно продолжать но как-то неуютно становится.
4.1 - у меня не позволяет выбрать режим эксперта есть только одна опция (beta).
Оба варианта решают задачу неправильно. К Heavi у меня доступа нет.
Впрочем, думаю дело в немного неточной формулировке задачи. Выражение "приподнять веревку" даже с комментарием "(в одной точке)" видимо отсылает к типичной задаче где веревку поднимают равномерно и дальше модель уже зацикливается на ней и не может решить задачу. Хотя то, что и после подсказок и даже схемы - все равно модель настаивала на неправильном решении - не здорово.
Но если сформулировать иначе:
представим, что земля - идеальный шар. ее опоясали нерастяжимой веревкой по экватору. а потом увеличили длину веревки на 1 метр. Если начать тянуть веревку вверх в одной точке, насколько высоко ее можно поднять? Трением и массой веревки пренебречь.
Немного оффтоп, но заметил интересное. Если взять известную задачу и немного ее изменить, то LLM, даже топовые, начинают ужасно тупить с решением. Конкретный пример задачи:
представим что земля - идеальный шар. ее опоясали нерастяжимой веревкой по экватору. а потом увеличили длину веревки на 1 метр. насколько можно будет приподнять веревку (в одной точке) над поверхностью земли?
Задача очень напоминает известную, где веревку поднимают равномерно по всей поверхности, но из-за отличия (поднимаем только в одной точке) - тут решение должно быть совершенно иным, хоть и тоже достаточно простым.
Из протестированных только Gemini 3 смог решить задачу, и то потому, что ее уже видел. GPT-5.1, Grok 4.1 - ходят по кругу, тупят, сбоят, но не могут решить даже после подсказок и чертежа...
Интересно, а господа исследователи проверили как модели отнесутся к обычным "иносказаниям", без рифмы? Потому как в стихах, да еще и учитывая, что их рифмовали тоже нейронкой - весьма вероятно смысл запроса вуалировался за метафорами. Вот LLM-ки и начинали на него реагировать меньше...
Так что вопрос влияния именно стихотворной формы в исследовании раскрыт слабовато.
Не думаю, что дело в истории входа. У меня половина входов идет из РФ.
Есть еще такая штука как платежные профили. У меня с регистрацией в другом сервисе была проблема, и я как-то вышел на страницу где оказалось, что у меня куча старых платежных профилей из РФ, на давно устаревшие карты. Я удалил все кроме того куда американская карта привязана - и все заработало.
Спасибо, действительно помогло. Ассоциированный регион стоял Россия, при том, что сам аккаунт давно перевел на Штаты.
Поменял, где-то через час пришло подтверждение и сразу получилось зайти в Antigravity.
На момент подачи заявки на смену региона сидел через норвежский VPN, и при входе в Antigravity - тоже.
До этого зайти пробовал много раз - не пускало (даже про неверную страну не писало, просто крутилась загрузка бесконечно).
Для информации, может кому пригодиться: у меня в аккаунте регион стоял Штаты, карта привязана американская, других платежных шлюзов нет, номера телефона штатовского нет. Аккаунту много лет, регистрировал его в РФ. Плюс на этом аккаунте куплена подписка gemini, и все другие сервисы работают отлично.
Всего этого было недостаточно чтобы зайти в Antigravity, а вот смена ассоциированного региона - действительно помогла. Так что спасибо за подсказку еще раз!
Думаю имелось ввиду, что если в том же курсоре подключить LLM через API (тот же gpt или claudу) - получается сильно дороже, чем сжигая то же число токенов через подписку курсора.
Если брать разработчиков то для подавляющего большинства образование средне-статистического РФ вуза в лучшем случае бесполезно.
Ну вот, вы уже даете оценки, хотя сами признаете, что данных чтобы делать такие выводы у вас нет. И ссылок кстати не приводите (те что давали выше это утверждение не обосновывают).
А по моему наблюдению, добиться успеха для того кто вуз окончил (при прочих равных) - сильно проще. Не из-за каких-то знаний или привилегий, а просто по жизни проще.
При прохождении ключевых точек влияющих на на карьерный рост и успех - ты находишься среди людей в таком же положении. Они также ищут подработку, ходят на собеседования, обсуждают варианты, идеи, стартапы... Это все вроде незаметно и неважно, но по факту успешных стартов оказывается больше, чем если сидеть дома и пилить очередную РПГ с LLM...
Но просто это мое мнение. Я взял цифры исходя из него.
Вы можете свои подставить или формулу переиначить, например заменив "гениальность" на упорство и общительность. Дело ваше.
Вы сами взяли в качестве исходных данных 0.15 для универа и 0.05 без универа и на основе этого доказали что с универом будет 15% а без 5.5%
Так ведь в этом и смысл:)
Мы взяли оценку, что для обычного человека ВУЗ в среднем помогает, если не за счет знаний то за счет связей и пр.
И взяли оценку "из историй успешного успеха" где кажется что ВУЗ наоборот мешает раннему прорыву.
После чего параметром "гениальности" показали, что первый вариант куда вероятнее. Тут нет никакой магии) Рассуждения крайне просты.
То что мы получили оценку близкую к той что взяли за основу - это естественно!) Ведь мы и вероятность гениальности взяли мизерной, она и не должна была особо ничего поменять. Кто-то свою гениальность возьмет за 80% и обоснованно покинет ВУЗ:)
Все эти значения "на глаз", потому, что реально это измерить сложно, и ваши ссылки тут могут являться разве что косвенными показателями. А также потому, что цель у нас другая. Цель показать логику рассуждений, а не сделать обоснованный вывод, ведь его каждый должен сделать сам.
Можно было это все записать без чисел, был бы тот же уровень объективности, но в словах заметить ошибку рассуждений сложнее. А на числах - становится ясна логика - и каждый может поставить свои цифры и сделать свои выводы.
Это не статья по статистике, это просто рассуждения, но более формализованные, чтобы приходя к общему мнению не приходилось спорить о терминах, а требовалось только подставить свои субъективные оценки.
А вообще - почитайте "Гарри Поттер и Методы рационального мышления", там ГГ постоянно пользуется этим (и подобными) приемами. Полагаю большинство плюсов поставлены на самом деле не мне, а Юдковскому, как своеобразная ностальгия по подобной манере подхода к жизни)
Скорее их "зовет" обучающая выборка.
LLM учили на миллионах примеров использования классических инструментов и перебить это "интуитивное понимание" системной инструкций - очень сложно.
Это еще один "перевертыш" - большинство ожидали, что ИИ будет использовать самые современные разработки, а он предпочитает поговорку "старый конь борозды не испортит" :)
Вначале не понял где на фотографии "пластиковый выступ" с "компактной схемой управления"... А потом как понял... :)
"Кряк", сказала японская бензопила...
В gpt отдельно тарифицируются текстовые токены и аудио-токены. На практике 1$ это пара минут разговора.
Если тут будет минут 10 - это уже сильно лучше, но все еще слишком много для большинства применений.
IMHO, единственный реальный шанс на успех для таких проектов - плавный переход.
Нужно чтобы приложение (а лучше расширение браузера) внедрялось в страницу сервиса (тот же youtube), расширяя его функционал и постепенно перенося все, что пользователь посмотрел в распределенную сеть, так что другие пользователи, у которых тоже это приложение стоит, если смотрят видео которое уже в расп.сети - смотрели его уже оттуда, а не с серверов гугла...
Постепенно все больше популярных видео скопированы, и можно также постепенно подменять интерфейс, алгоритмы поиска, рекомендации... Пользователь по прежнему может найти любые видео youtube, но уже встроенными в собственную ленту приложения... Если у пользователя нет доступа к youtube видео скачивается через других участников, но хранит его, в первую очередь, тот кто первым посмотрел (своеобразная плата за доступ), и так далее.
Идея в том чтобы пользователи могли даже не понимать как все это работает внутри. Они просто пользуются известным им сервисом, но имеют плюсы (возможность скачать видео, просмотр оффлайн, обход блокировок, гибкие настройки поиска и пр.) - а по сути развивают распределенную систему.
Но конечно, это все незаконно и не понравится глобальным сервисам (особенно в случае маломальского успеха), так что только в качестве идеи "А было бы здорово" ;)
Т.е. если, например, половина наших чеков за пределами диапазона 100-120, но мы берем достаточно большие выборки и усредняя в 95% случаев получаем их СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ в диапазоне 100-120 - то мы можем сказать что:
Так?
Если да - то я вас поздравляю, вы настолько запутанно объяснили эту несложную концепцию, что она по статье совершенно не считывается :)
Рассуждения вроде понятны, но не понятно о какой "фундаментальной ошибке" вы говорите во фразе:
Если я скажу эту фразу менеджеру то он поймет ее так:
вариант 1. "если у нас будет много много чеков, то примерно 95% из них будут от 100 до 120 р".
вариант 2. "если я ткну в таблице случайный чек, то с вероятностью 95% он будет от 100 до 120 р".
Поясните где тут фундаментальная ошибка?
Из статьи понятно, что есть мат. дисциплина в которой именно так сказать будет некорректно так как в ней приняты к употреблению другие термины. Тут вопросов нет.
Ну, а в геометрии, например, слово "секунда" имеет не то же значение, что в управлении проектами. Но если менеджер спросит меня сколько времени автомат выдает чек то рассуждать об углах будет довольно странно, даже если в автомате выдачи чеков геометрия занимает важное место...
Понятно, что это все выглядит бессмысленной придиркой, вы недаром изложили материал иронично и понятно. Но даже в шутке если вы выдвигаете какое-то утверждение то хочется понять почему это так. По вашей статье я так и не понял почему ваш способ описывать реальность лучше чем у менеджера.
Если.
Извините, сложно удержаться)
А вообще, imho, чтобы взять такую планку по реакции, одной равномерной архитектуры мало. Нужна многоскоростная сеть, где внутри одной модели живут «быстрые» и «медленные» нейроны/блоки. Быстрые — сильно сжатая/квантованная подсеть, их мало, поэтому они могут обновляться гораздо чаще и выдавать грубый ответ за ~150 мс. Медленная часть модели обновляется реже, читает состояние быстрых и уже уточняет стратегию и долгосрочное состояние.
Концептуально это что-то между multi-timescale RNN и self-speculative decoding: быстрая подсеть — это встроенная внутрь той же модели сжатая копия, которая прогоняется много раз между апдейтами «тяжёлой» и постепенно учится его опережать.
Вероятно идея не в том чтобы управлять голубем как классическим дроном с пульта. А в том чтобы условно задать "точку назначения", а дальше птица живет обычной жизнью, летает по помойкам и пр., но ее "тянет" в заданном направлении контроллер. Вот и получается, что за пару дней можно пролететь 1000 км и уже на целевом объекте снимать видео и пр.
Вызывает опасения не столько текущая реализация сколько потенциал. Например по миниатюризации тут особых ограничений почти нет. микрокамера на клюв, скрытый под перьями микроконтроллер с питанием от хаотичных перемещений - и фактически птица ничем не будет отличаться от обычной. А стоимость такого решения может составить (в перспективе) десятки центов. Модифицированные птицы могут годами наводнять города. Дополнить контроллер еще целью на основе оптического трекинга, активируемой в нужный момент... Можно продолжать но как-то неуютно становится.
4.0 - запускал в режиме эксперта.
4.1 - у меня не позволяет выбрать режим эксперта есть только одна опция (beta).
Оба варианта решают задачу неправильно. К Heavi у меня доступа нет.
Впрочем, думаю дело в немного неточной формулировке задачи. Выражение "приподнять веревку" даже с комментарием "(в одной точке)" видимо отсылает к типичной задаче где веревку поднимают равномерно и дальше модель уже зацикливается на ней и не может решить задачу. Хотя то, что и после подсказок и даже схемы - все равно модель настаивала на неправильном решении - не здорово.
Но если сформулировать иначе:
То все упомянутые модели решают задачу правильно.
Немного оффтоп, но заметил интересное. Если взять известную задачу и немного ее изменить, то LLM, даже топовые, начинают ужасно тупить с решением. Конкретный пример задачи:
Задача очень напоминает известную, где веревку поднимают равномерно по всей поверхности, но из-за отличия (поднимаем только в одной точке) - тут решение должно быть совершенно иным, хоть и тоже достаточно простым.
Из протестированных только Gemini 3 смог решить задачу, и то потому, что ее уже видел. GPT-5.1, Grok 4.1 - ходят по кругу, тупят, сбоят, но не могут решить даже после подсказок и чертежа...
Остается надеться, что выражение "Чем ближе крах империи, тем безумнее ее законы" - обратимо.
Интересно, а господа исследователи проверили как модели отнесутся к обычным "иносказаниям", без рифмы? Потому как в стихах, да еще и учитывая, что их рифмовали тоже нейронкой - весьма вероятно смысл запроса вуалировался за метафорами. Вот LLM-ки и начинали на него реагировать меньше...
Так что вопрос влияния именно стихотворной формы в исследовании раскрыт слабовато.
Не думаю, что дело в истории входа. У меня половина входов идет из РФ.
Есть еще такая штука как платежные профили. У меня с регистрацией в другом сервисе была проблема, и я как-то вышел на страницу где оказалось, что у меня куча старых платежных профилей из РФ, на давно устаревшие карты. Я удалил все кроме того куда американская карта привязана - и все заработало.
Указал несколько галок, о том что "живу рядом", много путешествую, пользуюсь ВПН, другие люди на этом аккаунте тоже могут быть.. вроде так.
Напрямую не указывал что живу в штатах.
Возможно сыграло роль что карта американская уже пару лет как привязана.
Да
Спасибо, действительно помогло. Ассоциированный регион стоял Россия, при том, что сам аккаунт давно перевел на Штаты.
Поменял, где-то через час пришло подтверждение и сразу получилось зайти в Antigravity.
На момент подачи заявки на смену региона сидел через норвежский VPN, и при входе в Antigravity - тоже.
До этого зайти пробовал много раз - не пускало (даже про неверную страну не писало, просто крутилась загрузка бесконечно).
Для информации, может кому пригодиться: у меня в аккаунте регион стоял Штаты, карта привязана американская, других платежных шлюзов нет, номера телефона штатовского нет. Аккаунту много лет, регистрировал его в РФ. Плюс на этом аккаунте куплена подписка gemini, и все другие сервисы работают отлично.
Всего этого было недостаточно чтобы зайти в Antigravity, а вот смена ассоциированного региона - действительно помогла. Так что спасибо за подсказку еще раз!
Думаю имелось ввиду, что если в том же курсоре подключить LLM через API (тот же gpt или claudу) - получается сильно дороже, чем сжигая то же число токенов через подписку курсора.
Ну вот, вы уже даете оценки, хотя сами признаете, что данных чтобы делать такие выводы у вас нет. И ссылок кстати не приводите (те что давали выше это утверждение не обосновывают).
А по моему наблюдению, добиться успеха для того кто вуз окончил (при прочих равных) - сильно проще. Не из-за каких-то знаний или привилегий, а просто по жизни проще.
При прохождении ключевых точек влияющих на на карьерный рост и успех - ты находишься среди людей в таком же положении. Они также ищут подработку, ходят на собеседования, обсуждают варианты, идеи, стартапы... Это все вроде незаметно и неважно, но по факту успешных стартов оказывается больше, чем если сидеть дома и пилить очередную РПГ с LLM...
Но просто это мое мнение. Я взял цифры исходя из него.
Вы можете свои подставить или формулу переиначить, например заменив "гениальность" на упорство и общительность. Дело ваше.
Так ведь в этом и смысл:)
Мы взяли оценку, что для обычного человека ВУЗ в среднем помогает, если не за счет знаний то за счет связей и пр.
И взяли оценку "из историй успешного успеха" где кажется что ВУЗ наоборот мешает раннему прорыву.
После чего параметром "гениальности" показали, что первый вариант куда вероятнее. Тут нет никакой магии) Рассуждения крайне просты.
То что мы получили оценку близкую к той что взяли за основу - это естественно!) Ведь мы и вероятность гениальности взяли мизерной, она и не должна была особо ничего поменять. Кто-то свою гениальность возьмет за 80% и обоснованно покинет ВУЗ:)
Все эти значения "на глаз", потому, что реально это измерить сложно, и ваши ссылки тут могут являться разве что косвенными показателями. А также потому, что цель у нас другая. Цель показать логику рассуждений, а не сделать обоснованный вывод, ведь его каждый должен сделать сам.
Можно было это все записать без чисел, был бы тот же уровень объективности, но в словах заметить ошибку рассуждений сложнее. А на числах - становится ясна логика - и каждый может поставить свои цифры и сделать свои выводы.
Это не статья по статистике, это просто рассуждения, но более формализованные, чтобы приходя к общему мнению не приходилось спорить о терминах, а требовалось только подставить свои субъективные оценки.
А вообще - почитайте "Гарри Поттер и Методы рационального мышления", там ГГ постоянно пользуется этим (и подобными) приемами. Полагаю большинство плюсов поставлены на самом деле не мне, а Юдковскому, как своеобразная ностальгия по подобной манере подхода к жизни)