В качестве идеи для будущих тестов. Можно дать модели фото любого сложного объекта (детали, строения, игрушки, пр) и попросить нарисовать для него чертежи. На данный момент все модели далеки от совершенства в этом тесте (хотя иногда могут дать очень неплохой результат, что удивительно), так что есть задел на развитие.
Не надо мешать все в одну кучу, этим вы только нивелируете их достоверность. Телеграм - в силу своей архитектуры, гораздо меньше подвержен сливам, нежели закрытый whatsapp. Макс - в принципе создавался под участие "товарища майора". В соц. сетях очевидно крайне много ботов (не факт, что 85%, они просто активнее людей), но утверждать что 85% принадлежат самой площадке - минимум странно, куда тогда относить ботов очевидно сторонних?
В общем, не на пользу конструктивному общению такие обобщения. IMHO
Ваше впечатление не безосновательно: аргументация Дарио Амодея действительно строится вокруг очень сильной веры в экстраполяцию текущих графиков. По сути, его позиция сводится к тому, что «магия» не требуется — нужно просто продолжать делать то, что они делают, но в больших масштабах и с новыми методами обучения.
Вот как именно он обосновывает свою уверенность, опираясь на факты из интервью:
1. Гипотеза «Большого комка вычислений» (The Big Blob of Compute)
Дарио прямо говорит, что придерживается той же гипотезы, которую сформулировал еще в 2017 году. Её суть: хитрые архитектурные ухищрения не важны. Он утверждает, что работают только несколько базовых вещей:
Количество «сырых» вычислений (compute).
Объем и качество данных.
Время обучения.
Целевая функция, которая может масштабироваться бесконечно (scale to the moon).
Он заявляет: «Я не видел ничего, что противоречило бы этой гипотезе». Для него успех GPT-1, GPT-2 и далее — это просто подтверждение того, что график работает.
2. Новый драйвер: Масштабирование RL (Reinforcement Learning)
Это ключевое обновление его позиции за последние три года. Раньше мы видели, как масштабируется pre-training (начитка текстов). Теперь, утверждает Амодей, они видят те же самые законы масштабирования (scaling laws) в обучении с подкреплением (RL).
Логика: Если раньше модель просто училась предсказывать следующее слово, то теперь она учится решать задачи (например, математические или кодинг) через RL.
Наблюдение: Эффективность выполнения задач растет логарифмически-линейно в зависимости от времени, потраченного на RL-тренировку. Он видит в этом доказательство того, что модель не просто запоминает, а начинает обобщать навыки.
3. Ответ на критику про «неэффективность» (Sample Efficiency)
Вы справедливо заметили проблему: модели требуют миллиарды примеров, чтобы выучить то, что человек учит быстро. Амодей парирует это интересной аналогией:
Pre-training = Эволюция. Он предлагает считать этап предварительного обучения не аналогом обучения ребенка в школе, а аналогом миллионов лет эволюции, которая формировала структуру мозга. Модель начинает как «чистый лист» (случайные веса), поэтому ей нужно так много данных.
In-context learning = Обучение человека. А вот когда модель уже обучена, её способность учиться в контексте (через промпт) становится аналогом человеческого обучения «на лету».
Аргумент: С огромными контекстными окнами (миллионы токенов) модель может загрузить в «оперативную память» целую кодовую базу или книгу и работать с ней. Амодей считает, что этого механизма (pre-training + context) уже достаточно для создания «страны гениев», даже без изобретения новых парадигм.
4. Отношение к бенчмаркам и реальности
Касательно вашего сомнения о том, что результаты на бумаге расходятся с практикой:
Амодей признает, что бенчмарки — это «несовершенные измерители».
Он объясняет разрыв между мощностью модели и её полезностью термином «экономическая диффузия». Даже если модель умная (как Нобелевский лауреат), внедрить её в реальный рабочий процесс сложно из-за бюрократии, необходимости интеграций и инерции людей.
Однако он утверждает, что внутри Anthropic они видят реальный рост продуктивности программистов, когда те используют свои же модели (Claude Code), что для него является лучшим доказательством, чем публичные бенчмарки.
Итог: Дарио действительно ставит всё на карту скейлинга (теперь включая RL). Он считает, что если графики обучения и RL продолжат расти так же, как последние 5 лет (а он не видит причин для остановки), то модели неизбежно достигнут уровня, когда смогут выполнять задачи автономно «от и до». Его уверенность базируется не на качественном скачке, который должен случиться, а на статистической закономерности, которая уже происходит.
Нет, смысл его "пика" именно как "достижение AGI" и пр. В статье есть ссылка на интервью, я его изучил чтобы убедиться, именно потому что выражение показалось очень странным.
Заголовок может быть неверно истолкован так как у экспоненты по сути нет пика или конца, есть только неограниченный рост. Поэтому можно решить, что Амодеи говорит о пике как о приостановке развития - верхней точке экономической кривой внедрения инноваций. В то время как реально, в интервью он подразумевает под "пиком" - "вертикаль" кривой, т.е. AGI и сингулярность.
Но все же удивляет, что на хабре как вы сказали "отрицателей" так много.
Рейтинг недавней статьи высмеивающей "вайбкодинг" - меня сильно удивил. Конечно, многое можно списать на шутливый тон статьи, написана она талантливо. Но при чтении возникла четкая картинка посиделок клуба кучеров высмеивающих первые автомобили:)
С одной стороны - это понятно, тут много людей которые реально понимают сложность построения действительно больших систем и как далеко до них современным LLM.
С другой - удивляет популярность этого скепсиса, когда ИИ год за годом продолжает удивлять, а многие люди вместо попытки прогноза цепляются за все более мнимые его недостатки, не замечая, что их возражения все больше напоминают мем "вы находитесь здесь"...
Дело тут даже ведь не в том, сделал ли это все ИИ агент, в данном конкретном случае. А в том мог ли сделать? И опыт подсказывает, что очень даже мог. Ничего необычного тут нет, ИИ много раз видел, что люди делают так, и сделал так же адаптировав текст под свою ситуацию.
Я вообще не очень понимаю почему такое удивление? Весьма вероятно, что подобных событий скоро станет очень много... IMHO, отрицание это может вызывать только у людей традиционно занижающих успехи LLM, считающих что "пузырь" скоро лопнет, все разочаруются в этой "ерунде" и вернуться к "правильному" программированию, рисованию, сочинению и вообще "поведению". Ну-ну)
А в чем проблема? Мощность излучения Солнца на орбите Земли ~1,5кВт/м³, чтобы из излучить нужно (по вашим словам) ~3.6 м³, а всего за такой панелью, как выше посчитали можно спрятать ~57 м³.
Кроме того, спутник будет каждые несколько десятков минут прятаться за планетой и дополнительно остывать.
Так что конкретно здесь нестыковок нет.
Не говоря о том, что кто бы, что не говорил про Маска, но откровенной ерунды в техническом плане он не говорит. Все бы СЕО были также инженерно подкованы, мы бы, вероятно, жили совсем в другом мире.
Интересная зависимость: чем более человек известен/популярен - тем больше он полезен для обучения ИИ, но и тем больше он уже (извините за цинизм) заработал на этой своей известности, что делает его претензии не сильно этичными. А чем менее популярен человек (и обоснованнее его претензии) - тем меньше в нем конкретно смысла для ИИ...
Если взять абстрактную "звезду" (чтобы без имен) - то она уже неплохо так заработала и если сравнить с кем то кому повезло меньше - то кажется ей то стоило бы проявить благодарность к зрителям, а не устраивать скандалы.
Понять людей конечно можно, но что-то сочувствия вызывают не так чтобы очень.
Да, не сохранились фотки после финальной настройки положения пламени (а также общие планы печи). Там через resolume масками было сделано чтобы огонь был именно на поленьях.
Так как мнимое изображение локализовано в том же месте где дрова - то при перемещении оно визуально почти не сдвигается.
На счет "«сарайной» карты Галактики" - это реально результат измерений или все же художественная интерпретация? Написано вроде однозначно, что это результат работы оборудования, но сложно поверить, что такая точность и детализация в принципе достижимы.
Если второе - было бы очень интересно увидеть реальную карту измерений (облако точек).
Просто ТВ - не так интересно, огонь выглядит плоским, видно что картинка.
Интереснее если добавить наклонное стекло, а ТВ расположить сверху. Тогда в "камин" можно положить реальные дрова и горшки, и есть эффект, что огонь накладывается на них.
На фотках "русская печь", делали для одного музея.
Интересно почему было выбрано именно заднее колесо?
Со стороны диванного эксперта - передний привод в таком форм-факторе выглядит интереснее: маленький привод легко закрепить на передней вилке, АКБ - на раме, рядом руль куда легко вывести управление и мониторинг, легко совместить с крылом (да и переднее крыло в верхней части меньше нужно), нет проблем совмещения усилия мотора и педалей, естественный износ передней шины обычно меньше, ну и т.п.
В качестве идеи для будущих тестов. Можно дать модели фото любого сложного объекта (детали, строения, игрушки, пр) и попросить нарисовать для него чертежи. На данный момент все модели далеки от совершенства в этом тесте (хотя иногда могут дать очень неплохой результат, что удивительно), так что есть задел на развитие.
Не надо мешать все в одну кучу, этим вы только нивелируете их достоверность. Телеграм - в силу своей архитектуры, гораздо меньше подвержен сливам, нежели закрытый whatsapp. Макс - в принципе создавался под участие "товарища майора". В соц. сетях очевидно крайне много ботов (не факт, что 85%, они просто активнее людей), но утверждать что 85% принадлежат самой площадке - минимум странно, куда тогда относить ботов очевидно сторонних?
В общем, не на пользу конструктивному общению такие обобщения. IMHO
Вряд-ли я смогу ответить лучше
Ваше впечатление не безосновательно: аргументация Дарио Амодея действительно строится вокруг очень сильной веры в экстраполяцию текущих графиков. По сути, его позиция сводится к тому, что «магия» не требуется — нужно просто продолжать делать то, что они делают, но в больших масштабах и с новыми методами обучения.
Вот как именно он обосновывает свою уверенность, опираясь на факты из интервью:
1. Гипотеза «Большого комка вычислений» (The Big Blob of Compute)
Дарио прямо говорит, что придерживается той же гипотезы, которую сформулировал еще в 2017 году. Её суть: хитрые архитектурные ухищрения не важны. Он утверждает, что работают только несколько базовых вещей:
Количество «сырых» вычислений (compute).
Объем и качество данных.
Время обучения.
Целевая функция, которая может масштабироваться бесконечно (scale to the moon).
Он заявляет: «Я не видел ничего, что противоречило бы этой гипотезе». Для него успех GPT-1, GPT-2 и далее — это просто подтверждение того, что график работает.
2. Новый драйвер: Масштабирование RL (Reinforcement Learning)
Это ключевое обновление его позиции за последние три года. Раньше мы видели, как масштабируется pre-training (начитка текстов). Теперь, утверждает Амодей, они видят те же самые законы масштабирования (scaling laws) в обучении с подкреплением (RL).
Логика: Если раньше модель просто училась предсказывать следующее слово, то теперь она учится решать задачи (например, математические или кодинг) через RL.
Наблюдение: Эффективность выполнения задач растет логарифмически-линейно в зависимости от времени, потраченного на RL-тренировку. Он видит в этом доказательство того, что модель не просто запоминает, а начинает обобщать навыки.
3. Ответ на критику про «неэффективность» (Sample Efficiency)
Вы справедливо заметили проблему: модели требуют миллиарды примеров, чтобы выучить то, что человек учит быстро. Амодей парирует это интересной аналогией:
Pre-training = Эволюция. Он предлагает считать этап предварительного обучения не аналогом обучения ребенка в школе, а аналогом миллионов лет эволюции, которая формировала структуру мозга. Модель начинает как «чистый лист» (случайные веса), поэтому ей нужно так много данных.
In-context learning = Обучение человека. А вот когда модель уже обучена, её способность учиться в контексте (через промпт) становится аналогом человеческого обучения «на лету».
Аргумент: С огромными контекстными окнами (миллионы токенов) модель может загрузить в «оперативную память» целую кодовую базу или книгу и работать с ней. Амодей считает, что этого механизма (pre-training + context) уже достаточно для создания «страны гениев», даже без изобретения новых парадигм.
4. Отношение к бенчмаркам и реальности
Касательно вашего сомнения о том, что результаты на бумаге расходятся с практикой:
Амодей признает, что бенчмарки — это «несовершенные измерители».
Он объясняет разрыв между мощностью модели и её полезностью термином «экономическая диффузия». Даже если модель умная (как Нобелевский лауреат), внедрить её в реальный рабочий процесс сложно из-за бюрократии, необходимости интеграций и инерции людей.
Однако он утверждает, что внутри Anthropic они видят реальный рост продуктивности программистов, когда те используют свои же модели (Claude Code), что для него является лучшим доказательством, чем публичные бенчмарки.
Итог: Дарио действительно ставит всё на карту скейлинга (теперь включая RL). Он считает, что если графики обучения и RL продолжат расти так же, как последние 5 лет (а он не видит причин для остановки), то модели неизбежно достигнут уровня, когда смогут выполнять задачи автономно «от и до». Его уверенность базируется не на качественном скачке, который должен случиться, а на статистической закономерности, которая уже происходит.
Прочитайте интервью, в статье просто перевод искажает смысл. Посыл Амадеи такой как я написал
В интервью про S-кривую ничего нет. Просто неудачный перевод или умышленная желтизна.
Нет, смысл его "пика" именно как "достижение AGI" и пр. В статье есть ссылка на интервью, я его изучил чтобы убедиться, именно потому что выражение показалось очень странным.
Заголовок может быть неверно истолкован так как у экспоненты по сути нет пика или конца, есть только неограниченный рост. Поэтому можно решить, что Амодеи говорит о пике как о приостановке развития - верхней точке экономической кривой внедрения инноваций. В то время как реально, в интервью он подразумевает под "пиком" - "вертикаль" кривой, т.е. AGI и сингулярность.
Полностью согласен.
Но все же удивляет, что на хабре как вы сказали "отрицателей" так много.
Рейтинг недавней статьи высмеивающей "вайбкодинг" - меня сильно удивил. Конечно, многое можно списать на шутливый тон статьи, написана она талантливо. Но при чтении возникла четкая картинка посиделок клуба кучеров высмеивающих первые автомобили:)
С одной стороны - это понятно, тут много людей которые реально понимают сложность построения действительно больших систем и как далеко до них современным LLM.
С другой - удивляет популярность этого скепсиса, когда ИИ год за годом продолжает удивлять, а многие люди вместо попытки прогноза цепляются за все более мнимые его недостатки, не замечая, что их возражения все больше напоминают мем "вы находитесь здесь"...
Похоже на стадию отрицания:)
Дело тут даже ведь не в том, сделал ли это все ИИ агент, в данном конкретном случае. А в том мог ли сделать? И опыт подсказывает, что очень даже мог. Ничего необычного тут нет, ИИ много раз видел, что люди делают так, и сделал так же адаптировав текст под свою ситуацию.
Я вообще не очень понимаю почему такое удивление? Весьма вероятно, что подобных событий скоро станет очень много... IMHO, отрицание это может вызывать только у людей традиционно занижающих успехи LLM, считающих что "пузырь" скоро лопнет, все разочаруются в этой "ерунде" и вернуться к "правильному" программированию, рисованию, сочинению и вообще "поведению". Ну-ну)
В той же степени в какой домашний VPN является ютубом, гуглом и чатом гпт.
Уж лучше "Гарри Поттер и Методы рационального мышления"
А в чем проблема? Мощность излучения Солнца на орбите Земли ~1,5кВт/м³, чтобы из излучить нужно (по вашим словам) ~3.6 м³, а всего за такой панелью, как выше посчитали можно спрятать ~57 м³.
Кроме того, спутник будет каждые несколько десятков минут прятаться за планетой и дополнительно остывать.
Так что конкретно здесь нестыковок нет.
Не говоря о том, что кто бы, что не говорил про Маска, но откровенной ерунды в техническом плане он не говорит. Все бы СЕО были также инженерно подкованы, мы бы, вероятно, жили совсем в другом мире.
Интересная зависимость: чем более человек известен/популярен - тем больше он полезен для обучения ИИ, но и тем больше он уже (извините за цинизм) заработал на этой своей известности, что делает его претензии не сильно этичными. А чем менее популярен человек (и обоснованнее его претензии) - тем меньше в нем конкретно смысла для ИИ...
Если взять абстрактную "звезду" (чтобы без имен) - то она уже неплохо так заработала и если сравнить с кем то кому повезло меньше - то кажется ей то стоило бы проявить благодарность к зрителям, а не устраивать скандалы.
Понять людей конечно можно, но что-то сочувствия вызывают не так чтобы очень.
Вот, я же его тогда, в 2006, и нашел. Простите...
Вам стоит поправить промпт.
Вопросы и непонятности начинает комментировать вместо перевода, можно подставиться если переводишь на незнакомый язык.
Да, не сохранились фотки после финальной настройки положения пламени (а также общие планы печи). Там через resolume масками было сделано чтобы огонь был именно на поленьях.
Так как мнимое изображение локализовано в том же месте где дрова - то при перемещении оно визуально почти не сдвигается.
На счет "«сарайной» карты Галактики" - это реально результат измерений или все же художественная интерпретация? Написано вроде однозначно, что это результат работы оборудования, но сложно поверить, что такая точность и детализация в принципе достижимы.
Если второе - было бы очень интересно увидеть реальную карту измерений (облако точек).
Просто ТВ - не так интересно, огонь выглядит плоским, видно что картинка.
Интереснее если добавить наклонное стекло, а ТВ расположить сверху. Тогда в "камин" можно положить реальные дрова и горшки, и есть эффект, что огонь накладывается на них.
На фотках "русская печь", делали для одного музея.
схема и фото поближе
Интересно почему было выбрано именно заднее колесо?
Со стороны диванного эксперта - передний привод в таком форм-факторе выглядит интереснее: маленький привод легко закрепить на передней вилке, АКБ - на раме, рядом руль куда легко вывести управление и мониторинг, легко совместить с крылом (да и переднее крыло в верхней части меньше нужно), нет проблем совмещения усилия мотора и педалей, естественный износ передней шины обычно меньше, ну и т.п.