Комментарии 41
Заголовок может быть неверно истолкован так как у экспоненты по сути нет пика или конца, есть только неограниченный рост. Поэтому можно решить, что Амодеи говорит о пике как о приостановке развития - верхней точке экономической кривой внедрения инноваций. В то время как реально, в интервью он подразумевает под "пиком" - "вертикаль" кривой, т.е. AGI и сингулярность.
Видимо, он имел в виду конец начала экспоненты. Рост оказался S-образным, а не экспоненциальным. Ну то есть он похож на экспоненциальный в начале, а сейчас вот наступает конец.
Видимо, он имел в виду конец начала экспоненты.
С другой стороны, в тексте нет ничего, что говорило бы о S-кривой. Да и в целом, сомневаюсь, что Дарио скажет такое в лоб, особенно когда Anthropic всеми силами стараются поддерживать волну хайпа, на которую они недавно же и уселись.
В интервью про S-кривую ничего нет. Просто неудачный перевод или умышленная желтизна.
А как в оригинальном интервью Дарио обосновывает свою позицию? Так же, как и в статье, все списывает на "скейлинг и RL все сделают"? Все-таки заявления о сингулярностях, когда у последних моделей от Anthropic заявленные на бенчмарках результаты порой не воспроизводятся, вызывают смешанные чувства.
Вряд-ли я смогу ответить лучше
Ваше впечатление не безосновательно: аргументация Дарио Амодея действительно строится вокруг очень сильной веры в экстраполяцию текущих графиков. По сути, его позиция сводится к тому, что «магия» не требуется — нужно просто продолжать делать то, что они делают, но в больших масштабах и с новыми методами обучения.
Вот как именно он обосновывает свою уверенность, опираясь на факты из интервью:
1. Гипотеза «Большого комка вычислений» (The Big Blob of Compute)
Дарио прямо говорит, что придерживается той же гипотезы, которую сформулировал еще в 2017 году. Её суть: хитрые архитектурные ухищрения не важны. Он утверждает, что работают только несколько базовых вещей:
Количество «сырых» вычислений (compute).
Объем и качество данных.
Время обучения.
Целевая функция, которая может масштабироваться бесконечно (scale to the moon).
Он заявляет: «Я не видел ничего, что противоречило бы этой гипотезе». Для него успех GPT-1, GPT-2 и далее — это просто подтверждение того, что график работает.
2. Новый драйвер: Масштабирование RL (Reinforcement Learning)
Это ключевое обновление его позиции за последние три года. Раньше мы видели, как масштабируется pre-training (начитка текстов). Теперь, утверждает Амодей, они видят те же самые законы масштабирования (scaling laws) в обучении с подкреплением (RL).
Логика: Если раньше модель просто училась предсказывать следующее слово, то теперь она учится решать задачи (например, математические или кодинг) через RL.
Наблюдение: Эффективность выполнения задач растет логарифмически-линейно в зависимости от времени, потраченного на RL-тренировку. Он видит в этом доказательство того, что модель не просто запоминает, а начинает обобщать навыки.
3. Ответ на критику про «неэффективность» (Sample Efficiency)
Вы справедливо заметили проблему: модели требуют миллиарды примеров, чтобы выучить то, что человек учит быстро. Амодей парирует это интересной аналогией:
Pre-training = Эволюция. Он предлагает считать этап предварительного обучения не аналогом обучения ребенка в школе, а аналогом миллионов лет эволюции, которая формировала структуру мозга. Модель начинает как «чистый лист» (случайные веса), поэтому ей нужно так много данных.
In-context learning = Обучение человека. А вот когда модель уже обучена, её способность учиться в контексте (через промпт) становится аналогом человеческого обучения «на лету».
Аргумент: С огромными контекстными окнами (миллионы токенов) модель может загрузить в «оперативную память» целую кодовую базу или книгу и работать с ней. Амодей считает, что этого механизма (pre-training + context) уже достаточно для создания «страны гениев», даже без изобретения новых парадигм.
4. Отношение к бенчмаркам и реальности
Касательно вашего сомнения о том, что результаты на бумаге расходятся с практикой:
Амодей признает, что бенчмарки — это «несовершенные измерители».
Он объясняет разрыв между мощностью модели и её полезностью термином «экономическая диффузия». Даже если модель умная (как Нобелевский лауреат), внедрить её в реальный рабочий процесс сложно из-за бюрократии, необходимости интеграций и инерции людей.
Однако он утверждает, что внутри Anthropic они видят реальный рост продуктивности программистов, когда те используют свои же модели (Claude Code), что для него является лучшим доказательством, чем публичные бенчмарки.
Итог: Дарио действительно ставит всё на карту скейлинга (теперь включая RL). Он считает, что если графики обучения и RL продолжат расти так же, как последние 5 лет (а он не видит причин для остановки), то модели неизбежно достигнут уровня, когда смогут выполнять задачи автономно «от и до». Его уверенность базируется не на качественном скачке, который должен случиться, а на статистической закономерности, которая уже происходит.
Нет, смысл его "пика" именно как "достижение AGI" и пр. В статье есть ссылка на интервью, я его изучил чтобы убедиться, именно потому что выражение показалось очень странным.
он имел в виду конец начала
«Где начало того конца, которым оканчивается начало?»
появятся в 2026–2027 годах. Вероятность этого Амодеи оценивает в 90% в горизонте десяти лет
Совершенно верно. Все манипулируют экспонентой, потому что так модно. но тут, скорее всего, по моим наблюдениям, идёт речь о функции 1/x , а вот у неё конец как раз есть.
Плановая экономика у демократов?)
Это не он ли говорил что почти всех программистов заменят в 2025?
Кто старое помянет — тому глаз вон)
Ну, Дарио обещал и "90% на SWE-Bench Verified к ноябрю 2025" (нет, не смог, даже с учетом открытости тестовой выборки), и "Страх, что к середине 2025 ИИ будут использовать в разработке биооружия" (тоже не особо, если не считать, быть может, специализированных моделей), и "AGI к 2025-2026" (ну, годик ещё остался). Про легендарные "90%-100% кода будет писать ИИ" промолчу.
Не, ну многие уже 100% кода пишут агентом. И программирование ускорилось раза в 2..Но при этом приходится тщательно проверять высеры агентов, иначе глючки, оверинжениринг и недопонятые задачи нарастают как снежный ком.
Я например. Я не знаю ни php, ни питона, но у меня работают уже 2 проекта на постоянке и люди ими довольны.
Тут хотелось бы отметить два момента:
- Сколько процентов из этих "многих" действительно пытаются правдиво описать свой рабочий процесс, а не тупо поездить на волне хайпа? Вопрос актуальный, учитывая то, что в конце декабря те же Anthropic решили устроить лютейшую пиар-кампанию (и примерно в то же самое время повылезали толпы таких рассказчиков).
- Когда в марте Дарио говорил про "90% кода", все это восприняли как "90% всего цикла разработки будет осуществляться ИИ". Это уже потом, когда предсказание Дарио не сбылось, нейрохомяки пошли передвигать финишные ворота и заявлять, что Дарио не про разработку программ говорил. Так что максимум можно сказать, что сбылся очень сильно ослабленный вариант его предсказания.
Отличный развод на бабки. Генеративный ИИ никогда не заменит человека. Всё-таки интеллект это не только знание, но и понимание. А у генеративного ИИ понимания не может быть от слова совсем, потому что понимание уже относится к области ощущений. При общении с ИИ это сильно заметно, т.к. он несёт чушь почти всегда, когда его просишь о чём-то большем, чем где подразумевается однозначный ответ. Лёгкий тест - написание стихов или песен. Вероятность написания песни из 3-х куплетов и 2-х припевов за один раз без правок со стороны человека у всех ИИ очень близка к нулю. Тот небольшой % когда у ИИ это получается - это случайное попадание.
Вот, кстати, согласен с тестированием стихами. Но не соглашусь, что у ИИ это не получается. Вернее, промпт "напиши стих" у слабых моделей (у китайских, например) почти всегда выдаёт не в рифму. У сильных моделей (например, GPT) стихи уже в рифму. А вот конкретно у Claude стихи не просто в рифму, а конкретно так лучше написаны именно с художественной точки зрения, ну то есть их просто приятнее читать, они более естественные. Так что как по мне, тест стихами очень даже показательный, и чем мощнее модель, тем она их лучше пишет. Вот песни не пробовал.
Стихи это не только рифма, да и не столько. Те же японские стихи в общем то и не в рифму. Это ещё и смысл, а у AI с этим проблемы. Падежи, строчки выпадающие по смыслу из стиха, аллегории не к месту, да и сам стих большой не сделает - начинает плыть по контексту.
А какой процент всех людей смогут сделать то же самое: "песню из 3-х куплетов и 2-х припевов" -- без правок? Из 8 млрд разве что один процент если наберется. Вы сами пробовали? Как тот, кто одно время писал стихи, говорю, что этот процесс довольно непростой, и с первого раза выходило редко.
Теперь посмотрим на LLM: какой процент стихотворных произведений в их обучающем датасете? С учетом фокуса LLM на программирование тоже наверняка проценты-доли процента. Если вспомнить, что LLM -- это среднее по больнице, то довольно логично, что стихи они будут писать хуже.
Собственно, это претензии к "Лёгкий тест" и "Вероятность написания песни из 3-х куплетов и 2-х припевов за один раз без правок со стороны человека у всех ИИ очень близка к нулю". Тест не будет легким ни для человека, ни для LLM, и случайно взятый человек также вряд ли сможет за один раз без правок написать песню. А если и сможет -- случайное попадание, или или он музыкант\поэт (что тоже случайное попадание в выборке из 8 млрд).
Соглашусь с другим комментарием: тест стихами (да и вообще в целом тесты на креативное письмо) хорошо показывают уровень модели.
Что значит без правок если даже первая итерация через кучу правок проходит?
Нет, проблема не в правках как таковых. AI не понимает что пишет - неправильные падежи, строчки не в тему - лишь для рифмы и т.д. Насчёт AI обученных для написания кода - а вопрос не к ним, а как раз к специализированным моделям, например к Suno AI или Riffusion. Про UDIO молчу - там с русским в целом беда. Впрочем и к моделям, которые специализируются по широкому спектру задач тоже тот же вопрос можно задать.
Полагаю, Вы пытались сгенерировать песню именно на русском языке? Если так, спешу огорчить: проблемы с русским наблюдаются даже у крупных llm (от дипсика до опенаи), не говоря уже про нишевые модели (т.е. используемые под капотом suno/riffusion). По‐моему, только модели антропика сейчас без огрехов в русском.
Проблема, как я понимаю, в дисбалансе тренировочных данных -- гигантский перекос в сторону английского. Теперь касаемо моделей генерации текста в suno/riffusion: про них известно почти ничего. Велика вероятность, что они куда меньше крупных llm, и куда вероятнее, что они были затьюнены под генерацию песен на английском (например, udio. Suno, наверняка, имеет более обширный датасет). Т.е. если тестировать на стихотворные произведения, то на английском.
Попробуйте claude (и лучше на английском) -- возможно, результат удивит в приятном смысле.
Увы, я не носитель английского языка, я носитель русского языка. Потому оценить качество генерации на английском языке не могу. А генерировать то что для англичанина будет выглядеть глупо - не хочу. Но даже если закрыть глаза на "моя твоя не понимай" - выпадающие по смыслу строчки и неподходящие аллегории не думаю что от языка зависят.
Очень лёгкий тест, конечно. У меня, например, за всю жизнь не получилось выдавить из себя ни песен, ни стихов.
На удивление с таким лучше справлялся Клод 3.5, чем современные модели.
А где его попробовать? Речь о 3.5 Haiku? 4.5, который Sonnet не выдерживает никакой критики. Там вылезают все проблемы AI. Что-то вроде этого:
Музы́ка гра́ет — всё ушло́ На ду́ше ста́ло так светло́
Музы́ка — и заботы прочь Она́ мне помога́ет, точь
Gemini лучше других справляется, особенно Pro версия. Тоже надо помучаться, чтобы что-то получить, но хотя бы откровенного бреда меньше, чем у других. А если песня лирическая или романс, там где рассказ в стихотворной форме - то вообще хорошо прямо. Мало правок. Плывёт там, где требуются короткие фразы.
У программистов, как и у музыкантов , не умеющих ничего оригинального - да, проблемы. ИИ их может заменить. Шаблонность - это ИИ. Ну не напишет ИИ хорошую мелодию, и не придумает уникальный подход в инженерии. Настоящих композиторов где то 0.001% , из числа называющих себя композиторами. Настоящий композитор может написать что то оригинальное и внятное типа - "прекрасое далеко" . ИИ такое никода не напишет, хотя легко напишет что то "среднее" ничем не запоминающееся что пишут остальные 99.99% композиторов. Им и надо переживать по поводу ИИ, потому что у них - шаблонность. Для них AGI уже наступил, а не через 10 лет.
Сейчас все стало на свои места как и 60 - 70 лет назад. Программист должен быть - умным и творческим математиком, инженером, астрономом или физиком.
программирование — та область, где ИИ уже ускоряет работу на 15–20%
Ну вот наконец-то цифры, похожие на реальность.
Нет, как раз понимание смысла у современных моделей есть и ещё какое. Вы попробуйте с ними поговорить о каких-то темах, где нет четких и однозначных ответов, например, об истории или литературе. Да и в технических вопросах, в программировании невозможно писать код, не понимая, что именно в нем происходит. В широком смысле AGI уже есть или почти есть (какие критерии?), но это не тоже самое, что искусственное сознание или искусственная личность, вот именно в этом сейчас большой вопрос - есть ли у этих последних больших моделей самосознание или какие-то признаки этого.
Конец экспоненты в устах дарио

«Мы у конца экспоненты»: глава Anthropic — о пике развития ИИ и триллионных ставках