Обновить
88
Даниил Бакалин@Quiensabe

Программист

27
Подписчики
Отправить сообщение

Тайна черной материи раскрыта! Это инопланетяне скрывают свет от большей части звезд чтобы генерить картинки с котиками из-за чего есть расхождение видимой и гравитационной массы.

Спасибо за честный ответ. Думаю следующий важный шаг — не просто выложить код, а показать валидность режима применения на уровне экспериментов. В частности, было бы очень полезно увидеть:

  • не только обычную CV, но и валидацию в условиях distribution shift — например, разбиение по типам звёзд, metallicity, brightness или хотя бы leave-group-out;

  • ablation study: как ведёт себя модель без clip, с clip, и насколько итог вообще определяется ML-частью, а насколько — жёстко зашитым prior;

  • проверку калибровки uncertainty, потому что в OOD-сценариях 95% интервалы легко становятся декоративными;

  • явную формулировку domain of applicability, чтобы было понятно, где это ещё эвристика, а где уже натяжка.

Тогда это будет выглядеть не как “ML нашёл железную планету”, а как аккуратный probabilistic ranking pipeline с честно обозначенными границами применимости. И вот в таком виде это уже действительно интересно.

будем рады, если заглянете посмотреть архитектуру

Зовите, загляну непременно)

Здесь, по-моему, смешаны три разные вещи: статистическая интерполяция по смещенной выборке, ручные физические ограничения и довольно смелая интерпретация результата как свойства конкретной планеты. L2, CV и 95% интервалы не решают проблему dataset shift — потому что они работают внутри доступного распределения данных и не устраняют сам selection bias обучающей выборки. Если модель обучена в основном на объектах у ярких, удобных для RV-измерений, часто metal-rich звёзд, то при переносе на другой класс систем она может остаться формально “устойчивой” по метрикам, но давать систематически смещённые предсказания.

А np.clip по эмпирическим законам — это не “модель сама поняла физику”, а способ не выпустить ответ за пределы заранее разрешённого коридора. Проблема в том, что в таком pipeline итоговое предсказание уже частично определяется не данными, а вручную зашитым inductive bias: модель не столько выявляет новую зависимость, сколько проецируется в заранее допустимое семейство решений. Поэтому такой pipeline можно обсуждать как инструмент приоритизации целей для follow-up, но делать из него выводы уровня “железное ядро” и “сюда точно не стоит тратить JWST-time” — это, мягко говоря, сильнее, чем позволяет такая валидация.

Есть простой опыт который легко провести и наглядно показать ограничения.

Откройте диалог выбора цвета и попробуйте создать изумрудный цвет.

Вначале представьте его себе и потом попробуйте создать. Настоящий, не яркий светящийся, а довольно темный, но при этом очень насыщенный, "густой" оттенок зеленого с примесью синевы... как гуашь в детстве...

И ничего не получится. В голове цвет есть, а на мониторе получается "болото".

Вот такие пироги.

В качестве идеи для будущих тестов. Можно дать модели фото любого сложного объекта (детали, строения, игрушки, пр) и попросить нарисовать для него чертежи. На данный момент все модели далеки от совершенства в этом тесте (хотя иногда могут дать очень неплохой результат, что удивительно), так что есть задел на развитие.

Не надо мешать все в одну кучу, этим вы только нивелируете их достоверность. Телеграм - в силу своей архитектуры, гораздо меньше подвержен сливам, нежели закрытый whatsapp. Макс - в принципе создавался под участие "товарища майора". В соц. сетях очевидно крайне много ботов (не факт, что 85%, они просто активнее людей), но утверждать что 85% принадлежат самой площадке - минимум странно, куда тогда относить ботов очевидно сторонних?

В общем, не на пользу конструктивному общению такие обобщения. IMHO

Вряд-ли я смогу ответить лучше

Ваше впечатление не безосновательно: аргументация Дарио Амодея действительно строится вокруг очень сильной веры в экстраполяцию текущих графиков. По сути, его позиция сводится к тому, что «магия» не требуется — нужно просто продолжать делать то, что они делают, но в больших масштабах и с новыми методами обучения.

Вот как именно он обосновывает свою уверенность, опираясь на факты из интервью:

1. Гипотеза «Большого комка вычислений» (The Big Blob of Compute)

Дарио прямо говорит, что придерживается той же гипотезы, которую сформулировал еще в 2017 году. Её суть: хитрые архитектурные ухищрения не важны. Он утверждает, что работают только несколько базовых вещей:

  • Количество «сырых» вычислений (compute).

  • Объем и качество данных.

  • Время обучения.

  • Целевая функция, которая может масштабироваться бесконечно (scale to the moon).

Он заявляет: «Я не видел ничего, что противоречило бы этой гипотезе». Для него успех GPT-1, GPT-2 и далее — это просто подтверждение того, что график работает.

2. Новый драйвер: Масштабирование RL (Reinforcement Learning)

Это ключевое обновление его позиции за последние три года. Раньше мы видели, как масштабируется pre-training (начитка текстов). Теперь, утверждает Амодей, они видят те же самые законы масштабирования (scaling laws) в обучении с подкреплением (RL).

  • Логика: Если раньше модель просто училась предсказывать следующее слово, то теперь она учится решать задачи (например, математические или кодинг) через RL.

  • Наблюдение: Эффективность выполнения задач растет логарифмически-линейно в зависимости от времени, потраченного на RL-тренировку. Он видит в этом доказательство того, что модель не просто запоминает, а начинает обобщать навыки.

3. Ответ на критику про «неэффективность» (Sample Efficiency)

Вы справедливо заметили проблему: модели требуют миллиарды примеров, чтобы выучить то, что человек учит быстро. Амодей парирует это интересной аналогией:

  • Pre-training = Эволюция. Он предлагает считать этап предварительного обучения не аналогом обучения ребенка в школе, а аналогом миллионов лет эволюции, которая формировала структуру мозга. Модель начинает как «чистый лист» (случайные веса), поэтому ей нужно так много данных.

  • In-context learning = Обучение человека. А вот когда модель уже обучена, её способность учиться в контексте (через промпт) становится аналогом человеческого обучения «на лету».

  • Аргумент: С огромными контекстными окнами (миллионы токенов) модель может загрузить в «оперативную память» целую кодовую базу или книгу и работать с ней. Амодей считает, что этого механизма (pre-training + context) уже достаточно для создания «страны гениев», даже без изобретения новых парадигм.

4. Отношение к бенчмаркам и реальности

Касательно вашего сомнения о том, что результаты на бумаге расходятся с практикой:

  • Амодей признает, что бенчмарки — это «несовершенные измерители».

  • Он объясняет разрыв между мощностью модели и её полезностью термином «экономическая диффузия». Даже если модель умная (как Нобелевский лауреат), внедрить её в реальный рабочий процесс сложно из-за бюрократии, необходимости интеграций и инерции людей.

  • Однако он утверждает, что внутри Anthropic они видят реальный рост продуктивности программистов, когда те используют свои же модели (Claude Code), что для него является лучшим доказательством, чем публичные бенчмарки.

Итог: Дарио действительно ставит всё на карту скейлинга (теперь включая RL). Он считает, что если графики обучения и RL продолжат расти так же, как последние 5 лет (а он не видит причин для остановки), то модели неизбежно достигнут уровня, когда смогут выполнять задачи автономно «от и до». Его уверенность базируется не на качественном скачке, который должен случиться, а на статистической закономерности, которая уже происходит.

Прочитайте интервью, в статье просто перевод искажает смысл. Посыл Амадеи такой как я написал

В интервью про S-кривую ничего нет. Просто неудачный перевод или умышленная желтизна.

Нет, смысл его "пика" именно как "достижение AGI" и пр. В статье есть ссылка на интервью, я его изучил чтобы убедиться, именно потому что выражение показалось очень странным.

Заголовок может быть неверно истолкован так как у экспоненты по сути нет пика или конца, есть только неограниченный рост. Поэтому можно решить, что Амодеи говорит о пике как о приостановке развития - верхней точке экономической кривой внедрения инноваций. В то время как реально, в интервью он подразумевает под "пиком" - "вертикаль" кривой, т.е. AGI и сингулярность.

Полностью согласен.

Но все же удивляет, что на хабре как вы сказали "отрицателей" так много.

Рейтинг недавней статьи высмеивающей "вайбкодинг" - меня сильно удивил. Конечно, многое можно списать на шутливый тон статьи, написана она талантливо. Но при чтении возникла четкая картинка посиделок клуба кучеров высмеивающих первые автомобили:)

С одной стороны - это понятно, тут много людей которые реально понимают сложность построения действительно больших систем и как далеко до них современным LLM.

С другой - удивляет популярность этого скепсиса, когда ИИ год за годом продолжает удивлять, а многие люди вместо попытки прогноза цепляются за все более мнимые его недостатки, не замечая, что их возражения все больше напоминают мем "вы находитесь здесь"...

Чушь. 

Похоже на стадию отрицания:)

Дело тут даже ведь не в том, сделал ли это все ИИ агент, в данном конкретном случае. А в том мог ли сделать? И опыт подсказывает, что очень даже мог. Ничего необычного тут нет, ИИ много раз видел, что люди делают так, и сделал так же адаптировав текст под свою ситуацию.

Я вообще не очень понимаю почему такое удивление? Весьма вероятно, что подобных событий скоро станет очень много... IMHO, отрицание это может вызывать только у людей традиционно занижающих успехи LLM, считающих что "пузырь" скоро лопнет, все разочаруются в этой "ерунде" и вернуться к "правильному" программированию, рисованию, сочинению и вообще "поведению". Ну-ну)

В той же степени в какой домашний VPN является ютубом, гуглом и чатом гпт.

Уж лучше  "Гарри Поттер и Методы рационального мышления"

А в чем проблема? Мощность излучения Солнца на орбите Земли ~1,5кВт/м³, чтобы из излучить нужно (по вашим словам) ~3.6 м³, а всего за такой панелью, как выше посчитали можно спрятать ~57 м³.

Кроме того, спутник будет каждые несколько десятков минут прятаться за планетой и дополнительно остывать.

Так что конкретно здесь нестыковок нет.

Не говоря о том, что кто бы, что не говорил про Маска, но откровенной ерунды в техническом плане он не говорит. Все бы СЕО были также инженерно подкованы, мы бы, вероятно, жили совсем в другом мире.

Интересная зависимость: чем более человек известен/популярен - тем больше он полезен для обучения ИИ, но и тем больше он уже (извините за цинизм) заработал на этой своей известности, что делает его претензии не сильно этичными. А чем менее популярен человек (и обоснованнее его претензии) - тем меньше в нем конкретно смысла для ИИ...

Если взять абстрактную "звезду" (чтобы без имен) - то она уже неплохо так заработала и если сравнить с кем то кому повезло меньше - то кажется ей то стоило бы проявить благодарность к зрителям, а не устраивать скандалы.

Понять людей конечно можно, но что-то сочувствия вызывают не так чтобы очень.

Вот, я же его тогда, в 2006, и нашел. Простите...

постоянно включенный ИИ-помощник, который всегда рядом и знает контекст жизни пользователя. Готов продолжать и разбирать следующую новость.

Вам стоит поправить промпт.

1
23 ...

Информация

В рейтинге
6 081-й
Откуда
Петрозаводск, Карелия, Россия
Дата рождения
Зарегистрирован
Активность