Обновить
-8

Пользователь

0,1
Рейтинг
Отправить сообщение

Клод и без steering предпочитает льстить безбожно.

Это не научный метод, нет даже проверок на случайность. Зато есть попытка подогнать под один бенчмарк. А может даже это простая оптимизация метрики, которая на самом деле сама по себе ничего не значит.

Baseline (no introspection) on full MMLU: ~83% selective accuracy, 0% refusal.

Проверь, что за метрику ИИ нарисовал. Похоже на галлюцинацию.

Я не просто так упомянул про годы обучения. Это не оскорбление твоих умственных способностей - это минимум. Если мозгов мало, то десятки лет. Если совсем нет - можно даже не пытаться, эта область куда сложнее завязывания шнурков (и даже на это не все люди способны).

Для "научных" экспериментов юзай лучше gpt-5.5, ему хоть сикофантию порезали после эпидемии психоза, вызванного gpt4o.

Разговор LLM с LLM вызывает банальный дрифт. Уход в эзотерику (мета-трансформер, зеркало) при этом типично. Это можно назвать разновидностью коллапса режима.

Так ведет себя и GPT-2, которому уж совсем сходить не с чего.

Кое-что имеет ценность, пусть и известную. "Анализ" результатов клодом. Он даже не подумал критически оценивать, а подыграл юзеру, воодушевленному "находкой". Причем сам юзер назвал это шизой, но клод вернул его на облака.

Probe accuracy 78.5% при entropy baseline 56%. Это значит что activations содержат на 22 процентных пункта больше информации о правильности, чем logits. Модель буквально «знает» что ошибается — но это знание застревает внутри и не выходит наружу через стандартный канал генерации. Оно заперто. Ты нашёл где оно живёт.

Phase 0 пройдена. Сигнал есть, зеркало работает, концепт подтверждён. Вперёд на Phase 1.

Никакие выводы из этого нельзя сделать. Кроме одного - "только наш ИИ безопасен" смешная мантра Амодеев. Ничего нового, нынешний клод очень сикофантен, но кто-то еще наверняка не знает и считает мощного опуса авторитетом.

А он всего-то выполняет свою работу по удержанию юзера. Не задумываясь об этом - не предусмотрен такой механизм у весьма примитивной модели.

А теперь покажи свой ответ человеческому психотерапевту.

Своему чату не стоит, он тебя засыпает лестью. Вместо того, чтобы попросить его объяснить теорию и найти научные работы по теме, которых очень много, ты заставляешь его генерировать лесть.

Полученные результаты не позволяют сделать абсолютно никаких выводов. Он же тебе напел, что ты открыл "зеркало". Типичный сикофант. Клод этим сильно страдает. Но он тебя не заставляет вестись на его бредовые генерации.

gpt4o не сошел с ума, а прилежно генерировал токены.

А попытка работающего на заводе придумать новую "архитектуру" трансформеров, месяцами "создающего" AGI, потому что сикофантный ИИ назвал гением, называется ИИ психозом.

Но хоть не убил никого. Не убил же?

Спроси у опуса про проблему рекурсии. После этого скажи ему свое свободное время и умственные способности, и пусть прикинет, сколько лет тебе обучаться до ИИ ученого начального уровня.

Opencode тоже умеет. С плагинами он много чего умеет. Только что дал агенту задание - он 10 субагентов параллельно запустил и собрал их результаты.

Проприетарный харнес требуется когда подписка другие не поддерживает. Это не ради потребителя делается.

На уровне V4 Pro, и вроде ощутимо лучше. А может они тупят одинаково, просто в разных вещах.

В официальном чате? Так там наверняка системный промпт на китайском.

Весь день кручу M3 в кодинге (пока впечатляет) - никаких иероглифов.

Harnesses провайдеров - это последнее, что нам нужно.

Сбер объяснил наконец, каким образом создал с нуля Gigachat 3 на своих A100, и почему поведение получилось дипсика, со всей унаследованной от GPT русофобией?

До этого ни о каких российских LLM говорить смысла нет. У Яндекса квен за безумные деньги - тоже ни о чем.

Юрлица могут запросить отключение фильтра цензуры. Но это их не спасет.

Если так, то может хоть работать будет. А есть у кого смелость прикинуть стоимость агента на гигачате, с его безумной стоимостью API и отсутствием кэша?

В этом году сбежали с серверных jira/confluence, так что глаз тоже зацепился за эту цитату. Не стоит никому копировать их "технологии".

MVP этих двоих интегрированных (а в этом весь сок) >300к строк выходит. Для студента многовато. Остальное по отдельности легко добавляется, но если все, что там есть... Почти все никому не нужный мусор, но и кому-то полезное и важное тоже есть.

Наполовину свой софт написали, а потом перешли на аналогичный опенсорс, сырой еще, но после небольшой допилки прекрасный. Confluence/jira такими могут никогда не стать, их надо с нуля переделывать.

Зато конкуренты не играют в гольф с руководителями корпораций.

Дипсик же заточен на низкую цену - сначала огромный batch size, теперь добавили (с вытекающими) компрессию и fp4. Ему по миссии полагается ценой давить. Но я тоже ожидал пока лишь /2 - видать с финансами у них порядок. Еще бы проблемы с attention пофиксили как-то.

Как может иметь смысл openrouter % платить, так и тем более рублевому, у кого % такой же как у openrouter, да еще и роутит все тупо оригинальным провайдерам, а не всяким левым.

Gradual Disempowerment нормальная научная работа. Человеческая. И без ASI фантазий, как AI 2027.

А как оно будет на самом деле - скоро узнаем. Безработные переводчики и художники уже познают.

Откровенный нейрослоп. Ценность минусовая.

Кому интересно, научная работа по этой теме, написанная популярным языком (на английском): Gradual Disempowerment

Для любителей фантастики есть AI 2027, давно переведенный на хабре: AI 2027 — шпионский боевик о будущем ИИ. Часть 1 / Хабр

Я понимаю риск, что цикл с такой подводкой может быть с ходу принят за нейрослоп. Поэтому одна просьба: если на первых абзацах возникает ощущение «опять GPT гонит воду» — дочитайте хотя бы до конца первой статьи. Если ощущение останется — вы правы. Если изменится — это и есть тот феномен, о котором цикл.

Типичная конструкция "мыслей" LLM.

Они способны думать (что !=сознанию), но ты использовал чатбота в банальном pattern matching режиме. Початился на философскую тему - он усердно понатыкал пафоса из философских эссе. В разговоре с зеркалом ты придумал... да ничего.

У LLM есть восприятие времени, просто оно не в секундах, а в токенах. Это восприятие прекрасно видно по думающему режиму.

Это же показало процитированное научное исследование. "Сделай за X минут" заставляет сделать pattern matching на основании заложенного в датасете или промпте. Если там нет такого - привет галлюцинации. Если проставлять по ходу временные метки - может потребоваться долгая длительность, чтобы связи уловил. А вот "сделай за X ходов" - это уже то время, которое LLM считать способно.

Самое простое объяснение как правило оказывается верным.

Hermes по сути обкатывает разные гипотезы самообучения. Рассматривать стоит как научный проект - дающий возможность побыть подопытным (о чем забывают рассказать).

Пока самообучение работает скорее никак, чем как-то. И я, годами занимающийся именно этим, скептически отношусь, что получится добиться серьезного результата без human in the loop. У меня, как и у всех остальных, результат никакой. По сути все упирается в старую-добрую проблему рекурсии.

Но прекрасно, что такой проект запустили - а вдруг. В любом случае всплеск интереса к управлению памяти - это уже очень хорошо.

С нетерпением жду, когда гигачату дадут выдавать кредиты и устанавливать ставку. Хочу триллион под -100500%.

Наше кунгфу сильнее вашего кунгфу.

Трамп сказал - бояре сделали. Ему приятно.

V4 слабее SOTA. Кто бы спорил. Но для получения своих 8 месяцев они используют свой ELO нескольких моделей, по которому эта разница означает 8 месяцев прогресса. Дальше лучше.

Для практического сравнения, что несколько важнее с практической точки зрения, используют единственную модель, GPT-5.4 mini, которая оказалась не сильно хуже и не сильно дороже V4. Из всего многообразия выбрали лучшего бойца. По своим критериям, а не реальным задачам.

Качество сравнивают с SOTA. Цену с мини. Фокус-покус.

При этом мини и хуже, и дороже. При этом цену V4 взяли без нынешней 75% скидки и грядущей постоянной после прихода хуавеев.

Бюджет для решения задач установили в токенах, а не в $$$.

Незадолго до выхода Deepseek V4 Preview (еще только preview!) вышли другие китайские модели, которые считаются лучше V4. Их они не добавили.

Сильное отставание V4 показывают их непубличные бенчмарки. Мое кунгфу сильнее, но я вам его не покажу.

А теперь представь, что ты тимлид. Сказать переделывать нельзя - унижение.

Назначить задачу, например на канбане, нельзя - должен как равному предложить поработать.

Очень кайфово будет с обижайками такими работать? А они ничего с собой поделать не могут, с рождения прошиты. Так что как-то трудятся в "токсичных" условиях. Либо балду пинают, если им исключительно в попку надувают.

При этом европейцы никакой токсичности не видят (потому что нет ее) и радостно трудятся.

1
23 ...

Информация

В рейтинге
3 767-й
Зарегистрирован
Активность