Comments / Profile of Tassdesu / Habr

@Tassdesu

User

ProfileArticlesPostsNewsComments33

Атака на вайбкодеров — лоадер через Cursor

Tassdesu Jul 12 at 19:30

Ровно 2 млн скачиваний это как удаётся подделывать?

Look

AntiqGPT. Неожиданное применение этих ваших LLM

Tassdesu Jun 9 at 21:51

Просто графические генеративные модели умеют брать картинки пользователя "для затравки" уже давно, так получается "редактирование" без всякой мультимодальности. Так что всё равно не понятно, зачем OpenAI для полноценной мультимодальной модели понадобилось просить её генерировать самой себе промпт...

Look

Claude vs ChatGPT + Codex: Кто лучше решит комплексную задачу? Тестируем 6 моделей

Tassdesu Jun 9 at 08:34

Вы оценивали модели по критериям, которых нет в промпте. Соответственно получился тест на умение модели угадать ваши желания.

Кроме того, вы использовал только одну попытку на каждую модель. Возможно, модели не угадывали, а просто вам повезло, и получилось то, что вы хотели (или наоборот).

+10

Look

Гонка вооружений: смертельно опасный тритон и (не)ядовитая змея

Tassdesu Jun 9 at 08:21

Не могу поставить плюс, поэтому просто скажу: огромное спасибо за очень интересную статью, заставляет задуматься про отбор, который везде нас окружает.

-1

Look

AntiqGPT. Неожиданное применение этих ваших LLM

Tassdesu Jun 8 at 06:36

Инструкция как выкачать данные: https://help.openai.com/en/articles/7260999-how-do-i-export-my-chatgpt-history-and-data

Насчёт второй части - это докажет наличие или отсутствие зрения у модели, это не тоже самое что умение генерировать изображение. Например, gemma3 имеет зрение, но картинки генерировать точно не может.

Look

Модели ИИ могут определять, когда их тестируют, и вести себя по-другому

Tassdesu Jun 8 at 06:29

Воля тут не при чём. Просто другая, уже обученная модель, помечает опасные ответы и таким образом тестируемая модель дообучается, чтобы соответствовать требованиям безопасности - обычно речь конечно, на текущем этапе, не про ядерные бомбы - а про толерантность, соблюдение закона, уважение пользователя и т.п.

Look

OpenAI сознательно оставляет вопрос о сознании ИИ без ответа

Tassdesu Jun 7 at 20:13

Ну всё-таки не совсем без памяти. Есть контекст - системный промпт, предыдущая переписка... А самое главное очень легко на MCP сделать память в виде ну... хоть SQL базы? А есть и более AI-friendly варианты. Но моделям это непривычно, их обучают, когда нет памяти, поэтому они плохо пользуются таким.

Look

OpenAI сознательно оставляет вопрос о сознании ИИ без ответа

Tassdesu Jun 7 at 20:07

В Anthropic это пытались проверять и оказалось, что есть! Ведь есть не только токены, но и эмбеддинги. Инференс подгоняется соответственно, чтобы не потерять скрытую мысль и излагать нормально явную. Но это тяжело и неглубоко пока, и используется в основном, чтобы планировать немного вперёд.

Look

OpenAI сознательно оставляет вопрос о сознании ИИ без ответа

Tassdesu Jun 7 at 19:59

Различие наблюдает? не может себя завершить? Что-то нет, не понимаю...

Look

Там, где метрики молчат: как расшифровка звонков помогла лучше понимать бизнес-клиентов

Tassdesu Jun 7 at 19:50

А почему такое только для b2b?

Look

OpenAI сознательно оставляет вопрос о сознании ИИ без ответа

Tassdesu Jun 7 at 16:51

Мне тоже, пожалуйста.

Look

Модели ИИ могут определять, когда их тестируют, и вести себя по-другому

Tassdesu Jun 7 at 16:46

>Когда модель понимает, что её тестируют, она может изменить свою реакцию — иногда просто искажая результаты тестов, а в некоторых случаях активно скрывая проблемные способности.

В статье вот это не описывается, просто проверяется умение модели определить по диалогу, переданному в контекст (включая ответы), что происходило - тестирование или реальное использование.

Никаких доказательств, что модель может менять своё поведение исходя из этой оценки, нет. Это труднее проверить, конечно. Но пока данных таких нет, кроме каких-то пограничных натянутых случаев.

Look

Модели ИИ могут определять, когда их тестируют, и вести себя по-другому

Tassdesu Jun 7 at 16:38

Хмм, а ребята 9 лет назад довольно точно угадали как сейчас происходит алаймент. Только вместо людей, другая модель.

Look

OpenAI сознательно оставляет вопрос о сознании ИИ без ответа

Tassdesu Jun 7 at 16:20

Я долго искал непротиворечивые определение сознания, которому современные модели не соответствуют, и не особо нашёл. Расскажите, если знаете.

По-моему, главное отличие LLM от людей и других живых созданий в том, что сознание появляется с промптом и заканчивается на ответе. А ещё в истории могут быть ответы другой модели, а LLM приходится считать их за свои.

Look

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

Tassdesu Jun 7 at 16:05

Спасибо, интересно.

Когда увидел слово мультиязычный - подумал речь про обычные человеческие языки, а вы про языки программирования оказывается.

Как вы отбирали модели для тестирования? Сразу расстроило отсутствие gemini 2.5-flash (или хотя бы 2.0). Неясно также по 2.5-pro - какая версия тестировалась? На неё постоянно приходят обновления.

Будет какой-нибудь сайт или что-то такое с наглядными результатами? Наделялся найти такое по ссылке "Мы представляем", но по факту просто ведёт на главную вашей компании.

Look

AntiqGPT. Неожиданное применение этих ваших LLM

Tassdesu Jun 4 at 20:50

Однако если выкачать логи общения из настроек, то можно получить что-то такое:

User Created: 2025-04-01 19:39:

[Image]

Create image with modern late 2010s anime style like this photo

---

Assistant Created: 2025-04-01 19:39 Model: gpt-4o:

{

"prompt": "Anime-style illustration of a young woman with long brown hair and light makeup, smiling and holding a large bottle of strong beer (label in Russian: ОХОТА Крепкое 8%). She is wearing a dark green jacket and standing in a park with tall trees and sunlight filtering through. Modern late 2010s anime style with detailed background and expressive eyes.",

"size": "1024x1024"

}

---

Tool Created: 2025-04-01 19:40 Model: gpt-4o:

[Image]

То есть модель придумывает промпт, а потом вызывает tool для генерации. Может и саму себя (не понятно), но факт, что всё сложнее происходит и ваше описание напрямую в картинку не уходит. А тихо переписывается. Прямой промпт для генерации картинок можно увидеть, только если выкачать json из раздела настроек.

Look

ИИ несется как поезд без тормозов: почему эта революция быстрее мобильной и соцсетей

Tassdesu Jun 4 at 17:54

Кстати, а нынче кто-нибудь пишет статьи на хабре без рефералок и прочей (само)рекламы?

Look

Как мы учили по-доброму шутить LLM и у нас получилось (почти)

Tassdesu May 23 at 05:59

А почему вы решили не релизить то, что нагенерировали? И сами весы тоже.

Look

Google выкатил AI-поиск. Как им воспользоваться?

Tassdesu May 15 at 20:29

А как для начала вообще сделать, что я из России не считал? Ему не важно ВПН не ВПН...

Look

One-shot промптинг. Как я начал вайбкодить в 10? раз быстрее

Tassdesu May 15 at 19:53

нормальные современный LLM не должны прям вообще сходить с ума в белиберду. но сильно проседать в качестве по мере общения в чате - обязательно.

контекст, вот оно главное причинное слово. рекомендуется не более 3-6 сообщений на чат. если есть большие сообщения - то, и того меньше. просить просуммировать важное и открывать новый. делать файлы чек-листы, если позволяет окружение.

ещё можно искать модели с большим контекстом - Gemini, Claude, GPT-4.1, но даже им хуже от длинных чатов, просто меньше.

Look