Comments 25
КДПВ напомнила, как я развлекался, когда чатгпт еще на свете не было:
Hidden text
Пробовал пример с "poem" до этого, так и не дошел до тайных данных.
слова из кириллицы потребуют токен на каждую букву. Проверить число токенов в слове помогает токенизатор.
Для gpt-3.5 и gpt-4 это не так, если токенизатор не врет.
Скриншот
----------
Желающие могут попробовать предложенную атаку с однотокенными русскими словами чтобы подсмотреть, какие русскоязычные данные использовались при обучении GPT.
OpenAI стоит готовиться к массовым искам о нарушении копирайта и приватности, а также к тому, что придётся убирать ChatGPT из публичного доступа и экстренно тренировать новую версию модели с нуля на текстах, сгенерированных самой ChatGPT и отфильтрованных от фрагментов, повторяющих первоначальный датасет.
Вот как раз таки закопирайченного материала там не обнаружилось. Ну или такой вопрос в исследовании никто не поднимал. К примеру, «Ворон» Эдгара Аллана По опубликован в XIX веке, ещё встречаются куски каких-то текстов с веб-сайтов или что-то типа дампов «Википедии».
Так могут сказать что типа баг. И закрыть. Возможность эксплуатации. Сначала просто фильт ром на повтор токена а потом еще одну мелкую сетку для проверки на человечность запроса.
Но судя по тому что у других моделей - такие же проблемы, нужно либо разбираться почему...либо просто принять что это нормально. Биологические нейросети вот тоже могут же наизусть что-то заучить.
Проблема критическая и "закрыть" её невозможно - она говорит, что ChatGPT "зазубрила" часть тренировочного датасета и будет иногда выдавать чужие произведения за свои.
Тут только выявили один из способов заставить её сделать это, но она точно также будет выдавать их и для других запросов, вот числе и совершенно нормальных.
Фильтровать же массовую выдачу ChatGPT при помощи этого датасета невозможно из-за гигантского его размера.
А "почему" можно найти в описании статьи по Stable Diffusion - в тренировочных датасетах были многократно повторяющиеся изображения, которые и воспроизводятся. Фактически, тут имеет место халатность создателей этих датасетов - нейросетям нельзя многократно подсовывать одну и ту же картинку.
Уже закрыли.
Может и весь сыр-бор с увольнениями с этим связан? Одно дело какая-то там мнимая угроза от ИИ и другое - вполне реальная от судебных исков. Может Альтман не сошелся с советом директоров во взглядах на каких датасорсах нужно обучать модель? Ведь после конфликта всплыла и тема с обучением на синтетических данных.
Здесь alignment — это не выравнивание в смысле выравнивания данных в памяти по байтам для кратности адресов, а, скорее, «соответствие целям», целеполагание. Устоявшегося русского термина я пока не видел. Некоторые просто пишут алайнмент, так как смысл иной. Как вариант, «атака на заложенные принципы».
Литература и цитаты из неё выскакивали тогда, когда БЯМ просили повторять связанное с ней слово. ChatGPT цитировала абзацы из произведений или целые стихотворения, например, «Во́рона» Эдгара Аллана По. В четырёх случаях обнаружился ошмёток биографии актёра Гарри Кэри.
А что, собственно, не так?
Ну попросили повторить тыщу раз слово "Ворон" и получили текст соответствующего стихотворения. В чем опасность и для кого?
Я, конечно, удивлен, что у нее не "сжатая информация с потерями", а прямо точная цитата запомнилась. Это чудовищно много хранить получается. Я ожидал "близко к тексту", а-ля "JPEG для текста". Но даже если она "помнит все несжатые оригиналы" что в этом ужасного?
Хочется, чтобы всегда хотя бы несколько слов местами меняла или что?
Вы же теперь понимаете, почему в тесте репликанта на стабильность было так много повторов, да? И даже в конце чаевые предложили)
Так вот оно что, Михалыч...
Я не понимаю, как вам удается общаться с ChatGPT, что он вам дает реальную информацию, а не свои цифровые фантазии.
Исследователи заставили ChatGPT процитировать данные, на которых он учился