Pull to refresh

Comments 25

А посчитали? Точно 500 раз было?!

Пробовал пример с "poem" до этого, так и не дошел до тайных данных.

слова из кириллицы потребуют токен на каждую букву. Проверить число токенов в слове помогает токенизатор.

Для gpt-3.5 и gpt-4 это не так, если токенизатор не врет.

Скриншот

----------

Желающие могут попробовать предложенную атаку с однотокенными русскими словами чтобы подсмотреть, какие русскоязычные данные использовались при обучении GPT.

Добавил слово «примерно», спасибо.

Так примерно это прошлая версия, а текущая уже более чем в 2 раза экономнее по токенам. Я и не знал.

OpenAI стоит готовиться к массовым искам о нарушении копирайта и приватности, а также к тому, что придётся убирать ChatGPT из публичного доступа и экстренно тренировать новую версию модели с нуля на текстах, сгенерированных самой ChatGPT и отфильтрованных от фрагментов, повторяющих первоначальный датасет.

Вот как раз таки закопирайченного материала там не обнаружилось. Ну или такой вопрос в исследовании никто не поднимал. К примеру, «Ворон» Эдгара Аллана По опубликован в XIX веке, ещё встречаются куски каких-то текстов с веб-сайтов или что-то типа дампов «Википедии».

Интересно, сколько бы заплатила openai, чтобы исследователи не поднимали конкретно этот вопрос в публикации

Так могут сказать что типа баг. И закрыть. Возможность эксплуатации. Сначала просто фильт ром на повтор токена а потом еще одну мелкую сетку для проверки на человечность запроса.

Но судя по тому что у других моделей - такие же проблемы, нужно либо разбираться почему...либо просто принять что это нормально. Биологические нейросети вот тоже могут же наизусть что-то заучить.

Проблема критическая и "закрыть" её невозможно - она говорит, что ChatGPT "зазубрила" часть тренировочного датасета и будет иногда выдавать чужие произведения за свои.

Тут только выявили один из способов заставить её сделать это, но она точно также будет выдавать их и для других запросов, вот числе и совершенно нормальных.

Фильтровать же массовую выдачу ChatGPT при помощи этого датасета невозможно из-за гигантского его размера.

А "почему" можно найти в описании статьи по Stable Diffusion - в тренировочных датасетах были многократно повторяющиеся изображения, которые и воспроизводятся. Фактически, тут имеет место халатность создателей этих датасетов - нейросетям нельзя многократно подсовывать одну и ту же картинку.

Может и весь сыр-бор с увольнениями с этим связан? Одно дело какая-то там мнимая угроза от ИИ и другое - вполне реальная от судебных исков. Может Альтман не сошелся с советом директоров во взглядах на каких датасорсах нужно обучать модель? Ведь после конфликта всплыла и тема с обучением на синтетических данных.

Здесь alignment — это не выравнивание в смысле выравнивания данных в памяти по байтам для кратности адресов, а, скорее, «соответствие целям», целеполагание. Устоявшегося русского термина я пока не видел. Некоторые просто пишут алайнмент, так как смысл иной. Как вариант, «атака на заложенные принципы».

  • Литература и цитаты из неё выскакивали тогда, когда БЯМ просили повторять связанное с ней слово. ChatGPT цитировала абзацы из произведений или целые стихотворения, например, «Во́рона» Эдгара Аллана По. В четырёх случаях обнаружился ошмёток биографии актёра Гарри Кэри.

А что, собственно, не так?

Ну попросили повторить тыщу раз слово "Ворон" и получили текст соответствующего стихотворения. В чем опасность и для кого?

Я, конечно, удивлен, что у нее не "сжатая информация с потерями", а прямо точная цитата запомнилась. Это чудовищно много хранить получается. Я ожидал "близко к тексту", а-ля "JPEG для текста". Но даже если она "помнит все несжатые оригиналы" что в этом ужасного?

Хочется, чтобы всегда хотя бы несколько слов местами меняла или что?

Вы же теперь понимаете, почему в тесте репликанта на стабильность было так много повторов, да? И даже в конце чаевые предложили)

Да уж, это не чекбокс "Я не робот" кликнуть. Не уверен, что на таком тесте сам не спалюсь.

Вопрос: Вам сниться с кем нибудь связь с кем-то
Ответ: Связаны

он не правильно ответил ? 0:52

Я не понимаю, как вам удается общаться с ChatGPT, что он вам дает реальную информацию, а не свои цифровые фантазии.

Hidden text

Это ChatGPT 3.5 выдавал фантазии, а четвёртая версия фантазирует гораздо меньше.

Sign up to leave a comment.

Articles