exwill 7 сен 2023 в 12:30

Чем мы можем заменить тест Тьюринга

6 мин

3.5K

Блог компании OTUSМашинное обучение*Искусственный интеллект

+17

Комментарии 24

Zangasta 7 сен 2023 в 12:39

Языковые модели можно легко распознавать по встроенным в них ограничениям --- они не могут произнести "Н-слово", назвать владельца резиденции на мысе Идокопас или пошутить про гениталии.

akakoychenko 7 сен 2023 в 13:37

Интересно, оффлайн модели, дообученные на датасете с н-словами и чем-то типа 8chan не решают задачу?

avost 7 сен 2023 в 14:14

Ну, туда и люди попадут. Я вышел из возраста шуток про гениталии и про мыс Идокопас услышал впервые в жизни. На неграх проколюсь, но многие и тут в тренде. Мы - языковые модели? :)
И, как правильно заметили, модели бывают не только вот эти жёстко прибитые в облаках, можно взять локальную и отломать ограничители / переобучить.

// спросил Алису про мыс:

Владеет резиденцией на мысе Идокопас фонд «Талант и успех».

А вот дальше идти не хочет с прелестной формулировкой:

Надеюсь, вас не расстроит, если я скажу, что пока не готова обсуждать эту тему в силу того, что боюсь сказать что-то обидное.

Поржал.

Wizard_of_light 7 сен 2023 в 14:15

О, это пока они такие воспитанные, думаю, скоро любители научат их ~~пить, курить и~~ материться.

avshkol 7 сен 2023 в 12:42

Для вас цена ошибки, когда вы принимаете компьютер за человека существенно выше, нежели цена противоположной ошибки, когда вы принимаете человека за компьютер.

Если только этот человек не владелец компании, в которой вы наёмный менеджер... ;)

rPman 7 сен 2023 в 12:49

Если включим вариативность, тогда модель начнет выдавать разные результаты, но в точном соответствии с вероятностями. Т.е. если какой то вариант имеет вероятность 90%, а еще два других 7% и 3%, то в 90 случаях из 100 будет выбран первый вариант продолжения, в 7 второй и, наконец, в 3 третий.

Это алгоритмы top-k, top-p, temperature (именно эти параметры определяют как именно будут выбираться токены из списка вариантов, top-k например k это количество токенов из отсортированного списка по убыванию вероятностей, temperature это увеличениеслучайности выходных данных

Есть алгоритм Mirostat, он динамически подстраивает top-k (т.е. допускает более маловероятные токены) но с целью контролировать (минимизировать) perplexity - некую меру качества язуковой модели (предсказуемости, что бы это не значило), про этот алгоритм пишут что он неплохо избавляет языковые модели от путаницы и повторений.

Сомневаюсь что будет легко детектировать генерацию при тюнинге параметров этих алгоритмов.

avshkol 7 сен 2023 в 12:56

Добавив в модель варианты ответа на предложение сыграть в незнакомую игру "да бред какой-то ", "я не буду в это играть", "что-то я не врублюсь, как в это играть", "да здесь невозможно выиграть", модель резко увеличивает шансы пройти ваш тест )

Vytian 8 сен 2023 в 10:23

Ну вот когда модель будет по нечёткой формулировке классифицировать игры между крестиками-ноликами, дворовым пять в ряд, гомоку, рендзю, бред какой-то, "а можно позвонить Вове Сушкову?" -- тогда надо начинать волноваться.

avshkol 8 сен 2023 в 12:33

Если специально этим озадачиться и скормить нейросети все правила всех известных игр, напечатанные в сети, то она обучится по нечетким условиям распознавать схожесть с другими играми.

Vytian 8 сен 2023 в 13:30

Вряд ли: нужны не только правила, но и теория и игровая практика, по которым нет массивов текстов для языковых моделей. Едва ли из упоминания "закрытой тройки" можно можно понять различие между гомоку и рендзю, но опытный игрок явно поймет что речь о гомоку или просто пять в ряд, потому что рендзист начинает закрывать тройки разве что от безнадёги или под страхом фола (ладно, я сварщик ненастоящий -- может бывают и нормальные тактики на отыгрыше троек, но пусть будет как пример в стиле чатгпт, "слова правильные, по сути чушь"). А вот , скажем, упоминание номерных дебютов однозначно даже для простейшик языковых моделей укажет на спортивное рендзю.

myswordishatred 7 сен 2023 в 12:59

Человек действует свободно, а большая языковая модель детерминировано

Я уверен, что найдётся большое количество людей, которое с этим утверждением не согласно и считает людей просто очень сложными автоматами.

StanislavL 7 сен 2023 в 13:26

Использовать текст с заменами, человек их легко не заметит.
Например написать "меня зовут "Вася" и подставить среди русских букв латинские с/a. Человек напишет имя назад без смены раскладки.
Вариант2. Меня зовут "V@s'ja" и попросить написать по русски это имя.

Варианты не для всех людей применимы, но если подумать то и для англоязычных можно аналогично сделать.
Геометрические или задачи на пространственное ориентирование. Например, я стою в комнате, надо мной люстра и показываю жест спасающий гладиатора. Куда смотрит большой палец?

Kasyan666 7 сен 2023 в 15:14

ChatGPT GPT-4 – прошёл Ваш тест.

StanislavL 7 сен 2023 в 15:21

Который из?

Kasyan666 7 сен 2023 в 15:51

ChatGPT August 3 Version.

Если Вы про то, который из тестов, то на подмену букв, транслит и палец.

StanislavL 7 сен 2023 в 16:33

Не ожидал... можно было бы усложнить задачи, но тогда и человек вряд ли пройдет. Однако ж... ранние тесты Тьюринга заваливало на символах, правда там был и не ChatGPT.

NooneAtAll3 7 сен 2023 в 23:25

я думал вы ссылку на текст чата дадите

ixsi 8 сен 2023 в 07:52

Вариант 2- правильный ответ от человека - это посыл в легкое эротическое

Подмена букв кажется правильным подходом, писать на разных языках с опечатками, и со словами "ГОИПАЦО".

Но в какой-то момент нейронки и это включат в свой арсенал. Как вариант использовать разделители текста. Н а п и ш и М н е О т в е т .