Pull to refresh

Comments 38

Делаем ставки — будет ли апдейт с признанием в том, что и этот пост сгенерирован сетью.
Конец вызывает прямо-таки сильные эмоции


Там текст настолько коряво написан, что воспринимается как гуглоперевод, причем как перевод не отредактированный, а прямо так и скопированный со страницы.

Принять это за текст, непосредственно написанный человеком — просто невозможно
(мне периодически приходится читать тексты, написанные людьми, которые не понимают смысла и сути того, о чем пишут — но и там есть большая разница с текстом упомянутой статьи)
Я списал это на переводческие издержки — к сожалению, я повидал много не очень качественных переводов, и тут не удивился.
«В моих ранних экспериментах с GPT-3 я обнаружил, что предсказанные предложения GPT-3, опубликованные на форуме bitcointalk.org, привлекли много положительного внимания со стороны форумчан, включая предположения о том, что автор должен быть умным (и/или саркастичным) и что в его сообщениях есть тонкие паттерны.

— здесь видно отсутствие логической связи между описываемым действием и описываемой реакцией на него.

»Полагаю, аналогичные результаты можно получить, опубликовав выдачу GPT-3 на других форумах, в блогах и социальных сетях"

— здесь нет смысловой связи с предыдущим предложением, хотя сама фраза стандартная.

У людей подобные вещи тоже встречаются, но их наличие однозначный признак того, что автор списал одно предложение из одного источника — а второе из другого :)
здесь видно отсутствие логической связи между описываемым действием и описываемой реакцией на него.

Вроде как есть связь: автор опубликовал тексты, сгенерированные GPT-3, на форуме и форумчане положительно оценили их.


В оригинале: "In my early experiments with GPT-3 I found that GPT-3’s predicted sentences, when published on the bitcointalk.org forum, attracted lots of positive attention from posters there, including suggestions that the system must have been intelligent (and/or sarcastic) and that it had found subtle patterns in their posts."


Я бы перевёл как: "В моих ранних экспериментах с GPT-3 я обнаружил, что сгенерированные GPT-3 высказывания [1], опубликованные на форуме bitcointalk.com, получили множество положительных отзывов от форумчан, в том числе высказывались идеи, что эта система умна (и/или саркастична), и что она отыскала [2] малозаметные особенности в постах форумчан.


[1] "predicted sentences" я перевёл как "сгенерированные высказывания", так как если бы это был текст, написанный человеком, то он имел бы в виду тексты, выдаваемые GPT-3. Обычно говорят "generated sentences", но GPT-3 тренировали на задаче "предсказать следующее слово" ("next word prediction") и эта её способность к предсказанию следующего слова позволяет использовать её для генерации текстов. То есть слова "predicted sentences" выглядят немного необычно, но в контексте понятны: высказывания, которые были сформированы с помощью предсказания какие слова могут идти дальше.


Для такой генерации обычно используют "затравку" — кусок текста, который нужно продолжить. Опять же из контекста можно предположить, что для затравки использовались посты форумчан с bincointalk.com, так как [2] указывает, что сгенерированные тексты упоминали посты форумчан.


В общем, когда я читал это на английском, то больше сердился, что автор льёт столько воды и приводит всякие несущественные детали ("The forum also has many people I don’t like." — он их потроллить что ли решил?), вместо того, чтобы приводить примеры сгенерированных текстов и реакции на них. Поэтому читал по диагонали, ища интересные куски, и быстро дошёл до разоблачения, которому не сразу поверил.

Я бы перевёл как: «В моих ранних экспериментах с GPT-3 я обнаружил, что сгенерированные GPT-3 высказывания [1], опубликованные на форуме bitcointalk.com, получили множество положительных отзывов от форумчан, в том числе высказывались идеи, что эта система умна (и/или саркастична), и что она отыскала [2] малозаметные особенности в постах форумчан.


Это уже постобработка человеком: подсознательная попытка найти некий смысл в тексте.
Классический пример такой обработки — трактовка туманных предсказаний в попытке связать их с реальными событиями (Нострадамус и проч)

Я же анализировал текст, приведенный в статье по ссылке.

»что автор льёт столько воды и приводит всякие несущественные детали"

Термин «бредогенератор», насколько я помню — известен чуть ли не с фидошных времен.
(Людям это тоже свойственно — некоторым копирайтерам удается удачно имитировать подобные тексты :)
Это уже постобработка человеком: подсознательная попытка найти некий смысл в тексте.

Вопрос в том, что такое смысл. Человек, описывающий свои фантазии на тему экспериментов с GPT-3, переводит в текст какие-то свои внутренние представления об этих экспериментах. Никто не может гарантировать, что в полутора миллиардах параметров GPT-3 не существует ничего, способного создать внутреннее представление соответствующее понятию "эксперименты с GPT-3".

Никто не может гарантировать, что в полутора миллиардах параметров GPT-3 не существует ничего, способного создать внутреннее представление соответствующее понятию


Это опять же постобработка информации человеком — если разуму что-то непонятно, допускается возможность того, что в этом непонятном есть нечто важное.
(ничего необычного, простой эволюционный отбор :)

То есть вы утверждаете, что в системе, которая обучается предсказывать продолжение текстов формируемых людьми на основе каких-то понятий, невозможно возникновение структур, аналогичных этим человеческим понятиям. А по какой причине это невозможно?

То есть вы утверждаете


Я обращаю ваше внимание на некоторые особенности человеческой психики.

в системе, которая обучается предсказывать продолжение текстов формируемых людьми на основе каких-то понятий


Опять же — чистая психология: применение терминов связанных с деятельностью человеческой психики к сугубо техническим процессам:
«обучение»=«внесение изменений в программу», «предсказание»=«получение результата, с определенной долей вероятности соответствующей ожидаемому результату»

Хотя на самом деле эти понятия не тождественны.

А по какой причине это невозможно?


Невозможность не доказана, но вероятна.

GPT-3, кстати, неплохо генерирует тексты на тему "почему deep learning никогда не сможет делать X": https://www.gwern.net/GPT-3#why-deep-learning-will-never-truly-x


"… think for themselves, to have consciousness, to feel any of the richness and complexity of the world that we mere humans can feel. Mere, unenlightened humans might be impressed by the abilities of simple deep learning programs, but when looked at in a more holistic manner, it all adds up to… well, nothing. They still don’t exhibit any trace of consciousness. All of the available data support the notion that humans feel and experience the world differently than computers do. While a computer can beat a human master at chess or Go or some other game of structured rules, it will never be able to truly think outside of those rules, it will never be able to come up with its own new strategies on the fly, it will never be able to feel, to react, the way a human can. [...]"

Думаю, здесь дело не в корявости текста, которая действительно бросается в глаза. При беглом прочтении возникает ощущение, что тест хоть и плохой, но в нем есть какая-то идея, вокруг которой строится логическая структура текста. Если взять текст из упомянутых яндекс.рефератов сразу видно, что это бессмысленный набор слов.

UFO just landed and posted this here

Все знают. Вы же не считаете, что это какой-то секрет? Однако живые, существующие люди в то общество не впишутся, поэтому и рассматривать нет смысла.


Люди ищут решения именно для существующих людей, со всеми их достоинствами и недостатками.

UFO just landed and posted this here
Если кто-то вам звонит (тратит на это свое время), то предложение выгодно звонящему. Если предложение выгодно вашему банку или мобильному оператору, практически наверняка оно невыгодно вам.

Это если вы достигли Парето-оптимума.
Во первых есть игра с ненулевой суммой. То есть win-win.

Во вторых может быть разница намерений, условно говоря интернет провайдер дарит роутер в расчете что вы останетесь с ним надолго, банк дает кредит в расчете что вы его вернете с процентами, продавец пылесосов приедет и покажет шоу в расчете на продажу. И вцелом по их целевой группе, если их расчеты верны, это так и есть. Но в вашем конкретном случае, они могут ошибаться, что обеспечивает выигрыш вам.
Ещё по теме:
  • Много-много экспериментов с GPT-3 приводит Гверн: адаптация паст, своеобразные рассказы на заказ, стихи. Всё я не читал, потому что это невозможно, но из прочитанного больше всего впечатлил «забавный рассказ» про кота, который гуглил себя, а потом оказался шогготом (sic).
  • В Твиттере приводят весьма пугающий разговор (точнее, фрагмент) о планах GPT-3 на мировое господство.
  • В Телеграме Denis Sexy IT описаны прелести эротических и прочих сценариев в безграничном мире AI Dungeon (в её потрохах как раз оперативно подменили GPT-2 на GPT-3).
Забавно, буквально сегодня тестил AI Dungeon. Очень впечатлился, надо сказать.
Играл магом, кастил файрболлы на несчастных гоблинов :)

Однако заметил, что контекст удерживается скорее именно в мышлении игрока. Например, у меня была такая ситуация (цитирую по памяти):

Игра: вокруг вас гоблины.
Я: Кастую файрболл!
Игра: 5 убиты, еще 10 осталось.
Я: скрываюсь в тенях, готовлю заклинание
Игра: Гоблины вышли. Вы, скрываясь в тенях, скастовали заклинание и убили 5 гоблинов. Еще 10 осталось, и они вас окружают...

Вновь и вновь я убивал 5, и оставалось 10… :)

В общем, как правильно описывает Денис в телеграм-канале — возможности безграничны именно потому, что генерация текста опирается на воображение игрока, а не на просчитываемую игрой реальность. Очень впечатляющее God-like ощущение.
Да, Гверн хорош в своем желании идти до конца с его миллионом ссылок и кучей исследований. Но пока даже GPT-3 не впечатляет: случайные попадания и курьезные совпадения. Такое ощущение, что ИИ сегодня идеально подходит для нейминга музыкальных групп, спортивных клубов и бредовых Q&A сессий. Жаль, китайским не владею, чтобы оценить китайских ботов от Microsoft. А самые прозрачные кейсы нашла только на aiweirdness, там девушка постоянно тестирует новые нейросетки. Не реклама, просто я оттуда некоторые ai цитаты тащу себе в блокнот.
Спасибо за aiweirdness. Нашел там отличную цитату, описывающую современное состояние нейросеток:
To this AI, SOUNDING correct is more important than actually BEING correct.

Проблема в том, что индустрия развлечений, где можно «казаться корректным» гораздо больше индустрии, где надо обязательно «быть корректным» (и следовать фактам). Рынок бесконечных постов и перепостов в соцсетях гигантский. Или еще вариант — рекомендации товара. Никто не умрёт, если предложенные Recomendations вам не подойдут; а вот если подойдут, магазин сильно выиграет.
О, а у вас есть текст про AI HR системы? Где-то видела мнение, про то, как боты фильтруют резюме, очень интересно.
Нет, такого нет. Но у меня есть две научно-популярные статьи по основам обработки естественного языка с помощью ИИ: часть 1 и часть 3. Я их очень рекомендую, чтобы ознакомиться с базовыми принципами — что можно, что нельзя.

Могу предположить, что обработка резюме строится на основе поиска ключевых слов и рейтинговой системы. Условно говоря, нашли PHP в вакансии на PHP — плюс 1 балл и так далее. Вряд ли что-то сложное.

Также не думаю, что там при принятии решения используются нейросети (хотя, конечно, исключать нельзя). У современных нейросетей хороший фан, но плохая устойчивость, нельзя предсказать, что у них будет на практике. На эту тему на Хабре есть классная статья Дмитрия Ватолина «Deep Fake Science, кризис воспроизводимости и откуда берутся пустые репозитории»
Непонимание собеседника, общение общими фразами и другие ошибки коммуникации свойственны, как мне кажется, не только ИИ, но и некоторым людям. Будет забавно, когда реальных людей никто не будет воспринимать всерьёз, потому что они будут вести себя «глупее», чем ИИ.
Естественно.
Мне вот, например, это всё ИИ интересно как минимум потому, что оно показывает, какие вещи уже можно считать достаточно примитивными, а какими — всё ещё достойными человека.

Общие фразы и перечисление фактов раньше было свойственно скорее не самым хорошим журналистам (хотя, надо признать, это выглядит приятно, в отличие от текста с чистым смыслом). Теперь для этого вполне подойдет ИИ… очень надеюсь, что люди наконец начнут оценивать текст по смыслу, а не по приятности.

Насчет неумения слушать — это вообще бич. Я стараюсь с такими людьми особо не общаться, поскольку «не слушать» меня может и чат-бот :)
Когда-то давно в романе «Основание» Азимова я вычитал кусок про очистку текста от воды.

Отрывок с lib.ru
Потребовалось лишь то, чем многие
часто пренебрегают, — здравый смысл. Видите ли, существует такая область
человеческих знаний, как «символическая логика». И она хорошо применима
для очистки человеческой речи от всяческой засоряющей ее ерунды, не
имеющей никакого значения.
— Ну и что?
— Я применил эту систему. Кроме всего прочего, я использовал ее для
анализа этого документа. Лично для меня в этом не было необходимости,
поскольку я и так сразу прекрасно понял, каково его истинное содержание.
Но мне показалось, что объяснить его суть пяти ученым-физикам при помощи
символов будет куда проще, чем при помощи слов.
Хардин извлек из папки несколько листов бумаги и разложил их на
столе.
— Кстати, анализ проводил не я, а Мюллер Хоулк из Отдела логики.
Здесь стоит его подпись — можете убедиться.
Пиренн перегнулся через стол, чтобы лучше разглядеть подпись. Хардин
продолжал:
— Расшифровка послания короля Анакреона была несложной; это и
неудивительно, так как люди, писавшие его, больше привыкли действовать,
чем изощряться в дипломатии. Все достаточно прямо и определенно сводится к
заявлению, суть которого, представленная в символах, сейчас перед вами.
Словами его можно выразить следующим образом: «Вы должны отдать нам то,
что мы требуем, а если не отдадите добровольно, то вам же хуже — отберем
силой, так или иначе».
Пока пятеро членов Совета изучали ряды символов, в зале царило
молчание. Потом Пиренн откинулся на спинку кресла и нервно закашлялся.
Хардин осведомился:
— Ну что, вы не видите лазейки, доктор Пиренн?
— Похоже, что ее действительно нет.
— Хорошо, — Сэлвор достал из папки следующую пачку листов. — А теперь
перед вами копия договора между Империей и Анакреоном. Договор этот,
кстати, подписал от имени Императора тот самый лорд Дорвин, который отбыл
отсюда неделю назад. К этому документу также приложен анализ в символах.
Договор был отпечатан мелким шрифтом на пяти листах, в то время как
нацарапанный от руки анализ занимал не более половинки страницы.
— Как видите, господа, более девяноста процентов текста при анализе
просто улетучилось, так как не имеет никакого смысла, а суть того, что
осталось, можно выразить следующим образом:
«Анакреон не имеет пред Империей никаких обязательств».
«Империя не имеет над Анакреоном никакой власти».
Все пятеро снова с немалым интересом занялись изучением результатов
анализа, то и дело сверяя их с договором. Когда они закончили, Пиренн с
беспокойством в голосе произнес:
— Кажется, все верно.
— Тогда вам ясно, что этот договор — не что иное, как декларация
полной независимости Анакреона и признание этого Империей?
— Похоже, вы правы.
— И Анакреон прекрасно понимает это, и будет стремиться подчеркнуть
свою независимость таким образом, чтобы навсегда исключить любую
возможность давления и угроз со стороны Империи. Особенно теперь, когда
всем уже ясно, что Империя не в состоянии осуществить свои угрозы — иначе
она никогда бы не допустила отделения Анакреона.
— Но в таком случае, — вмешался Сатт, — как объяснит мэр Хардин
заверения лорда Дорвина в поддержке Императора? Мне они кажутся… — он
пожал плечами, — вполне надежными.
Хардин откинулся на спинку кресла.
— Это и есть самое интересное. Честно говоря, поначалу я принял его
превосходительство за совершенно безнадежного осла, но оказалось, что это
умнейший человек и прекрасный дипломат. Я позволил себе записать все
разговоры с ним.
Послышался возмущенный гул, и Пиренн уже открыл рот, чтобы высказать
общее мнение.
— Ну и что? — упредил его Хардин. — Я знаю, что это серьезное
нарушение законов гостеприимства и джентльменского кодекса чести. И если
бы его превосходительство заметил это, я оказался бы в пренеприятном
положении, но этого не произошло, и теперь у нас есть запись — а это
главное. Запись эту мне размножили, и я передал Хоулку копию для анализа.
— И где же текст анализа? — осведомился Ландин Краст.
— Вот это и есть самое главное. Когда после двух суток напряженной
работы Хоулку наконец удалось избавиться от всех бессмысленных
банальностей, многозначительной чепухи и ничего не значащих высказываний,
то обнаружилось, что в тексте не осталось НИЧЕГО! Он самоликвидировался.


Сейчас я его вспомнил, т.к. автор как раз про это и говорит: локальная гладкость текста, общеизвестные факты и общие фразы не гарантируют того, что текст:
  • Создан человеком
  • Несёт в себе новую уникальную информацию
  • Подкреплён способностью фактчекинга изложенных утверждений


В связи с чем вопрос: существует ли какой-либо инструментарий для очистки текста от популярных фактов (земля круглая/земля шарообразная, но не земля геоид), непроверяемых утверждений, оборотов, общих фраз и иных способов сделать текст красивее и приятнее, чтобы можно было после обработки пройтись по оставшемся фактам и смыслам для вынесения окончательного вердикта: стоит ли текст вообще прочтения или это N литров воды?
Мне настолько приятен ваш коммент, что я, пожалуй, постараюсь ответить поподробнее.

Инструментария, разумеется, такого нет, но вот с чем это связано…

Ключевым является понятие факта, который можно проверить (который является значимым). Вопросом: что является подобного рода фактом?

Существует два подхода для такого определения:
1. На основе некой общей системы понятий (онтологии). Например, для распознавателя Сири или Алисы фактом будет являться то, что укладывается в понятие команды и её параметра (см. статью про чат-ботов). Остальное будет игнорироваться. Вопрос в том — можем ли мы создать такую универсальную систему понятий, которая бы отсеивала только факты и понятия, например, физического мира? Насколько я разбираю историю ИИ в другой статье, ответ скорее «нет».

2. Факт не существует в безвоздушном пространстве, а возникает в момент взаимодействия двух субъектов, в том числе воспринимающего (читателя). Условно говоря, возьмем текст из статьи про GPT-3 «На форуме также много людей, которые мне не нравятся.». Для большей части читателей этот фрагмент не несёт никакого смысла; однако, если бы текст читал друг автора, эта эмоциональная реакция была бы для него значима. Другой пример — вряд ли 14-летние дети при изучении «Войны и мира» интересуются всеми приведенными там фактами. Это не означает, что в тексте их нет — это означает, что восприятие текста и значимость его элементов зависит от воспринимающего. (Я развиваю этот подход в попытке анализа метафорических систем человека)

Кроме всего прочего, хотелось бы вновь вспомнить про аспект доверия и оценки фактов. Например, фраза «этот вывод довольно приятен», вообще говоря, может быть фактом. Мы с большим уважением отнесёмся к нему, если это будет близкий нам человек — мы знаем, что у эмоций есть значимость. Однако, по отношению к стороннему человеку, журналисту или ещё кому-то, кто может с лёгкостью поменять своё мнение или сказать «Я просто пошутил», это не будет являться фактом, это будет сиюминутная прихоть.

— Это длинный ответ. Но на самом деле можно дать ответ попроще, например, используя признак фальсифицируемости по Попперу. Фальсифицируемость означает, что вы можете придумать эксперимент, в котором утверждение будет ложным. К фразе «то так, то эдак», понятное дело, такого особо не придумаешь. Общеизвестные факты уже являются фактами и не несут новой информации.

Другой хороший инструмент — оценка прогностической силы высказывания. Дает ли высказанное возможность сделать прогноз? (и его опровергнуть?) Скажем, содержимое сгенерированной статьи было интересно именно экспериментами на bitcointalk — именно это восприятие форумчанами генерации GPT-3 являлось новым содержанием, проверяемым экспериментально.

Иными словами, критериями т.н. «объективного факта» может являться: а) явная принадлежность утверждения к множеству объективных фактов (онтологический подход); б) восприятие утверждения как объективного факта воспринимающим (культурологический подход); в) что-то иное, доселе неизвестное

Мы берём за основу вариант б и из этого следует что проверить факты на соответствие своим критериям объективности факта может только сам воспринимающий, следовательно подобный инструментарий каждый человек должен под себя писать сам (но должен ли, не создаст ли он себе махровый одиночный сейфспейс?).

А вот дальше уже начинаются нюансы что в такой фильтр закладывать. Доверие? Ок, возможно, но и признанные воспринимающим эксперты и сам воспринимающий могут ошибаться. Способность распознать за словами/текстом данного человека метасмыслы (в каком настроении оно было написано и какую на это следует сделать поправку, например)? Не лучше ли тогда сами метасмыслы включить в фильтр и просто «не заполнять» значения там, где они не восприняты. Ожидания от текста? Тоже возможно, но они влияют на восприятие текста, а не на сам текст, тут вопрос к изначальной цели фильтрации. Фальсифицируемость? Я бы вообще выкинул её на свалку истории науки как критерий демаркации, но да ладно, в ряде областей можно и использовать. Прогностическая сила? Насколько я знаю, вот уж её на данный момент способен оценить только естественный интеллект (пример в научных статьях, созданных ИИ).

Я просто не знал на каком уровне сейчас работа с текстом и наивно полагал что эти проблемы хоть как-то решены. Но нет так нет, будем ещё ждать и работать своим мозгом для анализа текста, не впервой :)

В любом случае, спасибо за ответ!
О, а я тут в свободное время играю с виртуальным редактором эссе. Автор утверждает, что разработал универсальную систему оценки текстов для школы и колледжа. Такое вообще возможно? Мне этот редактор кажется весьма слабым. Хотя может он только для англоязычных текстов, эссе на французском и других европейских языках обычно намного сложнее по целевым структурам.
Хоулку наконец удалось избавиться от всех бессмысленных
банальностей, многозначительной чепухи и ничего не значащих высказываний,
то обнаружилось, что в тексте не осталось НИЧЕГО! Он самоликвидировался.


Ну, это же просто анекдот, использованный Азимовым для привлечения интереса к его собственному тексту :)

Гораздо нагляднее выглядит подобный анализ текста хорошо составленного юридического документа, например текста Заявления о конфиденциальности корпорации Майкрософт или Политики конфиденциальности и Условия использования Google.

Как правило, после выжимки всей воды из подобных текстов — мы получаем крайне содержательное по смыслу сообщение с очень важной для прочтения информацией.
(кстати, это есть и у Азимова, но неявно — полученная Хардином информация из обоих документов оказалась крайне ценной, несмотря на форму, в которой она была передана)
Есть инструменты, помогающие почистить текст во время его написания, но они скорее рекомендательные. А вот для конечного пользователя текста, к сожалению, ничего нет.
Пробовал читать эту статью, показалось что читаю бессвязный набор слов. Списал это на то, что я далёк от данной области («не дорос») и бросил. А теперь оказывается что это действительно бессвязный набор слов. При этом многие люди восприняли его как связный… Испытываю противоречивые чувства. Я всё-таки не дорос или или перерос?
>> Я всё-таки не дорос или или перерос?
Не переживайте так, иначе будет невроз

Эта статья получилась намного более интересной и осмыссленной, чем референс.

По бессмысленному тексту робота от человека действительно сложно отличить. Но это не потому, что робот такой умный, а потому, что некоторые люди не далеко от него в своём развитии ушли. Чтобы генерировать осмысленный текст нужен уже действительно сильный ИИ.

Кто-нибудь вообще (кроме меня) заметил, что исходная статья — перевод? То есть я готов поспорить, что переводчик в процессе многие огрехи попричесал.

Sign up to leave a comment.

Articles