Как я, специалист по ИИ, на ИИ-текст купился

    Захожу я сегодня на Хабр, и, под чашку чая, пролистываю статью «GPT-3 от OpenAI может стать величайшей вещью со времён Bitcoin».

    Если не читали – почитайте. Конец вызывает прямо-таки сильные эмоции. У меня они усугубились тем, что я относительно профессионально занимаюсь ИИ, генерацией текстов и проблемой смыслов – так что я небезосновательно считал, что легко распознаю текст, сгенерированный машиной…

    Да-да, я купился. Текст статьи «GPT-3 от OpenAI может стать величайшей вещью со времён Bitcoin» был (возможно) создан ИИ, но я этого не увидел, при том, что я, в общем-то занимаюсь этим профессионально и знаю основные приемы, используемые в машинной генерации текста.

    После того, как у меня спал первый лёгкий шок, я хотел бы поделиться рядом соображений.

    Это не машинный текст, а текст, обработанный человеком


    Пожалуй, первой реакцией на текст было отрицание, нежелание принимать, что этот текст сделан машиной. Мой мозг начал в бешеном темпе подыскивать подходящее под это аргументы. Вообще говоря, я их сам считаю довольно слабыми, но всё равно хочу их привести:

    • Неизвестно, сколько процентов текста и как отредактировал автор. Примеры текста, вроде как сделанного машиной, но поправленного человеком есть – например, когда-то была история про сценарий фильма/книги, сделанный ИИ. Тонкость всегда заключалась в деталях – если вчитываться в обзор, всегда было сказано что-то в том духе, что ИИ сделал завязку истории, а потом группа писателей её доработала. Я всегда списывал качество результата на то, что писатели просто привнесли уже какой-то свой смысл при доработке, поскольку и в абстрактных картинах при большом желании можно что-то найти. Возможно, тут этот аргумент не проходит, поскольку, по заверениям автора, он поправил только форматирование текста.
    • Это перевод. При переводе, очевидно, переводчик добавляет в текст собственные смыслы и связность. Кроме того, фразы в духе «Вас обслужили?» можно списать на некачественный перевод или особенность подачи текстов в западном стиле. Кстати, на проблемы перевода я также списал отсутствие скриншотов, о которых говорится в статье.
    • Это выборка материала человеком. Автор сам говорит о том, что получил этот результат не с первого раза, а сделав несколько прогонов сети. Я сам экспериментировал несколько раз с GPT-2, и у мне также требовалось несколько запусков, чтобы получить что-то достаточно осмысленное. Всё-таки машина генерирует только набор символов, и лишь человек оценивает, осмысленный он, или нет. Радует это хотя бы тем, что нельзя полностью «выливать» весь выход GPT-3 в Интернет, засоряя его с почти бесконечной скоростью…

    Тем не менее, я также готов признать, что эти аргументы довольно слабые, и машина действительно сейчас может создавать относительно длинные новостные тексты, похожие на человеческие.

    Я отставил чашку с чаем в сторону и подумал: «Что это означает? Какой урок я могу вынести для себя из этой истории? Могу ли теперь я дать хоть какие-то рекомендации относительно умения отличать хорошие тексты от плохих или бессмысленных?»

    Институт репутации и проверка фактов


    Вернувшись к эмоциям, которые у меня возникли в процессе чтения, я вспомнил, что фрагментом статьи, после которого я начал «верить» в происходящее было описание эксперимента на форуме bitcointalk. Начало статьи меня не задело – оно посвящено фактам о создании GPT-3, и я уже привык, что такого рода факты ничего не говорят ни об авторе, ни о его понимании предмета, поскольку могут быть заимствованы откуда угодно.

    Но описание эксперимента было интересно. Собственно, оно и создало «содержание» статьи – правила постинга, реакция других людей с форума…

    … и в результате мы понимаем, что никакого эксперимента не было.

    Это навело меня на интересные мысли. Когда-то давно я писал о моделировании экономических циклов на основе роста доверия. Суть заключается в том, что рост идёт только пока исполняются обязательства сторон – или, проще говоря, если я вам говорю «я вам отгружу этот товар через неделю по цене X», вы доверитесь мне, и я действительно это сделаю. Всё базируется исключительно на доверии – если вы не доверяете мне, или я вас обману, мы, конечно, можем попробовать решить дело через суд, но это будет сопровождаться АДСКИМИ издержками. Представьте, что было бы, если бы каждая покупка йогурта в магазине сопровождалась серьезной возможностью судебного разбирательства…

    И здесь мы приходим к, на мой взгляд, серьезной проблеме современного мира. В каком-то смысле у нас почти не осталось институтов репутации применительно к словам и текстам, а значит, мы не очень знаем, кому вообще можно доверять.

    Представьте, что вам звонит представитель сотового оператора. Или банка. С новым, уникальным, выгодным для вас предложением. Вы поверите, что оно для вас выгодно?

    СМИ могут случайно поставить «не ту» фотографию. Могут однобоко рассмотреть ситуацию. Вывесить на главной странице провокационную статью с маленькой надписью внизу «Это авторская колонка. Мнение автора может не совпадать с мнением редакции». Могут сослаться на неизвестного профессора Всемирного института г. Кукуево со словами «Ученые узнали…» И им ничего за это не будет. В самом крайнем случае они посокрушаются о недостаточной проверке фактов, и, может, выложат в каком-нибудь углу, в котором вы его никогда не найдете, опровержение спустя пару месяцев.

    Не спасает даже наличие «компетентных» людей. Пожалуй, мне лучше всего вспоминается история компании Theranos (на Хабре), обещавшую практически медицинскую революцию и собравшую внушительный совет директоров (в совет директоров компании вошли такие известные личности, как экс-госсекретари США Генри Киссинджер и Джордж Шульц). Всем казалось, что такие люди не могут ошибаться – но на самом деле они тоже опирались на словесные заверения, в то время как технология, по факту, не работала. Не думайте, что вы можете доверять чему-то, даже если туда вложили 700 миллионов долларов.

    К сожалению, смысл в том, что сейчас мы уже не можем доверять чьему-то мнению. Репутация стоит очень мало и с удовольствием меняется на деньги. По сути, единственным неплохим пространством доверия остаются наши семья и близкие – и к счастью, идеи сетевого маркетинга (Орифлейм и пр.), эксплуатирующие личное доверие, более-менее исчезли из нашей жизни.

    Но возвратимся к статье… Я для себя сделал два вывода:

    • Я не проверил факты. И я себе неожиданно честно признался – видимо, я читаю подобные статьи/новости не ради фактов. А ради развлечения. Мне на самом деле неинтересно, правда это или нет, я не полезу это проверять. А значит, надо честно себе признаться – всё это не стоит принимать всерьёз. Оно может оказаться фейком. (Справедливости ради, я так делаю не всегда. Когда была зарелизена GPT-2, я полез, поэкспериментировал с ней, и написал о результатах)
    • Увы, я не могу доверять автору оригинальной статьи. Никто мне не даст гарантии, что через год он не напишет что-то в духе «Эта статья была написана мной, а не ИИ; но мировая ситуация была такова, что нам очень нужны были средства на дальнейшие исследования…». Нет, вообще говоря, никаких доказательств генерации этой статьи с помощью ИИ – кроме, разумеется, репутации автора.

    Гладкость текста и диалог


    Я собираю свою коллекцию сгенерированных текстов и их генераторов. Но мне не очень интересно обсуждать, как сгенерированные тексты и фейки повлияют на социум – хотя эта тема, возможно, хорошо оплачиваема. Для меня каждый пример сгенерированного текста – вопросы: «какую часть человеческого мышления мы смогли формализовать?» И «что осталось неучтенным и по-прежнему является прерогативой человека?»

    GPT-3 и современные нейронные сети, поскольку тренируются на текстах, а не на входящих в эти тексты смыслах, являются далекими потомками порождения текстов за счет N-грамм или сетей Маркова, которые, предположительно используются в Яндекс.Рефератах. Если посмотреть на исходные принципы и примеры сгенерированных текстов, можно вчвести несколько важных правил:

    • Локальная гладкость текста. Текст от подобного рода генераторов опирается на другие фрагменты текста, которые всегда локально имеют смысл. Если в ранних примерах (Яндекс.Рефераты) связны 4-7 слов в предложении, то GPT-3, конечно, демонстрирует совершенно иной масштаб гладкости изложения, на уровне абзацев и их наборов. Тем не менее, важно одно – гладкий, приятный для чтения текст вовсе не гарантирует то, что он написан человеком.
    • Общеизвестные факты. Поскольку подобные сети тренируются на большом массиве текстов, они, как и множество журналистов, обожают расширять текст общеизвестными фактами или выражениями. Что-то вроде, «Солнце, как ближайшая к Земле звезда» или «компания Apple, которая основана в Калифорнии Стивом Джобсом, Рональдом Уэйном и Стивом Возняком». Обычно подобное перечисление фактов создает у читателя ощущение, что автор разбирается в описываемой теме. Не покупайтесь на это!
    • Общие фразы. Фразы в духе «мнения разделились, некоторые участники поддержали данное предложение, некоторые высказались против» или «данное предложение было тепло принято, хотя некоторые сомнения остались» по сути могут быть применены почти к любой ситуации.

    Кроме того, отдельно бы хотелось сказать про диалог с ИИ. В частности, любой преподаватель знает, что по предоставленному студентом реферату ничего сказать о его знаниях нельзя. А вот если пообщаться с ним минут 5-10, то легко понять, «шарит» он, или нет.

    В моей статье про чат-ботов я упоминаю, что основной проблемой для ИИ сейчас является учет контекста диалога и понимание собеседника. Несложно себе представить ИИ, который неплохо реагирует на конкретную фразу – но он похож на человека, услышавшего обо всем понемногу, но не понимающего сути. Среди студентов тоже такие бывают – реагирующие на ключевые фразы. Если не затрагивать сложные темы, не оценивать личные знания и понимание, может сложиться ощущение, что собеседник является интеллектуалом и знает, о чём говорит, хотя на самом деле он лишь повторяет услышанные где-то истины.

    Человек, очевидно, определяется не тем, что он говорит. Человек определяется тем, что он может действовать, опираясь на свои убеждения. Он может проанализировать свой опыт или же воспринять опыт другого человека.

    Он НЕ занимается исключительно разговорами, не неся никакой ответственности за свои слова.
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 36

      +6
      Делаем ставки — будет ли апдейт с признанием в том, что и этот пост сгенерирован сетью.
        +5
        Я. Не. Признаюсь :)
        +4
        Конец вызывает прямо-таки сильные эмоции


        Там текст настолько коряво написан, что воспринимается как гуглоперевод, причем как перевод не отредактированный, а прямо так и скопированный со страницы.

        Принять это за текст, непосредственно написанный человеком — просто невозможно
        (мне периодически приходится читать тексты, написанные людьми, которые не понимают смысла и сути того, о чем пишут — но и там есть большая разница с текстом упомянутой статьи)
          0
          Я списал это на переводческие издержки — к сожалению, я повидал много не очень качественных переводов, и тут не удивился.
            –1
            «В моих ранних экспериментах с GPT-3 я обнаружил, что предсказанные предложения GPT-3, опубликованные на форуме bitcointalk.org, привлекли много положительного внимания со стороны форумчан, включая предположения о том, что автор должен быть умным (и/или саркастичным) и что в его сообщениях есть тонкие паттерны.

            — здесь видно отсутствие логической связи между описываемым действием и описываемой реакцией на него.

            »Полагаю, аналогичные результаты можно получить, опубликовав выдачу GPT-3 на других форумах, в блогах и социальных сетях"

            — здесь нет смысловой связи с предыдущим предложением, хотя сама фраза стандартная.

            У людей подобные вещи тоже встречаются, но их наличие однозначный признак того, что автор списал одно предложение из одного источника — а второе из другого :)
              +2
              здесь видно отсутствие логической связи между описываемым действием и описываемой реакцией на него.

              Вроде как есть связь: автор опубликовал тексты, сгенерированные GPT-3, на форуме и форумчане положительно оценили их.


              В оригинале: "In my early experiments with GPT-3 I found that GPT-3’s predicted sentences, when published on the bitcointalk.org forum, attracted lots of positive attention from posters there, including suggestions that the system must have been intelligent (and/or sarcastic) and that it had found subtle patterns in their posts."


              Я бы перевёл как: "В моих ранних экспериментах с GPT-3 я обнаружил, что сгенерированные GPT-3 высказывания [1], опубликованные на форуме bitcointalk.com, получили множество положительных отзывов от форумчан, в том числе высказывались идеи, что эта система умна (и/или саркастична), и что она отыскала [2] малозаметные особенности в постах форумчан.


              [1] "predicted sentences" я перевёл как "сгенерированные высказывания", так как если бы это был текст, написанный человеком, то он имел бы в виду тексты, выдаваемые GPT-3. Обычно говорят "generated sentences", но GPT-3 тренировали на задаче "предсказать следующее слово" ("next word prediction") и эта её способность к предсказанию следующего слова позволяет использовать её для генерации текстов. То есть слова "predicted sentences" выглядят немного необычно, но в контексте понятны: высказывания, которые были сформированы с помощью предсказания какие слова могут идти дальше.


              Для такой генерации обычно используют "затравку" — кусок текста, который нужно продолжить. Опять же из контекста можно предположить, что для затравки использовались посты форумчан с bincointalk.com, так как [2] указывает, что сгенерированные тексты упоминали посты форумчан.


              В общем, когда я читал это на английском, то больше сердился, что автор льёт столько воды и приводит всякие несущественные детали ("The forum also has many people I don’t like." — он их потроллить что ли решил?), вместо того, чтобы приводить примеры сгенерированных текстов и реакции на них. Поэтому читал по диагонали, ища интересные куски, и быстро дошёл до разоблачения, которому не сразу поверил.

                0
                Я бы перевёл как: «В моих ранних экспериментах с GPT-3 я обнаружил, что сгенерированные GPT-3 высказывания [1], опубликованные на форуме bitcointalk.com, получили множество положительных отзывов от форумчан, в том числе высказывались идеи, что эта система умна (и/или саркастична), и что она отыскала [2] малозаметные особенности в постах форумчан.


                Это уже постобработка человеком: подсознательная попытка найти некий смысл в тексте.
                Классический пример такой обработки — трактовка туманных предсказаний в попытке связать их с реальными событиями (Нострадамус и проч)

                Я же анализировал текст, приведенный в статье по ссылке.

                »что автор льёт столько воды и приводит всякие несущественные детали"

                Термин «бредогенератор», насколько я помню — известен чуть ли не с фидошных времен.
                (Людям это тоже свойственно — некоторым копирайтерам удается удачно имитировать подобные тексты :)
                  0
                  Это уже постобработка человеком: подсознательная попытка найти некий смысл в тексте.

                  Вопрос в том, что такое смысл. Человек, описывающий свои фантазии на тему экспериментов с GPT-3, переводит в текст какие-то свои внутренние представления об этих экспериментах. Никто не может гарантировать, что в полутора миллиардах параметров GPT-3 не существует ничего, способного создать внутреннее представление соответствующее понятию "эксперименты с GPT-3".

                    0
                    Никто не может гарантировать, что в полутора миллиардах параметров GPT-3 не существует ничего, способного создать внутреннее представление соответствующее понятию


                    Это опять же постобработка информации человеком — если разуму что-то непонятно, допускается возможность того, что в этом непонятном есть нечто важное.
                    (ничего необычного, простой эволюционный отбор :)
                      0

                      То есть вы утверждаете, что в системе, которая обучается предсказывать продолжение текстов формируемых людьми на основе каких-то понятий, невозможно возникновение структур, аналогичных этим человеческим понятиям. А по какой причине это невозможно?

                        0
                        То есть вы утверждаете


                        Я обращаю ваше внимание на некоторые особенности человеческой психики.

                        в системе, которая обучается предсказывать продолжение текстов формируемых людьми на основе каких-то понятий


                        Опять же — чистая психология: применение терминов связанных с деятельностью человеческой психики к сугубо техническим процессам:
                        «обучение»=«внесение изменений в программу», «предсказание»=«получение результата, с определенной долей вероятности соответствующей ожидаемому результату»

                        Хотя на самом деле эти понятия не тождественны.

                        А по какой причине это невозможно?


                        Невозможность не доказана, но вероятна.

                          +1

                          GPT-3, кстати, неплохо генерирует тексты на тему "почему deep learning никогда не сможет делать X": https://www.gwern.net/GPT-3#why-deep-learning-will-never-truly-x


                          "… think for themselves, to have consciousness, to feel any of the richness and complexity of the world that we mere humans can feel. Mere, unenlightened humans might be impressed by the abilities of simple deep learning programs, but when looked at in a more holistic manner, it all adds up to… well, nothing. They still don’t exhibit any trace of consciousness. All of the available data support the notion that humans feel and experience the world differently than computers do. While a computer can beat a human master at chess or Go or some other game of structured rules, it will never be able to truly think outside of those rules, it will never be able to come up with its own new strategies on the fly, it will never be able to feel, to react, the way a human can. [...]"

            +4

            Думаю, здесь дело не в корявости текста, которая действительно бросается в глаза. При беглом прочтении возникает ощущение, что тест хоть и плохой, но в нем есть какая-то идея, вокруг которой строится логическая структура текста. Если взять текст из упомянутых яндекс.рефератов сразу видно, что это бессмысленный набор слов.

          • НЛО прилетело и опубликовало эту надпись здесь
              +1

              Все знают. Вы же не считаете, что это какой-то секрет? Однако живые, существующие люди в то общество не впишутся, поэтому и рассматривать нет смысла.


              Люди ищут решения именно для существующих людей, со всеми их достоинствами и недостатками.

              +1

              Вот это всё-таки из другой оперы:


              Представьте, что вам звонит представитель сотового оператора. Или банка. С новым, уникальным, выгодным для вас предложением. Вы поверите, что оно для вас выгодно?

              Если кто-то вам звонит (тратит на это свое время), то предложение выгодно звонящему. Если предложение выгодно вашему банку или мобильному оператору, практически наверняка оно невыгодно вам.

                +3
                Если кто-то вам звонит (тратит на это свое время), то предложение выгодно звонящему. Если предложение выгодно вашему банку или мобильному оператору, практически наверняка оно невыгодно вам.

                Это если вы достигли Парето-оптимума.
                  0
                  Во первых есть игра с ненулевой суммой. То есть win-win.

                  Во вторых может быть разница намерений, условно говоря интернет провайдер дарит роутер в расчете что вы останетесь с ним надолго, банк дает кредит в расчете что вы его вернете с процентами, продавец пылесосов приедет и покажет шоу в расчете на продажу. И вцелом по их целевой группе, если их расчеты верны, это так и есть. Но в вашем конкретном случае, они могут ошибаться, что обеспечивает выигрыш вам.
                  +1
                  Ещё по теме:
                  • Много-много экспериментов с GPT-3 приводит Гверн: адаптация паст, своеобразные рассказы на заказ, стихи. Всё я не читал, потому что это невозможно, но из прочитанного больше всего впечатлил «забавный рассказ» про кота, который гуглил себя, а потом оказался шогготом (sic).
                  • В Твиттере приводят весьма пугающий разговор (точнее, фрагмент) о планах GPT-3 на мировое господство.
                  • В Телеграме Denis Sexy IT описаны прелести эротических и прочих сценариев в безграничном мире AI Dungeon (в её потрохах как раз оперативно подменили GPT-2 на GPT-3).
                    +1
                    Забавно, буквально сегодня тестил AI Dungeon. Очень впечатлился, надо сказать.
                    Играл магом, кастил файрболлы на несчастных гоблинов :)

                    Однако заметил, что контекст удерживается скорее именно в мышлении игрока. Например, у меня была такая ситуация (цитирую по памяти):

                    Игра: вокруг вас гоблины.
                    Я: Кастую файрболл!
                    Игра: 5 убиты, еще 10 осталось.
                    Я: скрываюсь в тенях, готовлю заклинание
                    Игра: Гоблины вышли. Вы, скрываясь в тенях, скастовали заклинание и убили 5 гоблинов. Еще 10 осталось, и они вас окружают...

                    Вновь и вновь я убивал 5, и оставалось 10… :)

                    В общем, как правильно описывает Денис в телеграм-канале — возможности безграничны именно потому, что генерация текста опирается на воображение игрока, а не на просчитываемую игрой реальность. Очень впечатляющее God-like ощущение.
                      +1
                      Да, Гверн хорош в своем желании идти до конца с его миллионом ссылок и кучей исследований. Но пока даже GPT-3 не впечатляет: случайные попадания и курьезные совпадения. Такое ощущение, что ИИ сегодня идеально подходит для нейминга музыкальных групп, спортивных клубов и бредовых Q&A сессий. Жаль, китайским не владею, чтобы оценить китайских ботов от Microsoft. А самые прозрачные кейсы нашла только на aiweirdness, там девушка постоянно тестирует новые нейросетки. Не реклама, просто я оттуда некоторые ai цитаты тащу себе в блокнот.
                        0
                        Спасибо за aiweirdness. Нашел там отличную цитату, описывающую современное состояние нейросеток:
                        To this AI, SOUNDING correct is more important than actually BEING correct.

                        Проблема в том, что индустрия развлечений, где можно «казаться корректным» гораздо больше индустрии, где надо обязательно «быть корректным» (и следовать фактам). Рынок бесконечных постов и перепостов в соцсетях гигантский. Или еще вариант — рекомендации товара. Никто не умрёт, если предложенные Recomendations вам не подойдут; а вот если подойдут, магазин сильно выиграет.
                          0
                          О, а у вас есть текст про AI HR системы? Где-то видела мнение, про то, как боты фильтруют резюме, очень интересно.
                            0
                            Нет, такого нет. Но у меня есть две научно-популярные статьи по основам обработки естественного языка с помощью ИИ: часть 1 и часть 3. Я их очень рекомендую, чтобы ознакомиться с базовыми принципами — что можно, что нельзя.

                            Могу предположить, что обработка резюме строится на основе поиска ключевых слов и рейтинговой системы. Условно говоря, нашли PHP в вакансии на PHP — плюс 1 балл и так далее. Вряд ли что-то сложное.

                            Также не думаю, что там при принятии решения используются нейросети (хотя, конечно, исключать нельзя). У современных нейросетей хороший фан, но плохая устойчивость, нельзя предсказать, что у них будет на практике. На эту тему на Хабре есть классная статья Дмитрия Ватолина «Deep Fake Science, кризис воспроизводимости и откуда берутся пустые репозитории»
                              +1
                              Спасибо, сохранила.
                      +1
                      Непонимание собеседника, общение общими фразами и другие ошибки коммуникации свойственны, как мне кажется, не только ИИ, но и некоторым людям. Будет забавно, когда реальных людей никто не будет воспринимать всерьёз, потому что они будут вести себя «глупее», чем ИИ.
                        0
                        Естественно.
                        Мне вот, например, это всё ИИ интересно как минимум потому, что оно показывает, какие вещи уже можно считать достаточно примитивными, а какими — всё ещё достойными человека.

                        Общие фразы и перечисление фактов раньше было свойственно скорее не самым хорошим журналистам (хотя, надо признать, это выглядит приятно, в отличие от текста с чистым смыслом). Теперь для этого вполне подойдет ИИ… очень надеюсь, что люди наконец начнут оценивать текст по смыслу, а не по приятности.

                        Насчет неумения слушать — это вообще бич. Я стараюсь с такими людьми особо не общаться, поскольку «не слушать» меня может и чат-бот :)
                        0
                        Когда-то давно в романе «Основание» Азимова я вычитал кусок про очистку текста от воды.

                        Отрывок с lib.ru
                        Потребовалось лишь то, чем многие
                        часто пренебрегают, — здравый смысл. Видите ли, существует такая область
                        человеческих знаний, как «символическая логика». И она хорошо применима
                        для очистки человеческой речи от всяческой засоряющей ее ерунды, не
                        имеющей никакого значения.
                        — Ну и что?
                        — Я применил эту систему. Кроме всего прочего, я использовал ее для
                        анализа этого документа. Лично для меня в этом не было необходимости,
                        поскольку я и так сразу прекрасно понял, каково его истинное содержание.
                        Но мне показалось, что объяснить его суть пяти ученым-физикам при помощи
                        символов будет куда проще, чем при помощи слов.
                        Хардин извлек из папки несколько листов бумаги и разложил их на
                        столе.
                        — Кстати, анализ проводил не я, а Мюллер Хоулк из Отдела логики.
                        Здесь стоит его подпись — можете убедиться.
                        Пиренн перегнулся через стол, чтобы лучше разглядеть подпись. Хардин
                        продолжал:
                        — Расшифровка послания короля Анакреона была несложной; это и
                        неудивительно, так как люди, писавшие его, больше привыкли действовать,
                        чем изощряться в дипломатии. Все достаточно прямо и определенно сводится к
                        заявлению, суть которого, представленная в символах, сейчас перед вами.
                        Словами его можно выразить следующим образом: «Вы должны отдать нам то,
                        что мы требуем, а если не отдадите добровольно, то вам же хуже — отберем
                        силой, так или иначе».
                        Пока пятеро членов Совета изучали ряды символов, в зале царило
                        молчание. Потом Пиренн откинулся на спинку кресла и нервно закашлялся.
                        Хардин осведомился:
                        — Ну что, вы не видите лазейки, доктор Пиренн?
                        — Похоже, что ее действительно нет.
                        — Хорошо, — Сэлвор достал из папки следующую пачку листов. — А теперь
                        перед вами копия договора между Империей и Анакреоном. Договор этот,
                        кстати, подписал от имени Императора тот самый лорд Дорвин, который отбыл
                        отсюда неделю назад. К этому документу также приложен анализ в символах.
                        Договор был отпечатан мелким шрифтом на пяти листах, в то время как
                        нацарапанный от руки анализ занимал не более половинки страницы.
                        — Как видите, господа, более девяноста процентов текста при анализе
                        просто улетучилось, так как не имеет никакого смысла, а суть того, что
                        осталось, можно выразить следующим образом:
                        «Анакреон не имеет пред Империей никаких обязательств».
                        «Империя не имеет над Анакреоном никакой власти».
                        Все пятеро снова с немалым интересом занялись изучением результатов
                        анализа, то и дело сверяя их с договором. Когда они закончили, Пиренн с
                        беспокойством в голосе произнес:
                        — Кажется, все верно.
                        — Тогда вам ясно, что этот договор — не что иное, как декларация
                        полной независимости Анакреона и признание этого Империей?
                        — Похоже, вы правы.
                        — И Анакреон прекрасно понимает это, и будет стремиться подчеркнуть
                        свою независимость таким образом, чтобы навсегда исключить любую
                        возможность давления и угроз со стороны Империи. Особенно теперь, когда
                        всем уже ясно, что Империя не в состоянии осуществить свои угрозы — иначе
                        она никогда бы не допустила отделения Анакреона.
                        — Но в таком случае, — вмешался Сатт, — как объяснит мэр Хардин
                        заверения лорда Дорвина в поддержке Императора? Мне они кажутся… — он
                        пожал плечами, — вполне надежными.
                        Хардин откинулся на спинку кресла.
                        — Это и есть самое интересное. Честно говоря, поначалу я принял его
                        превосходительство за совершенно безнадежного осла, но оказалось, что это
                        умнейший человек и прекрасный дипломат. Я позволил себе записать все
                        разговоры с ним.
                        Послышался возмущенный гул, и Пиренн уже открыл рот, чтобы высказать
                        общее мнение.
                        — Ну и что? — упредил его Хардин. — Я знаю, что это серьезное
                        нарушение законов гостеприимства и джентльменского кодекса чести. И если
                        бы его превосходительство заметил это, я оказался бы в пренеприятном
                        положении, но этого не произошло, и теперь у нас есть запись — а это
                        главное. Запись эту мне размножили, и я передал Хоулку копию для анализа.
                        — И где же текст анализа? — осведомился Ландин Краст.
                        — Вот это и есть самое главное. Когда после двух суток напряженной
                        работы Хоулку наконец удалось избавиться от всех бессмысленных
                        банальностей, многозначительной чепухи и ничего не значащих высказываний,
                        то обнаружилось, что в тексте не осталось НИЧЕГО! Он самоликвидировался.


                        Сейчас я его вспомнил, т.к. автор как раз про это и говорит: локальная гладкость текста, общеизвестные факты и общие фразы не гарантируют того, что текст:
                        • Создан человеком
                        • Несёт в себе новую уникальную информацию
                        • Подкреплён способностью фактчекинга изложенных утверждений


                        В связи с чем вопрос: существует ли какой-либо инструментарий для очистки текста от популярных фактов (земля круглая/земля шарообразная, но не земля геоид), непроверяемых утверждений, оборотов, общих фраз и иных способов сделать текст красивее и приятнее, чтобы можно было после обработки пройтись по оставшемся фактам и смыслам для вынесения окончательного вердикта: стоит ли текст вообще прочтения или это N литров воды?
                          0
                          Мне настолько приятен ваш коммент, что я, пожалуй, постараюсь ответить поподробнее.

                          Инструментария, разумеется, такого нет, но вот с чем это связано…

                          Ключевым является понятие факта, который можно проверить (который является значимым). Вопросом: что является подобного рода фактом?

                          Существует два подхода для такого определения:
                          1. На основе некой общей системы понятий (онтологии). Например, для распознавателя Сири или Алисы фактом будет являться то, что укладывается в понятие команды и её параметра (см. статью про чат-ботов). Остальное будет игнорироваться. Вопрос в том — можем ли мы создать такую универсальную систему понятий, которая бы отсеивала только факты и понятия, например, физического мира? Насколько я разбираю историю ИИ в другой статье, ответ скорее «нет».

                          2. Факт не существует в безвоздушном пространстве, а возникает в момент взаимодействия двух субъектов, в том числе воспринимающего (читателя). Условно говоря, возьмем текст из статьи про GPT-3 «На форуме также много людей, которые мне не нравятся.». Для большей части читателей этот фрагмент не несёт никакого смысла; однако, если бы текст читал друг автора, эта эмоциональная реакция была бы для него значима. Другой пример — вряд ли 14-летние дети при изучении «Войны и мира» интересуются всеми приведенными там фактами. Это не означает, что в тексте их нет — это означает, что восприятие текста и значимость его элементов зависит от воспринимающего. (Я развиваю этот подход в попытке анализа метафорических систем человека)

                          Кроме всего прочего, хотелось бы вновь вспомнить про аспект доверия и оценки фактов. Например, фраза «этот вывод довольно приятен», вообще говоря, может быть фактом. Мы с большим уважением отнесёмся к нему, если это будет близкий нам человек — мы знаем, что у эмоций есть значимость. Однако, по отношению к стороннему человеку, журналисту или ещё кому-то, кто может с лёгкостью поменять своё мнение или сказать «Я просто пошутил», это не будет являться фактом, это будет сиюминутная прихоть.

                          — Это длинный ответ. Но на самом деле можно дать ответ попроще, например, используя признак фальсифицируемости по Попперу. Фальсифицируемость означает, что вы можете придумать эксперимент, в котором утверждение будет ложным. К фразе «то так, то эдак», понятное дело, такого особо не придумаешь. Общеизвестные факты уже являются фактами и не несут новой информации.

                          Другой хороший инструмент — оценка прогностической силы высказывания. Дает ли высказанное возможность сделать прогноз? (и его опровергнуть?) Скажем, содержимое сгенерированной статьи было интересно именно экспериментами на bitcointalk — именно это восприятие форумчанами генерации GPT-3 являлось новым содержанием, проверяемым экспериментально.

                            +1
                            Иными словами, критериями т.н. «объективного факта» может являться: а) явная принадлежность утверждения к множеству объективных фактов (онтологический подход); б) восприятие утверждения как объективного факта воспринимающим (культурологический подход); в) что-то иное, доселе неизвестное

                            Мы берём за основу вариант б и из этого следует что проверить факты на соответствие своим критериям объективности факта может только сам воспринимающий, следовательно подобный инструментарий каждый человек должен под себя писать сам (но должен ли, не создаст ли он себе махровый одиночный сейфспейс?).

                            А вот дальше уже начинаются нюансы что в такой фильтр закладывать. Доверие? Ок, возможно, но и признанные воспринимающим эксперты и сам воспринимающий могут ошибаться. Способность распознать за словами/текстом данного человека метасмыслы (в каком настроении оно было написано и какую на это следует сделать поправку, например)? Не лучше ли тогда сами метасмыслы включить в фильтр и просто «не заполнять» значения там, где они не восприняты. Ожидания от текста? Тоже возможно, но они влияют на восприятие текста, а не на сам текст, тут вопрос к изначальной цели фильтрации. Фальсифицируемость? Я бы вообще выкинул её на свалку истории науки как критерий демаркации, но да ладно, в ряде областей можно и использовать. Прогностическая сила? Насколько я знаю, вот уж её на данный момент способен оценить только естественный интеллект (пример в научных статьях, созданных ИИ).

                            Я просто не знал на каком уровне сейчас работа с текстом и наивно полагал что эти проблемы хоть как-то решены. Но нет так нет, будем ещё ждать и работать своим мозгом для анализа текста, не впервой :)

                            В любом случае, спасибо за ответ!
                              0
                              О, а я тут в свободное время играю с виртуальным редактором эссе. Автор утверждает, что разработал универсальную систему оценки текстов для школы и колледжа. Такое вообще возможно? Мне этот редактор кажется весьма слабым. Хотя может он только для англоязычных текстов, эссе на французском и других европейских языках обычно намного сложнее по целевым структурам.
                              +2
                              Хоулку наконец удалось избавиться от всех бессмысленных
                              банальностей, многозначительной чепухи и ничего не значащих высказываний,
                              то обнаружилось, что в тексте не осталось НИЧЕГО! Он самоликвидировался.


                              Ну, это же просто анекдот, использованный Азимовым для привлечения интереса к его собственному тексту :)

                              Гораздо нагляднее выглядит подобный анализ текста хорошо составленного юридического документа, например текста Заявления о конфиденциальности корпорации Майкрософт или Политики конфиденциальности и Условия использования Google.

                              Как правило, после выжимки всей воды из подобных текстов — мы получаем крайне содержательное по смыслу сообщение с очень важной для прочтения информацией.
                              (кстати, это есть и у Азимова, но неявно — полученная Хардином информация из обоих документов оказалась крайне ценной, несмотря на форму, в которой она была передана)
                                0
                                Есть инструменты, помогающие почистить текст во время его написания, но они скорее рекомендательные. А вот для конечного пользователя текста, к сожалению, ничего нет.
                                +1
                                Пробовал читать эту статью, показалось что читаю бессвязный набор слов. Списал это на то, что я далёк от данной области («не дорос») и бросил. А теперь оказывается что это действительно бессвязный набор слов. При этом многие люди восприняли его как связный… Испытываю противоречивые чувства. Я всё-таки не дорос или или перерос?
                                  0
                                  >> Я всё-таки не дорос или или перерос?
                                  Не переживайте так, иначе будет невроз
                                  0

                                  Эта статья получилась намного более интересной и осмыссленной, чем референс.

                                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                  Самое читаемое