Где нам взять такой инструмент, чтоб смысловую блоху подковать?

Навеяно публикацией «Грязное программирование с чистой душой» (http://habrahabr.ru/company/abbyy/blog/144859/)

Хорошую метафору со многими смыслами привёл Дмитрий из компании ABBYY в своём посте. Автор, не обиженный отсутствием таланта и писательского дара, затрагивает очень тонкую пограничную сферу межсубстанционно-ментального перехода из «компьютерного железа» вместе с сопутствующей программной инфраструктурой в область информационную, где происходит невидимое «квантовое преобразование» физических законов в математические стохастики.

Действительно, чтобы очистить нечто-то грязное, всегда требуется запачкать что-то чистое. И этот принцип из коллекции Мэрфи абсолютно справедлив для субстанционного мира, но он, оказывается, вовсе не распространяется на ментальную сферу.

Говоря о «грязном программировании», как о «грязных технологиях» по очистке и переработке «грязных материй», надо знать и помнить о том, что технологии сами по себе не бывают ни «чистыми», ни «грязными», как, например, химия не может быть «социалистической» или «капиталистической». Зато все технологии характеризуются как, «точные» или «грубые». При этом на точность или грубость влияет один из двух компонентов, из которых и слагается, собственно, любая технология, а именно – её инструмент. Понятно, что если в таком качестве выступает обычная лопата, то данное огородное средство нельзя использовать в качестве отвёртки для ремонта механизма наручных часов, хотя второй компонент технологии – методология – остаётся одной и той же в обоих случаях, то есть, надо просто вращать инструментом. Даже простые электротехнические монтёрские отвёртки будут слишком грубыми для прецезионных винтиков. Поэтому первый принцип технотроники заключается в том, что технологические средства должны быть сопоставимы с масштабами «грязи», иначе она не удалится.

Так вот, чтобы успешно перерабатывать «грязное» информационное сырьё в «чистый» информационный продукт, необходимо строгое выполнение вышеприведенного условия – технологический инструмент переработки должен быть тоньше, меньше, точнее..., то есть, прецензионнее, чем сами «элементы грязи», которыми засорено, запачкано, загажено информационное сырьё, подлежащее очистке. Только в этом случае можно отделить «котлеты от мух», то есть, отделить главное от второстепенного, полезное от не нужного и так далее.

И наоборот, если что-то никак не очищается и, ну никак, не поддаётся переработке до заданного уровня чистоты, то это означает ровно одно, инструмент явно не удовлетворяет условию прецензионности, то есть, является тупым и грубым средством.

Сегодня на кону стоит одна супер амбициозная задача для программистов, различные вариации которой вот уже более полувека не поддаются решению ни кибернетикам с лингвистами, ни мозговедам с филологами, а именно – распознавать с помощью компьютеров какие-либо информационные продукты деятельности человеческого сознания, воплощаемые в виде языковых эпистолярных или вербальных представлений (текст или речь), где требуется понимать семантическую и/или смысловую нагруженность каких-либо аудио-визуальных или просто графических образов, создаваемых людьми.
Одна из таких вариаций — это машинное понимание естественно-язычных текстов, как на уровне различения семантики отдельных языковых графем-символов, так и на уровне извлечения смысла контекста, чем, собственно, и занимаются в моём представлении славные трудящиеся в лице Дмитрия в такой авторитетной и весьма уважаемой мною фирме, как ABBYY.

И, казалось бы, уж где-где, а тут всё необходимое имеется в необходимом и достаточном количестве — есть и интеллектуальный потенциал сотрудников (необычайно высок), и должное финансирование (достойное), и требуемая методология (в самом широком ассортименте), и нужные инструменты (от Compreno до нейро-семантических сетей со всякими прибамбасами — всё имеется). А искомого результата нет!? Почему? Да потому, что, как раз, инструменты-то НЕ ПРЕЦЕЗИОННЫЕ! И в данной сфере просто профнепригодны. Не буду их сравнивать по остроте с сибирскими валенками, но используемые средства, которые могут быть хороши для решения «субстанционных» задач, совсем не соответствуют той роли, которая им отводится в информационной сфере.
Говоря конкретно, лингвистическими средствами НЕЛЬЗЯ оперировать в области процедурного мышления, то есть, нельзя «грубым лингвоскальпелем» орудовать в сверхтонкой смысловой зоне нейронов мозга. Инструмент для этого должен быть соответствующим, достаточно тонким, точным, острочувствительным. Как, например, в электротехнике, где есть принцип, согласно которому диапазон перестройки вариометра (потенциометра) не должен быть больше размера погрешности, то есть «шума» или «грязи» в рассматриваемом нами случае.

Лингвистика, как известно, может устанавливать, да и то не стопроцентно, какие-либо связи и отношения между словами в предложениях (речи или текста). Аналогично тому, как строительная научная дисциплина может устанавливать связи и отношения между строительными элементами (словами) в различных строительных конструкциях (контекстах). Специалисты обоих областей могут выдать эти связи и отношения (конрелейты) в виде неких формализованных представлений, например, «три тонны кирпичей твёрдостью 6 по Моосу в количестве 1000 штук связаны 100 килограммами цемента-портланд 500 и 200 килограммами кварцевого песка».

Вряд ли Вы догадаетесь, какую конструкцию представляет из себя такая запись. Точно также и компьютер понятия не имеет о том, что представляет собою такая запись: [подлежащее «патрон» связан со сказуемым «вошёл», образуя предикат, который имеет отношение с предлогом «в» в предложной группе «в магазин»]. А вот, если бы строители нам сказали словосочетание «кирпичная стена», то мы бы сразу же поняли, о чём, собственно, речь идёт, и не ломали себе голову, увязывая тонны с килограммами, да песок с цементом и кирпичами.

При этом ещё далеко не факт, что если языковеды скажут фразу: «Патрон вошёл в магазин», то мы точно поймём о каком именно [патроне] идёт речь (начальник, электротехническое изделие, часть токарного станка или стрелковый предмет). Впрочем и под [магазином] можно понять разные образы, хоть рожок от автомата, хоть торговое предприятие.

Эти примеры должны нам дать чёткое представление о том, что средствами компьютерной лингвистики никакая ЭВМ не сможет понять семантическую нагрузку контекста речи, и для этого требуется совсем иной инструмент. Какой же? А ровно тот, который используем мы с Вами в повседневной жизни.

Давайте посмотрим, как происходят мышление и коммуникации между людьми. Сначала в сознании какого-нибудь индивида роятся некие мыслеформы, которые он представляет себе в виде Моделей Поведения Образов (МПО). Потом он из этих МПО выстраивает ту или иную смысловую конструкцию и решает донести её до нас, используя естественно-языковые возможности, поскольку мы, к сожалению, или, к счастью, не обладаем телепатией. В своём сообщении автор мыслеформ представляет МПО в кодированном виде, используя языковые элементы (слова, лексемы и др.). Реципиент, воспринимая сообщения, включает уже свою ассоциативную память, из которой он достаёт хранящиеся там до поры до времени свои собственные МПО, с помощью которых он старается понять то, что хотел сказать автор.

Так работает наше сознание. А как работает компьютер? Какие технологии он использует и похожи ли они на человеческие? Нет, они не похожи на наши. Но, поскольку ЭВМ это счётная машина, то, вот, и пытаются разработчики упрямо ВЫЧИСЛИТЬ конечный результат, вместо того, чтобы постараться научить компьютер понимать смысл за счет простого запоминания этих самых МПО и дальнейшего оперирования ими.

Выходит, что «вычислительные» технологии выступают, как раз, в роли таких «грязных золушек», когда нам всем нужны именно прецезионные средства понимания и распознавания образов и смыслов.

Similar posts

AdBlock has stolen the banner, but banners are not teeth — they will be back

More
Ads

Comments 9

    +3
    Графоманство
      +3
      Господа программисты… Ох…

      чётатам межсубстанционно-ментального чётатамово


      Сделайте одолжение для моих уже не молодых глаз…

      Мы (мы это я так называю людей, которые упиваются мыслью о том, что компьютер может сделать что-то полезное для человека и каждый день заняты только тем, чтобы создавать программы повышенной крутости, разрабатывать новые системы и так далее)

      Мы, программисты, уже создали свою номенклатуру. Тобишь, у нас есть свой язык, котоым мы пользуемся. В нём есть много диалектов и всё такое. Есть СЕОшники. Они говорят на своём языке(, language, обучение, школа, учебник). Есть ребята, которых в древнее время называли хакерами. Такие ещё может быть использовали слова типа "Бамить код". Есть современные хакеры, которые могут без проблем засадить куда-нить трояна. Программисты же никак не могут для себя решить, что лучше — шарпы или ява.

      Когда во всё это вплетаются бесполезные психологические и психиатрические теории… Ну, блин.

      Имейте совесть. Я 6 лет потратил, чтобы изучить один язык, а теперь ещё мне в лицо плюют терминами, которых я не знаю.

      Причем, могу поспорить, это ничего не значит.

      Вы здесь пишете для программистов. Вот для них и пишите. А не хрень лейте.
        0
        Графоманство
          0
          Ну так, клин клином, как говорится.
          0
          Незнакомые термины пугают программиста? Видимо вы и правда уже настолько не молоды.
          Ссылки и разъяснения терминов да, не помешали бы. Но мысль высказана интересная; хоть и не новая.

          То что вы потратили 6 лет на изучение одного языка, не дает вам права затыкать рот кому-либо. Если ваш мозг не выдерживает, отпишитесь от хаба Brainfuck. :)
            +1
            Мне щас 26 лет.

            Я вообще ни с какой стороны не старый. Просто прикол в том, что для того, чтобы понять что такое RPC вызов вы должны прошушрать пару страниц в гугле да и всё.

            А вот обывателю эти слова окажутся началом поиска святого грааля. Представляете, сколько ему придётся прояснять всего, чтобы наконец в полной мере осознать, что такое RPC?

            Вот тут и мы в таком же положении. Кто-то плюнулся каким-то психологическим термином… Ну и всё. Пошло поехало, до самого Фрейда и всего такого.

            К сожалению, могу сказать, что психологи не обладают пониманием того, что такое точная наука. У нас, программистов всё просто — если скомпилировалось и дало верный результат на тэстах — работает.

            А у психолога? Он же наполовину философ к тому же.

            Отсюда и появляются такие детские вопросы, которые перед инженерами не встают. Например, «Издало ли звук падающее в глухом лесу дерево?» (Декарт, мать его так). Что зделает программист? Правильно. define: звук. Звук — колебания воздуха. Гут, дерево, падая, колебало воздух? Понятен пень. Звук был.

            У них, брат, дело такое — чем длиннее и запутанее трактат — тем лучше. Нет в психологии стандартных правил метрики кода и проверки качества. Нет у них понимания того, сколько граммов счастья и уверенности в человеке.

            От того и начинается разбрасывание терминов, которых они сами и не понимают.

            А мы потом сиди, и гадай, чего он хотел сказать?
          0
          Какие именно термины вызывают трудности? Будем раскрывать дефиниции.
            0
            межсубстанционно-ментального перехода

            Я же сказал. Выглядит как скачёк через гиперпространство в ЗВ.
              0
              Субстанция — это нечто вещественное из физического мира, всё то, что можно регистрировать нашими органами чувств или электротехническими регистраторами.
              Ментальность — это нечто сознательное из логостического (виртуального) мира, всё то, что может быть понято, но не зарегистрировано. Это нельзя пощупать, это можно осознавать.
              Мы ежедневно, ежечасно, ежеминутно осуществляем эти переходы — от дум, как говорится, к свершениям, и наоборот.

          Only users with full accounts can post comments. Log in, please.