• Разговорный AI: как работают чат-боты и кто их делает

      image

      Чатботы и искусственный интеллект для понимания естественного языка (NLU – Natural Language Understanding) тема достаточно горячая, про нее не раз говорилось на Хабре. Тем не менее достаточно редко попадаются верхнеуровневые и структурированные обзоры этих технологий и рынка в целом. В своей статье мы попробуем немного разобраться, чем обусловлен спрос на эти технологии, как выглядит современная диалоговая платформа для NLU, какие компании и разработки присутствуют на этом рынке.

      Читать дальше →
    • Информационные системы с понятийными моделями. Часть вторая

        В первой части статьи мы начали разговор о новом классе высокоуровневых моделей предметной области, названных понятийными. В отличие от других аналогичных моделей в понятийных моделях связи между понятиями сами являются понятиями, а модель строится на основе выявления и описания абстракций, послуживших образованию (определению) понятий предметной области. Это позволяет конечным пользователям строить и актуализировать модели предметной области путем простых и естественных операций создания, изменения и удаления понятий и их сущностей.

        Здесь, во второй части, поговорим о том, как может быть реализована полнофункциональная информационная система, основанная на понятийном моделировании предметных областей. Теперь уже в деталях рассмотрим информационную систему LANCAD, которую в нашей компании “ИНСИСТЕМС” используют для организации проектной деятельности по разработке проектно-сметной документации для строительства.

        Следует заметить, что появление информационной системы LANCAD явилось результатом реализации нескольких крупных проектов компании.

        Читать дальше →
      • Исправление опечаток, взгляд сбоку

          Мы поговорим об использовании модных «Word embedding» не совсем по назначению — а именно для исправления опечаток (строго говоря, и ошибок тоже, но мы предполагаем, что люди грамотные и опечатываются). На хабре была довольно близкая статья, но здесь будет немного о другом.


          Визуализация Word2Vec модели, полученная студентом. Обучалась на «Властелине колец». Явно что-то на черном наречии.
          Читать дальше →
          • +13
          • 2,9k
          • 2
        • Информационные системы с понятийными моделями. Часть первая

            Внедряя современные информационные системы, крупные компании рассчитывают быстрее принимать решения, обнаруживать скрытые для бизнеса резервы и возможности, анализировать накопленный опыт и выстраивать прогнозы на основе выявленных закономерностей. Однако реальная отдача от информационных систем часто оказывается значительно ниже, а сроки внедрения и затраты – выше ожидаемых. Причин может быть великое множество, в том числе и связанных с неэффективным управлением, человеческим фактором, устарелой инфраструктурой.

            Существенные недостатки есть и у самих информационных систем. В этой статье я предлагаю поговорить не о традиционных – трёхслойных – АИС, а о системах с четырехслойной архитектурой, где новый четвертый слой – слой представления – реализует понятийную модель предметной области. Для актуализации модели при изменениях в предметной области не требуется программировать. Более того, как актуализация модели, так и прикладные задачи решаются посредством семантически инвариантных для всех предметных областей операций над сущностями понятий.

            В итоге удается улучшить вычислительные, технологические и эксплуатационные характеристики информационных систем с понятийными моделями предметной области. Но об этом далее.

            Читать дальше →
          • Трудности перевода: как найти плагиат с английского языка в русских научных статьях

            • Tutorial
            В нашей первой статье в корпоративном блоге компании Антиплагиат на Хабре я решил рассказать о том, как работает алгоритм поиска переводных заимствований. Несколько лет назад возникла идея сделать инструмент для обнаружения в русскоязычных текстах переведенного и заимствованного текста из оригинала на английском языке. При этом важно, чтобы этот инструмент мог работать с базой источников в миллиарды текстов и выдерживать обычную пиковую нагрузку Антиплагиата (200-300 текстов в минуту).

            "

            В течение 12 лет своей работы сервис Антиплагиат обнаруживал заимствования в рамках одного языка. То есть, если пользователь загружал на проверку текст на русском, то мы искали в русскоязычных источниках, если на английском, то в англоязычных и т. д. В этой статье я расскажу об алгоритме, разработанном нами для обнаружения переводного плагиата, и о том, какие случаи переводного плагиата удалось найти, опробовав это решение на базе русскоязычных научных статей.
            Читать дальше →
          • Применение сверточных нейронных сетей для задач NLP

              Когда мы слышим о сверточных нейронных сетях (CNN), мы обычно думаем о компьютерном зрении. CNN лежали в основе прорывов в классификации изображений — знаменитый AlexNet, победитель соревнования ImageNet в 2012 году, с которого начался бум интереса к этой теме. С тех пор сверточные сети достигли большого успеха в распознавании изображений, в силу того факта, что они устроены наподобие зрительной коры головного мозга — то есть умеют концентрироваться на небольшой области и выделять в ней важные особенности. Но, как оказалось, CNN хороши не только для этого, но и для задач обработки естественного языка (Natural Language Processing, NLP). Более того, в недавно вышедшей статье [1] от коллектива авторов из Intel и Carnegie-Mellon University, утверждается, что они подходят для этого даже лучше RNN, которые безраздельно властвовали областью на протяжении последних лет.

              Сверточные нейронные сети


              Для начала немного теории. Что такое свертка? Мы не будем на этом останавливаться подробно, так как про это написана уже тонна материалов, но все-таки кратко пробежаться стоит. Есть красивая визуализация от Стэнфорда, которая позволяет ухватить суть:

              image
              Источник
              Читать дальше →
            • Ой, у вас баннер убежал!

              Ну. И что?
              Реклама
            • Нейронные сети, генетические алгоритмы и прочее… Мифы и реальность. Знаки

                Эта работа является продолжением всего сказанного ранее в статье «Нейронные сети, генетические алгоритмы и прочее… Мифы и реальность. Версия II». В большинстве статей, посвященных анализу текстов, которые удалось изучить автору, под анализом текста понимается главным образом две совершенно практические задачи, связанные либо с извлечением какого-либо контекста, либо перевод текста с одного языка на другой. В первом случае речь, как правило, идет или об «очистке» анализируемого контента и сопоставлению какого-либо участка текста эталону в соответствии с заранее заданной таксономией1 каких-либо сущностей. Например, разбор адресов, товаров и т.д. Во втором случае, о поиске соответствия одного блока текста, написанного на одном языке блоку, написанному на другом.


                Объединяющим оба эти варианта является статистический, по сути, анализ участков контекстов, с учетом синонимов слов, устоявшихся выражений. При этом за рамками такого рода анализ выходит анализ троп2, риторических оборотов и много другого. Причина этого кроется в непонимании современной наукой даже на философском уровне некоторых базовых вопросов, связанных с логикой мышления и принятия решения, построения знаковых систем т.е. неразвитость семиотики и т.д.

                Читать дальше →
              • Как производится оценка состояния объекта?

                В школе мне понадобились колоссальные усилия, чтобы понять концепт Кантора о множестве мощности континуум. Но потом я понял, что ничего не понял, а лишь заучил правила работы с такого рода объектами. В области понимания как было белое пятно, так оно и осталось белым. С тех пор я неоднократно возвращался к этому вопросу, пока не познакомился со статистической физикой и сопроматом.

                В этих науках очень хорошо были определены понятия вещества и понятие состояния. Было сказано, что для определения вещества нужен объем минимального размера, меньше которого мы имеем уже не вещество, а набор молекул, а для оценки состояния требуется конечное время, чтобы зарегистрировать некоторое значение, связанное с состоянием. Если мы будем говорить о состоянии, используя временные интервалы менее минимального, то получим не оценку состояния, а что-то непонятное.

                Я понимал, что на этой основе можно построить иную математику с иными аксиомами. Этого я не сделал, но запомнил, что для оценки состояния нужно указать минимальное время, в течение которого есть смысл говорить о совершении измерения, как для определения вещества нужен минимальный объем. Тогда данное время будет считаться мгновением для оценки данного состояния. Это время может быть разным для разных свойств и методов оценки. Например, для того, чтобы понять, какого цвета автобус при помощи глаз, нужны миллисекунды, а для того, чтобы понять в каком состоянии сейчас находится климат Земли при помощи термометра, нужно несколько лет.
                Читать дальше →
                • –7
                • 1,6k
                • 9
              • Как мы моделируем предметную область в предикатах второго порядка и не замечаем этого

                  Любая модель обладает ограниченной точностью. Чем более точную модель надо построить, тем больше информации для этого придется хранить. Если есть возможность свернуть массив данных по какому-то из критериев, то такая свертка позволяет резко сократить объем хранимой информации. Однако, такая свертка не моделируется штатными способами моделирования, потому что требует моделирования высказываний одновременно и относительно множеств объектов, а не относительно объектов этих множеств. Фактически, нам нужен инструмент для моделирования как предикатов первого порядка, так и предикатов второго порядка.


                  Поясню на самом распространенном примере. Когда мы пишем, что станок был выпущен в 1939 году, а утилизирован в 1990, мы имеем ввиду, что станок существовал на протяжении всего указанного периода и в любой интервал времени между указанными датами. Альтернативой этому высказыванию было бы хранение информации о всех возможных интервалах, в течение которых станок был признан существующим. Но все возможные интервалы времени на протяжении этого срока даже с шагом дискретизации в сутки – это огромный массив данных.


                  Пользоваться этим массивом данных так же неудобно, как и его хранить. Строить запросы к этому массиву данных – тоже неудобно. Например, у нас есть запись о том, что станок существовал с12 июня по 17 июня и находился в этот период в машинном отделении ГЭС. Но на основе этой записи мы ничего не можем сказать о существовании и нахождении станка в период с 13 июня по 15 июня, потому что при таком подходе к моделированию для ответа на это вопрос нам нужна отдельная соответствующая запись.

                  Читать дальше →
                • Решение больших проблем небольшим семантическим анализатором

                    image


                    Сдача проекта в опытную эксплуатацию. Комиссия наблюдает, как система распознаёт информацию из сообщений, поступающих в в режиме реального времени. Приходит первое сообщение: “Тихо.


                    Комиссия. Что значит “Тихо”? Они там в филиале пьяные что ли?
                    Система. "Тихо" = Сила ветра в пределах нормы.
                    Комиссия. Так это они о погоде. Система сдана в опытную эксплуатацию!


                    Все события в статье вымышлены. Любые совпадения с реальностью случайны.


                    Мне довелось работать на проекте, в котором с помощью семантического анализа удалось решить одну из главных проблем управления крупным бизнесом — получение своевременной и актуальной информации о состоянии дел в филиалах компании.

                    Читать дальше →
                  Самое читаемое