• RuSSIR 2018: 12-я летняя школа по информационному поиску

      27–31 августа в Казани пройдет 12-я международная летняя школа по информационному поиску RuSSIR 2018.

      В этом году её организуют Казанский федеральный университет (КФУ) и Российский семинар по оценке методов информационного поиска (РОМИП) при поддержке ACM SIGIR и BCS IRSG.



      Программа включает два пленарных доклада и семь курсов, а также постер-сессию конференции молодых ученых «RuSSIR Young Scientist Conference».

      Пленарные доклады:

      1. Carlos Castillo (Universitat Pompeu Fabra), «Crisis Informatics» — о том, как использовать данные из социальных сетей для борьбы с чрезвычайными ситуациями;
      2. Carlos Castillo, «The Biases of Social Data» — о подводных камнях при анализе пользовательского контента.

      Курсы:

      1. Cathal Gurrin (Dublin City University), «The Information Retrieval Challenge of Lifelogs and Personal Life Archives» — об анализе персональных данных;
      2. Henning Müller (University of Geneva), «Evaluation of IR systems and multi-modal retrieval in the medical domain» — о поиске медицинских изображений;
      3. Valentin Malykh, Mikhail Burtsev (Moscow Institute of Physics and Technology), «Conversational AI through Deep Learning» — о том, как создать интеллектуального чат-бота с помощью глубокого обучения;
      4. Rishabh Mehrotra (Spotify Research), «Learning from User Interactions» — о том, как угадать потребность пользователя из его взаимодействия с онлайн-системой;
      5. Guido Zuccon (Queensland University of Technology), «Health Search» — о поиске по медицинским данным;
      6. Harrie Oosterhuis (University of Amsterdam), «Learning to Rank and Evaluation in the Online Setting» — о том, как обучить систему на основе данных о взаимодействии с пользователем;
      7. Prasenjit Mitra (Pennsylvania State University), «Retrieving Information Interactively Using Natural Language» — о том, как научить систему общаться на естественном языке.

      Участие в школе бесплатное. Регистрация открыта до 10 июля.
      Как попасть?
    • Слово лингвисту: что если компьютеры заговорят лучше нас


        Фото: Александр Корольков/РГ

        3 июня, в заключительный день Московского книжного фестиваля на Красной площади, лингвист Александр Пиперски выступал с рассказом о компьютерной лингвистике. Он говорил о машинных переводах, нейросетях, векторном отображении слов и поднимал вопросы границ искусственного интеллекта.

        Лекцию слушали разные люди. Справа от меня, например, клевала носом китайская туристка. Александр, наверняка, тоже понимал — пара лишних цифр, формул и слов об алгоритмах, и люди убегут в соседнюю палатку слушать фантастов.

        Я попросил Александра подготовить для Хабра «режиссерскую версию» лекции, где не вырезано ничего, что может усыпить случайных туристов. Ведь больше всего выступлению не хватало аудитории с толковыми вопросами и вообще хорошей дискуссии. Думаю, здесь мы ее сможем развить.
        Читать дальше →
      • Теория большой свалки: ищем научные документы на просторах интернета

          Система «Антиплагиат» – это специализированный поисковик. Как и положено поисковику, с собственным движком и поисковыми индексами. Самый большой наш индекс по количеству источников – конечно же, у русскоязычного интернета. Довольно давно мы решили, что будем помещать в этот индекс все, что является именно текстом (а не картинкой, музыкой или видео), написано на русском языке, имеет размер больше 1 кб и не является «почти-дубликатом» чего-то, что уже есть в индексе.

          Такой подход хорош тем, что он не требует сложных предварительных обработок и минимизирует риски «выплеснуть с водой ребенка» – пропустить документ, из которого потенциально может быть заимствован текст. С другой стороны, в результате мы мало знаем, какие именно документы находятся в итоге в индексе.

          По мере роста интернет-индекса – а сейчас, на секундочку, это уже более 300 млн документов только лишь на русском языке – возникает вполне естественный вопрос: а много ли в этой свалке действительно полезных документов.

          И раз уж мы (yury_chekhovich и Andrey_Khazov) занялись такой рефлексией, то почему бы нам заодно не ответить еще на несколько вопросов. Сколько проиндексировано научных документов, а сколько ненаучных? Какую долю среди научных статей занимают дипломы, статьи, авторефераты? Каково распределение документов по тематикам?



          Так как речь идет о сотнях миллионов документов, то необходимо использовать средства автоматического анализа данных, в частности, технологии машинного обучения. Конечно, в большинстве случаев качество экспертной оценки превосходит машинные методы, но привлекать человеческие ресурсы для решения столь обширной задачи оказалось бы слишком дорогим удовольствием.
          Читать дальше →
        • Объект, свойство, активность: модели и способы их построения

          Эта статья объединяет результаты, полученные нами в предыдущих статьях и выводит теоретические рассуждения, сделанные в них, на практический уровень. Я ввел достаточно терминов, чтобы рассмотреть понятие свойства и объяснить, как строить модель свойства. Данную статью можно читать независимо от других, поэтому часть рассуждений, сделанных ранее, я повторю, часть пропущу, а часть добавлю.


          Введение


          Тем математикам или физикам, которые начинают изучать бизнес-анализ, приходится туго. Есть огромная разница между фундаментальной наукой и теми практиками, которые изложены в разных стандартах, посвященных бизнес-анализу. Периодически происходят попытки познакомить сообщество бизнес-аналитиков с точкой зрения современных философов, однако такие попытки пока не увенчались успехом. Из-за этого математик или физик, погружаясь в изучение стандартов бизнес-анализа, испытывает легкий шок. Я попробую пробросить мост между тем, с чем привык работать физик или математик и теми моделями, которые строят аналитики.


          Для этого я сформулировал свод знаний, который назвал проекционным моделированием, потому что метод, изложенный в нем, напоминает черчение. На уроках черчения мы учимся моделировать пространства. При этом модель пространства отделена от интерпретации этого пространства. Моделируемое пространство можно интерпретировать в зависимости от решаемой задачи и как кусок алюминия, и как часть воды, и как крыло самолета: модель пространства не зависит от его трактовки. В проекционном моделировании мы поступаем так же: сначала создаем модель пространства, но уже во времени, потому что наш мир четырехмерный, если считать время как отдельное измерение, а затем трактуем это пространство-время тем, или иным способом. Так же, как в черчении моделируемый 3-Д объем можно трактовать разными способами, так и в проекционном моделировании трактовка 4-Д объема отделена от модели пространства-времени.

          Читать дальше →
          • –3
          • 1,3k
          • 6
        • Как создать своего бота без навыков программирования и подключить его к Яндекс.Алисе


            Как мы уже писали в своей первой статье, мы в Just AI специализируемся на технологиях искусственного интеллекта для понимания естественного языка (NLU). У нас есть своя платформа для разработки разговорных ассистентов, как текстовых, так и голосовых. Платформа имеет развитую функциональность для решения NLP-задач (кластеризация логов, поиск семантически близких фраз и др.) и собственный язык разработки (Just AI DSL). С использованием DSL команда лингвистов-разработчиков пишет код сценариев чатботов, интеграционные модули для связи с внешними системами, а также автотесты.

            В этой статье мы расскажем о созданном нами инструменте для разработки ботов под разные платформы, в том числе для Яндекс Диалогов, без знания DSL и навыков программирования.
            Добро пожаловать под кат
          • Разговорный AI: как работают чат-боты и кто их делает

              image

              Чатботы и искусственный интеллект для понимания естественного языка (NLU – Natural Language Understanding) тема достаточно горячая, про нее не раз говорилось на Хабре. Тем не менее достаточно редко попадаются верхнеуровневые и структурированные обзоры этих технологий и рынка в целом. В своей статье мы попробуем немного разобраться, чем обусловлен спрос на эти технологии, как выглядит современная диалоговая платформа для NLU, какие компании и разработки присутствуют на этом рынке.

              Читать дальше →
              • +38
              • 14,5k
              • 5
            • Ой, у вас баннер убежал!

              Ну. И что?
              Реклама
            • Информационные системы с понятийными моделями. Часть вторая

                В первой части статьи мы начали разговор о новом классе высокоуровневых моделей предметной области, названных понятийными. В отличие от других аналогичных моделей в понятийных моделях связи между понятиями сами являются понятиями, а модель строится на основе выявления и описания абстракций, послуживших образованию (определению) понятий предметной области. Это позволяет конечным пользователям строить и актуализировать модели предметной области путем простых и естественных операций создания, изменения и удаления понятий и их сущностей.

                Здесь, во второй части, поговорим о том, как может быть реализована полнофункциональная информационная система, основанная на понятийном моделировании предметных областей. Теперь уже в деталях рассмотрим информационную систему LANCAD, которую в нашей компании “ИНСИСТЕМС” используют для организации проектной деятельности по разработке проектно-сметной документации для строительства.

                Следует заметить, что появление информационной системы LANCAD явилось результатом реализации нескольких крупных проектов компании.

                Читать дальше →
              • Исправление опечаток, взгляд сбоку

                  Мы поговорим об использовании модных «Word embedding» не совсем по назначению — а именно для исправления опечаток (строго говоря, и ошибок тоже, но мы предполагаем, что люди грамотные и опечатываются). На хабре была довольно близкая статья, но здесь будет немного о другом.


                  Визуализация Word2Vec модели, полученная студентом. Обучалась на «Властелине колец». Явно что-то на черном наречии.
                  Читать дальше →
                  • +13
                  • 3,6k
                  • 4
                • Информационные системы с понятийными моделями. Часть первая

                    Внедряя современные информационные системы, крупные компании рассчитывают быстрее принимать решения, обнаруживать скрытые для бизнеса резервы и возможности, анализировать накопленный опыт и выстраивать прогнозы на основе выявленных закономерностей. Однако реальная отдача от информационных систем часто оказывается значительно ниже, а сроки внедрения и затраты – выше ожидаемых. Причин может быть великое множество, в том числе и связанных с неэффективным управлением, человеческим фактором, устарелой инфраструктурой.

                    Существенные недостатки есть и у самих информационных систем. В этой статье я предлагаю поговорить не о традиционных – трёхслойных – АИС, а о системах с четырехслойной архитектурой, где новый четвертый слой – слой представления – реализует понятийную модель предметной области. Для актуализации модели при изменениях в предметной области не требуется программировать. Более того, как актуализация модели, так и прикладные задачи решаются посредством семантически инвариантных для всех предметных областей операций над сущностями понятий.

                    В итоге удается улучшить вычислительные, технологические и эксплуатационные характеристики информационных систем с понятийными моделями предметной области. Но об этом далее.

                    Читать дальше →
                  • Трудности перевода: как найти плагиат с английского языка в русских научных статьях

                    • Tutorial
                    В нашей первой статье в корпоративном блоге компании Антиплагиат на Хабре я решил рассказать о том, как работает алгоритм поиска переводных заимствований. Несколько лет назад возникла идея сделать инструмент для обнаружения в русскоязычных текстах переведенного и заимствованного текста из оригинала на английском языке. При этом важно, чтобы этот инструмент мог работать с базой источников в миллиарды текстов и выдерживать обычную пиковую нагрузку Антиплагиата (200-300 текстов в минуту).

                    "

                    В течение 12 лет своей работы сервис Антиплагиат обнаруживал заимствования в рамках одного языка. То есть, если пользователь загружал на проверку текст на русском, то мы искали в русскоязычных источниках, если на английском, то в англоязычных и т. д. В этой статье я расскажу об алгоритме, разработанном нами для обнаружения переводного плагиата, и о том, какие случаи переводного плагиата удалось найти, опробовав это решение на базе русскоязычных научных статей.
                    Читать дальше →
                  Самое читаемое