Трансформеры и ненависть в Ванкувере: как Антиплагиат ездил на NeurIPS-2019

    В конце уже прошлого года в канадском городе Ванкувер прошла конференция NeurIPS-2019. Поиск по Хабру выдаёт семь упоминаний, среди которых нет ни одного отчёта или обзора — странный пробел, учитывая уровень и масштаб события в 2019 году. Мы в компании Антиплагиат решили заполнить этот пробел рассказом о впечатлениях двух нипсовых неофитов в мире haute couture data science.




    Ночь, Домодедово, регистрация на рейс, а потом очень короткая стыковка во Франкфурте, на которой уже понятно, что на конференции будет не протолкнуться. Транзитную зону наводнили торопливые люди в очках и корпоративных толстовках, а очередь на посадку уже и сама была похожа на хорошую (жаль, несуществующую) российскую конференцию. Дальше нас ждал десятичасовой перелёт, превратившийся в хакатон: в салоне то здесь, то там мерцали чёрные экраны с терминалом или тёмной оболочкой ide. В небе над Гренландией, кажется, было написано кода больше, чем когда-либо на её поверхности.


    Разница во времени составляет 11 часов, поэтому по прилёту мы сразу же столкнулись с жестокой реальностью джетлага. Расположившись недалеко от места проведения (Vancouver Convention Centre, состоящий из двух зданий общей площадью 43340 кв. м., что, на секундочку, почти что шесть футбольных полей) и с трудом дождавшись, как полагается, вечера по местному времени, мы повалились спать.


    День первый, когда воздалось нам сполна за терпение.


    8 декабря, первый день конференции. Организаторы отметили в специально присланном накануне письме, что нужно умереть, но прийти на регистрацию строго в первый день. Явились в условленные 9 утра и сразу наткнулись на очередь, которая начинается на первом этаже и переходит на второй, складывается, вьётся и снова складывается, уходя за угол. Там вытягивается и снова оказывается за углом, где после пары часов ожидания (очередь на концерт Anacondaz в Москве, к слову, рассосалась всего за 1 час) мы получаем заветные бэйджи и классные кружки.



    Приходите пораньше, говорили они...(все, кто регистрировался на следующий день, сделали это без особых усилий)


    Размахивая бэйджами перед активно нарастающей очередью, следуем в соседнее здание, где на сегодня запланирован Expo Day: стенды и семинары крупных компаний-спонсоров. Комнаты с семинарами пустуют, спикеры пытаются захватить внимание остатков аудитории, а в это время в зале со стендами компаний полно народу. Тут сервируют кофе и сладости, а ведущие корпорации в отрасли (Facebook, IBM, Google, Apple etc.) бойко рассказывают о себе, регистрируют людей на своих карьерных сайтах и щедро раздают шапки, адаптеры, носки и приглашения на корпоративные вечеринки. У некоторых, кажется, уже идут собеседования.



    Сумка мерча от спонсоров (сама сумка тоже мерч)



    Вид на Восточное здание центра и бухту


    День второй, когда казалось, что всё потеряно.


    На следующий день действие раскочегарилось. Мы с Oleg_Bakhteev радостно побежали впитывать в себя передовую науку. Послушали отличное выступление Kyunghyun Cho про парадигму Imitation Learning, сочетающую в себе преимущества RL и классического Supervised Learning. На этом, правда, всё и закончилось, весь оставшийся день длились ставшие уже традиционными семинары Black in AI, Women in Machine Learning, LatinX in AI, Queer in AI и New in Machine Learning. Эти семинары перемежались одним из трёх спичей на выбор, где из предложенных Efficient Processing of Deep Neural Network: from Algorithms to Hardware Architectures, Machine Learning for Computational Biology and Health и Interpretable Comparison of Distributions and Models мы выбрали эффективный диплёрнинг и… прогадали. Вдохновляюще и очень обстоятельно были описаны очевидные узкие места и трейдоффы, возникающие в погоне за эффективностью. День для нас закончился серией докладов Reinforcement Learning: Past, Present, and Future Perspectives, где на большом экране почти все два часа кружили, падали и поднимались разные компьютерные симуляции человечков из палочек. Было весело. Настолько, что на философское выступление психолога из Беркли под названием How to Know с витиеватым анонсом идти уже не захотелось.


    День третий, когда умы наши наполнились надеждой.


    Когда мы уже отчаялись услышать хоть какие-нибудь прорывные новости машинного обучения из уст спикеров, знающие люди подсказали, что всё классное и настоящее происходит на постерной сессии. Отлично, она как раз стартует сегодня. Идём слушать хайлайтс. Хайлайтс — это когда все собираются, садятся и слушают пятиминутные доклады авторов лучших работ, которые будут на постерной сессии. Люди отчаянно пытаются фотографировать презентацию и очень расстраиваются, когда докладчик переключает драгоценные слайды. Кажется, всё это нужно, чтобы не бродить среди трёх-четырёх сотен постеров без цели, а выделить действительно интересное. После часа хайлайтс отправляемся смотреть постеры уже с уверенностью, что интересного будет действительно много. Постерная сессия находится в двух объединённых выставочных пространствах, уже на подходе к которым растянулась очередь. Оказавшись внутри, разбредаемся искать близкие темы и понравившийся материал из хайлайтов. Всё очень неплохо, но, чтобы поговорить с автором, нужно отстоять очередь или, случайно застав середину рассказа, подождать начала. Усталость от непрерывной очереди и попыток разглядеть постер через головы накатывает достаточно быстро. Сил придаёт только энергично шныряющий без кепки Шмидхубер. В итоге удалось найти и внимательно выслушать порядка десяти интересных работ. Неплохой улов по сравнению с предыдущими днями.


    День четвёртый и дни последующие, когда, наконец, понеслось.


    На следующий день знающие люди опять дают нам ценную подсказку: не нужно и даже противопоказано ходить слушать хайлайтс, потому что нужно бежать на постеры, пока их только вешают — народу почти нет, а авторы уже охотно отвечают на вопросы. Так и сделали. Тактика сработала — много и продуктивно пообщались с коллегами, посмотрели большое количество интересных работ. Этого же плана мы придерживались в последующем, иногда пробуя на вкус выступления спикеров, но неизменно сходясь во мнении, что кроме как передышку от хождения по постерам их воспринимать не следует. Тематические воркшопы в последние два дня конференции тоже порадовали насыщенностью и релевантностью информации. Работы, разбитые по узким тематикам размещались на стенах небольшой аудитории, там же проходили выступления и живые обсуждения.



    Document Intelligence Workshop


    На NeurIPS 2019 мы приехали не просто так, а как участники воркшопа Document Intelligence, что посвящён интеллектуальной обработке документов. Подавляющее большинство рассматриваемых задач воркшопа было связано с оптическим распознаванием текстов и подавлением артефактов в сканированных документах, выделением сущностей из товарных чеков или контрактов. Мы с Oleg_Bakhteev представляли нашу работу по поиску кросс-языковых заимствований CrossLang: the system of cross-lingual plagiarism detection, популярно о которой можно почитать на хабре. Здесь остановимся подробнее, отвлечёмся от общих впечатлений от конференции и сделаем небольшой дайджест статей воркшопа. Краткий и очевидный результат — прошедший год для нашей области стал годом BERT’a. Содержание всех статей воркшопа (почти) одной строкой приведено ниже:


    1. CrossLang: the system of cross-lingual plagiarism detection. Наша статья о системе детектирования переводных заимствований. Рассматривается задача поиска заимствованных фрагментов входного текста на русском языке в коллекции на английском языке. Применили связку переводчик + обученный semi-supervised encoder-decoder для сравнения переведённых предложений. Полученная система успешно работает в проде, обслуживая большое количество вузов.
    2. Repurposing Decoder-Transformer Language Models for Abstractive Summarization. Рассматривается задача абстрактивной суммаризации. Показано, что используя предобученный декодер трансформера можно получать хорошие результаты, рассматривая задачу как language modelling. Без beam search и других оптимизаций декодера, а просто декодируя жадно.
    3. From Stroke to Finite Automata: An Offline Recognition Approach. Есть электронная система обучения студентов Computer Science. Для изучения конечных автоматов сделана система распознавания нарисованных вручную диаграмм. Представлен датасет для задачи.
    4. Post-OCR parsing: building simple and robust parser via BIO tagging. Разбиение информации с чеков на группы. Каждый токен классифицируется на Начало-Внутрь-Вне (BIO) с помощью BERT-эмбеддинга. Сделали для этого свой датасет.
    5. BERTgrid: Contextualized Embedding for 2D Document Representation and Understanding. Хочется использовать полностью картинку страницы и текст. BERT для текста, CNN для картинки, получаем контекстные представления элементов на странице для последующих задач, например классификации. Применяется тоже на чеках.
    6. Chargrid-OCR: End-to-end Trainable Optical Character Recognition through Semantic Segmentation and Object Detection. Задача OCR рассматривается как задача object-segmentation для очень плотно лежащих объектов. Нет никакого специального препроцессинга, даны чистые пиксели. Сравнивались с Tesseract и с CNN-RNN.
    7. SVDocNet: Spatially Variant U-Net for Blind Document Deblurring. Делают скан изображения чётким при помощи U-Net.
    8. Semantic Structure Extraction for Spreadsheet Tableswith a Multi-task Learning Architecture. Мультизадачный фреймворк для работы с таблицами: учитывается как семантика внутренности ячейки (BERT), так и тип ячейки (CNN).
    9. Document Enhancement System Using Auto-encoders. Очистка сканированных документов от размывания, артефактов, ватемарок. Взяли готовую архитектуру Residual Encoder-Decoder Network. Датасет состоит из чистых и соответственных зашумлённых документов. Минимизируется ошибка реконструкции.
    10. CORD: A Consolidated Receipt Dataset for Post-OCR Parsing. Сделали датасет с разметкой чеков на зоны и их значения.
    11. On recognition of Cyrillic Text. Сделали датасет для распознавания рукописных кириллических языков.
    12. Representation Learning in Geology and GilBERT. Поиск аналогичных терминов в геологических документах с помощью BERT.
    13. Neural Contract Element Extraction Revisited. Извлекают сущности из контрактов: стороны, даты, деньги и тд. Рассматривают задачу как sequence labelling. Пробовали BiLSTM, dilated-cnn, transformer, BERT. Лучше всего сработала BiLSTM с CRF поверх. В качестве входов использовали domain-specific w2v.
    14. Doc2Dial: a Framework for Dialogue Composition Grounded in Business Documents. Диалоговый агент, который отвечает на запрос пользователя на основе массива документов.
    15. On Domain Transfer for Intent Predicting in Text. Статья про ситуацию, когда есть публичные датасеты (электронные письма), но применять мы их хотим на закрытых датасетах (настоящие письма пользователей). Они могут быть из другого распределения и сломать основные предпосылки ML. Вводятся разные техники детектирования различия распределений.
    16. Towards Neural Similarity Evaluators. Рассматривается задача суммаризации и её метрики качества. С BLEU и ROUGE много проблем, поэтому взяли архитектуру RoBERTa и дотьюнили её на Sentence Similarity Task. Метрика качества — сравнение полученных векторных представлений.

    В конце, как полагается, выводы. Первые два-три дня конференция разогревается, поэтому если едете за наукой, можете их смело пропускать или смотреть Ванкувер и окрестности, восстанавливаясь от джетлага. Если едете устраиваться на работу в индустрию или академию (и набрать мерча), то на Expo для вас есть шанс найти работу в крупной (и не очень) компании. Ну и все звёзды от академии, руководители лабораторий тоже находятся на конференции, поэтому есть шанс встретиться и пособеседоваться.


    Таким получился для нас NeurIPS 2019 :) Надеемся, что статья была интересна и полезна для хабрового ML-сообщества.

    «Антиплагиат»
    Компания

    Комментарии 0

    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

    Самое читаемое