Как российские разработчики создают ИИ-помощника учителя / Хабр

Может ли искусственный интеллект проверять сочинения и эссе, в том числе на ЕГЭ, вместо учителя?

Над преодолением технологического барьера работают сразу несколько команд. Для этого в рамках Национальной технологической инициативы был объявлен технологический конкурс НТИ Up Great «ПРО//ЧТЕНИЕ» с суммарным призовым фондом 255 млн рублей. Я узнал у разработчиков, как они создают ИИ-помощника учителя (на русском и английском языках) и что из этого выходит.

ИИ vs учитель

Перед участниками технологического конкурса НТИ Up Great «ПРО//ЧТЕНИЕ» была поставлена задача создать ИИ-сервис, который сможет проверять эссе не хуже опытных преподавателей, причем на все типы ошибок (грамматика, структура, логика и др.). Этот технологический барьер пока не преодолел никто в мире. Конкурс был разделен на две части — по русскому и английскому языку. Было понятно, что на первом этапе определить победителя не получится, даже несмотря на внушительный призовой фонд. Поэтому было решено разделить испытания на несколько циклов (по сути — до победного), а также ввести конкурсы сателлитов для тех команд, которые блестяще справятся с одной из задач (например, выявление грамматических ошибок).

«Забег» стартовал в декабре 2019 года, на конкурс было подано в общей сложности более 200 заявок. По итогам первого цикла в финал прошло 11 команд, второго — семь. В конкурсе приняли участие представители ведущих команд рынка компьютерной обработки текстов, в том числе «Антиплагиат», «Наносемантика», DeepPavlov. Сервисы, разработанные конкурентами, проверили 2 тыс. эссе. По итогам каждого цикла собиралась судейская и экспертная комиссия. Ее задачей было проверить все сочинения вручную силами опытных преподавателей-экспертов ЕГЭ, и сравнить с результатами работы искусственного интеллекта.

«Лучший результат 2020 года, например, для английского языка составил 85% от уровня эксперта ЕГЭ. Это уже достаточно хороший уровень, который потенциально может использоваться для частичной автоматизации работы преподавателя, — говорит глава Оргкомитета конкурса Юрий Молодых. — По итогам 2021 года мы увидели значительное повышение качества ИИ-систем, созданных участниками. Рассчитываем, что в результате проведения конкурса на рынке появится технологическое решение, которое позволит не только сэкономить время учителям, но и также даст возможность ученикам и студентам проверять себя и совершенствовать свои навыки написания текстов».

Технологические конкурсы НТИ Up Great стартовали в 2018 году в рамках Национальной технологической инициативы. Участникам предлагается найти решения сложнейших технологических задач, которые в мире пока решения не имеют. Команда-победитель, преодолевшая мировой технологический барьер, получает крупный денежный приз за создание понятного и повторяемого решения. Механика конкурсов разработана в соответствии с лучшими практиками мировых технологических соревнований: XPrize, Darpa Grand Challenge и др. Оператором технологических конкурсов Up Great является Фонд НТИ. Соорганизаторы конкурса Up Great «ПРО//ЧТЕНИЕ» — Фонд «Сколково», Платформа НТИ. Технический партнер конкурса — Центр компетенций НТИ по направлению «Искусственный интеллект» на базе МФТИ.

DeepPavlov (английский язык)

«В 2020 году мы стали победителями специальной номинации технологического конкурса Up Great «ПРО//ЧТЕНИЕ» по английской грамматике, — вспоминает руководитель команды DeepPavlov Денис Кузнецов. — На первый взгляд обывателя, наши модели работали неплохо, но оценки экспертов показали, что мы еще не преодолели технологический барьер. Для нас это был первый этап, и у нас ушло много сил на объединение моделей. Тогда мы действовали жадно, брались за те задачи, которые можно было сделать быстрее всего и получить больший выигрыш. Теперь же мы работали над переводом количества моделей в качество и не так много сделали для улучшения оценок, сколько занимались стабильностью решения для выявления разных типов ошибок».

В основе решения — уже имеющиеся на рынке продукты лаборатории, в том числе DeepPavlov Agent — ПО с открытым исходным кодом, которое позволяет объединять и запускать множество нейронных моделей. Разработчики также взяли большое количество моделей из открытых источников, дообучили, где-то вручную написали правила, добавили ансамбли. В итоге получился «комбайн» из большого количества моделей, работающих согласованно.

Основная сложность, с которой столкнулась команда DeepPavlov при участии в конкурсе: создание ПО требует больших мощностей и множества ресурсов. Но благодаря хорошему решению по английской грамматике, разработанному в 2020 году, в 2021 году было потрачено уже не так много времени на создание вспомогательных моделей.

«Мы надеемся на то, что эксперты оценят наше решение и оно увидит свет. В дальнейшем это может быть облачный сервис, доступ учителей к которому будет обеспечен либо через специальный клиент, либо через сайт. Конечно, его нужно будет дорабатывать под специфику применения, проводить интеграцию с системами пользователей. То есть от испытания в конкурсе до готового продукта нужно будет пройти еще определенный путь, но мы надеемся, что сервис действительно поможет преподавателям ускорить проверку работ, уменьшить количество рутины, а также будет полезен для аналитических целей», — отмечает Денис Кузнецов.

Антиплагиат (русский и английский)

«Антиплагиат» уже более 16 лет занимается обработкой текстов, поэтому команда не могла остаться в стороне от конкурса НТИ Up Great «ПРО//ЧТЕНИЕ», тем более, когда речь идет о такой сложной задаче, как проверка сочинений ЕГЭ, рассказывает Юрий Чехович, исполнительный директор компании.

Согласно заданию конкурса, создаваемому алгоритму требуется не просто найти и выделить все ошибки в сочинениях, а понять эти ошибки, исправить их и дать пояснения, какая именно ошибка была допущена, отмечает он. Если поиск грамматических и пунктуационных ошибок — достаточно изученная область, особенно для английского языка, то именно понимание этих ошибок представляет огромный интерес для исследования.

«Если говорить о деталях разработки, то любое исследование начинается с анализа выборки. В первую очередь мы выделили наиболее популярные ошибки школьников при написании эссе по разным предметам. После чего провели исследования большого числа моделей разной сложности для поиска типовых ошибок в текстах сочинений ЕГЭ. Интересный факт: не всегда самые сложные модели дают лучшее качество при поиске некоторых типовых ошибок. В целом о выполнении всех задач конкурса пока речи не идёт. На текущем этапе алгоритмы ищут ошибки в сочинениях, и даже некоторые типы ошибок мы умеем качественно исправлять, но говорить о финальных версиях алгоритмов пока рано», — поясняет Юрий Чехович.

FirstTry (русский язык)

Руководитель проекта FirstTry Артём Щеголев пришел на конкурс в команде со своей супругой.

«Задача в целом показалась сложной, пришлось перепробовать большое количество вариантов решения. В частности, начал исследование с классических алгоритмов, и, на удивление, они работали не сильно хуже нейросетевых», — говорит он.

Трудности были связаны с относительно малым набором размеченных данных, что является существенной проблемой на пути получения действительно качественных алгоритмов. Еще один вызов — проведение конкурса в онлайне. Это тоже добавляет технической сложности — все решало не только качество алгоритма, но и скорость и надежность: «техническая» потеря нескольких файлов радикально снижает результат, добавил Артем Щеголев.

Результаты

По словам Юрия Молодых, особенно важно соответствие решения, предложенного участниками, задаче конкурса. Равенство всех участников и одинаковые возможности обеспечиваются только в том случае, если все команды соблюдают условия, описанные в главном документе — конкурсном задании. Так и в ПРО//ЧТЕНИЕ соблюдение требований конкурсного задания и технического регламента командами было одним из самых сложных моментов для организатора.

«И организаторы вынуждены аннулировать результаты, если система ИИ команд идёт путём использования для решения технологической задачи методов, не соответствующих целям конкурса. Во втором цикле такие прецеденты были. Теперь эти команды смогут использовать полученный опыт и вновь попробовать свои силы в решении задачи конкурса», — отметил Юрий Молодых.

Официальные итоги испытаний будут подведены в феврале. То есть уже скоро мы узнаем, удалось ли российским командам преодолеть мировой технологический барьер. Если это случится, это будет уникальная для страны победа, так как до сих пор участникам конкурсов Up Great удавалось найти прорывные решения только в отдельных номинациях, то есть преодолеть технологический барьер частично. Например, в 2019 году был завершен технологический конкурс «Зимний город» — участники должны были представить беспилотные автомобили, которые смогут проехать 50 км за 3 часа в зимний период, без нарушения ПДД и создания аварийных ситуаций. Ни одна из команд не смогла выполнить это задание, наиболее близка оказалась команда из StarLine. А после первого заезда участников пришлось делать рестарт — так как на Дмитровском полигоне, где началась гонка, образовалась первая в мире пробка из беспилотников.