15 лет мы, производство компании Антиплагиат, жили в простых и гармоничных отношениях с бизнесом и пиаром. Сначала мы выкатывали новый функционал на прод. Затем пиар начинал его пиарить: писать новости, пресс-релизы, давать интервью и т.п. Ничего, собственно, не мешало развиваться таким отношениям и дальше, пока… Хотя нет, обо всем по порядку.
В конце 2019 года мы провели стратегическую сессию: озвучили и записали большое количество идей, которые лежали в головах разработчиков, тестировщиков, аналитиков, devops'ов, в общем, того самого производства. Посмотрев на наши идеи, руководство (а вместе с ним и пиар) решилось на отчаянный шаг – дать производству самому рассказать о наших идеях, собрать отклики, продвинуть на рынок. Эта статья – первый пробный шажок простых производственных парней по неизведанной планете под названием «рынок».
А еще мы выиграли грант РВК на развитие искусственного интеллекта в области обработки текстов на естественном языке. Поэтому почувствовали себя обязанными обрисовать ближайшие планы.
Второй квартал для нас, с одной стороны, самый жаркий, поскольку нагрузка на систему «Антиплагиат» максимальна как раз в период сессии, а с другой – это начало нового цикла производства. Основной функционал отгружен, в нем только правятся баги, а в наших бэклогах – только новое. Есть возможность вносить глубокие изменения в ядро на перспективу и коренным образом менять пользовательский опыт. К тому же, до ближайшей сессии мы проведем еще очень много обучающих вебинаров, и пользователи быстро привыкнут к новинкам… В общем, сейчас можно творить без оглядки!
Представляю вам сервисы, которые мы планируем вывести на рынок в 2020 году.
Антиплагиат.Скрининг
Изображение с сайта pixabay.com/ru
Мы провели стратегическую сессию в декабре 2019 года. Тогда никто еще и подумать не мог, насколько востребованной окажется тема скринингов, тестов и иных медицинских сервисов. Впрочем, мы тоже не ожидали пандемии, а думали, что наш прототип системы на основе анализа текстов будет работать в первую очередь на нашу потенциальную аудиторию: на студентов, у которых горят дедлайны по дипломам. А сейчас выясняется, что в проверках «по текстам» нуждаются теперь не только учащиеся…
Не секрет, что физическое, эмоциональное и психическое состояние влияют на манеру общения человека. Письменная работа – это тоже канал общения, поэтому есть очень серьезная гипотеза, что по тексту, написанному человеком, можно определить, что происходит с его здоровьем в данный момент. Через систему «Антиплагиат» проходит масса документов. Мы уже умеем отделять текст, написанный автором самостоятельно, от нагромождения цитат или даже плагиата. Решение напрашивается само собой: нужен алгоритм, который по оригинальному тексту человека определяет его эмоциональное и физическое состояние!
Однако, где же взять данные для обучения? Мы решили обратиться к специалистам. К счастью, среди наших клиентов есть медицинские вузы и даже особые лечебные учреждения. Пользуясь связями, мы вышли на несколько практикующих кафедр, которые с радостью помогли нам с организацией сбора данных. Среди участников были пациенты терапевтических, хирургических и психиатрических отделений. Мы попросили всех написать небольшой текст размером в 2000 знаков, в который входили следующие пункты: описание своих жалоб и самочувствия перед приемом доктора, описание процесса поездки от дома до очереди в кабинет и общее описание погоды сегодняшнего дня. Мы попробовали несколько разных моделей, максимальный результат продемонстрировал нейросетевой алгоритм: точность 0,7 при полноте 0,8. Неплохо, но чувствовалось, что мы не все выжали из данных. Соорудили ансамбль с еще одной моделью, которая демонстрировала максимум на ошибках нейросети. После проделанных манипуляций точность увеличилась до 0,78, а полнота до 0,82.
Вернемся к нашему прототипу. Анализ оригинального текста студенческих работ с прошлогодней сессии показал, что только малая часть из них имеет признаки паники, возбужденного состояния или стресса. К сожалению, большая часть текстов отдает деловым отношением и скукой – явный признак работ, написанных на заказ. Кроме психологического состояния, были выявлены подозрения на гастрит, несколько переломов и два суицидальных настроения. Планируем включать в отчет о результатах проверки телефоны ближайших профильных центров медицинской помощи, чтобы автор задумался о своем здоровье и не натворил глупостей.
В этом году мы планируем развить этот прототип до продакшена. В связи с текущей пандемической обстановкой мы ищем контакты людей, больных COVID-19, для написания тестовых эссе. После этого мы дообучим модель на этих данных и, надеемся, что нам удастся получить очень дешевый, простой и массовый тест для выявления самых разных заболеваний у авторов… Есть вероятность получить диагностику этого страшного заболевания, которое кошмарит весь мир, еще в самом начале его инкубационного периода. Также мы открыты к работе с операторами мобильной связи и спецслужбами для адаптации данной модели для поиска больных людей по смс и сообщениям в мессенджерах.
Антиюрист
Изображение с сайта pixabay.com/ru
Следующий сервис, который мы планируем выпустить на продакшен, позволит искать слабые места в текстах договоров без юриста! Представьте себе недалекое будущее, когда вы сможете загрузить договор в автоматическую систему и она подскажет вам все слабые места: риски для каждой из сторон, возможности обмана без нарушения договора и укажет ссылки на юридическую практику. Ниже приведен скриншот нашего прототипа такой системы.
Как же это работает? В основе системы лежат технологии, по которым сделан IBM Watson. Мы изучили актуальные статьи на эту тему и, воспользовавшись нашими уже готовыми наработками, создали прототип системы, анализирующий юридические документы. Для обучения этой системы были использованы индексы баз нормативно-правовой документации, например, СПС ГАРАНТ, а также проиндексированы судебные решения, выложенные в открытый доступ на сайтах судов России. Добавили различные шаблоны договоров с просторов интернета, а наши партнеры-юристы сделали разметку для обучения.
Технически для быстрого поиска в данном решении используется не обычный шингл-индекс, а индекс по графу взаимосвязей между участниками договора. Права и обязанности сторон, штрафы, порядок решения споров – все эти данные превращаются в граф взаимосвязей (раз, два). Дальше граф разбивается на подграфы с частичным пересечением (примерно также работает механизм шинглов), и уже эти самые подграфы укладываются в индекс. Такой подход позволяет нам быстро находить схожие в чем-то случаи (т.н. кандидаты) и сравнивать проверяемый документ более плотно с цифровым слепком того, что нашлось в индексе.
Как и с обычным отчетом, система «Антиплагиат» лишь обращает внимание пользователя на скользкие моменты в договоре. Сейчас мы доводим прототип до промышленной эксплуатации и разрабатываем интерактивный отчет для удобной работы с данным типом документов.
В ближайших планах добавить в Антиюриста проверку контрагентов на участие в судах, нахождение в реестре банкротов, в списках недействительных паспортов (для физлиц), ограничительных судопроизводств и т.д. Таким образом сервис позволит в одном окне провести большое количество проверок и не попасть впросак всего по одному текстовому документу – договору. А в чуть более отдаленной перспективе Антиюрист должен получить функции финансовой оценки рисков (да-да, когда наши пользователи хотят цифру, то мы не можем им отказать :)) и возможность автоматической генерации претензий другой стороне, и исковых заявлений в суды различных уровней. Для поддержки последней функции планируется развитие партнерских программ с юридическими компаниями.
PlagCoin и Антиплагиат.Депо
Изображение с сайта pixabay.com/ru
Ну а как же без блокчейна? Есть у нас идеи и на этот счет. В ближайшее время мы планируем «чеканить» свою крипто-монету PlagCoin. В блокчейн можно вплетать контрольные суммы депонированных (т.е. размещенных в открытом доступе) работ. Такой сервис будет полезен тем, кто хочет защитить приоритет по интеллектуальной собственности. Так вы сможете загрузить любой документ в нашу систему, и его хеш-сумма будет вплетена в цепь блоков – блокчейн. В случае возникновения спорных ситуаций вы всегда сможете показать этот документ, а Антиплагиат подтвердит, что документ с такой хеш-суммой был загружен в нашу систему в конкретное время. Сервис предлагает также фиксировать доли авторства и другие категории участия (финансирование, редактирование, сбор данных и т.п.) в написании той или иной работы. Подобные системы уже существуют и развиваются. Кстати, несколько таких компаний уже являются клиентами Антиплагиата.
А еще с помощью PlagCoin'ов, которые будут зарабатывать обычные пользователи, можно будет оплачивать услуги проверки текстов на заимствования, Скрининга, Антиюриста и других. Мы планируем построить процесс майнинга таким образом, чтобы частично перенести бремя выполнения поисковых запросов на компьютеры самих пользователей сервисов от Антиплагиата. Таким образом будет уменьшаться нагрузка на наше оборудование и, следовательно, больше денег и ресурсов останется на новые исследования и различные улучшения в нашей основной системе!
PlagCoin станет одним из основных сервисов нашей Экосистемы Тотальной Честности (ЭТоЧе).
Регулятор чувствительности к плагиату
Естественно, что за годы развития у системы появилась куча настроек, которые можно подкручивать тем или иным образом. Примеры таких ручек приводились здесь, здесь и здесь. Понятно, что все эти ручки можно долго и упорно совершенствовать, добиваясь оптимального результата.
Образно весь процесс выглядит примерно вот так, хотя вся начинка, разумеется, скрыта от пользователя:
Скриншот формы с реальными параметрами мы не можем представить по понятным причинам, поэтому только макет из первоначального ТЗ для оценки сложности и количества настроек. Сейчас количество настроек значительно больше :(
Кстати, критерий оптимизации достаточно замысловат: это поддержание баланса обращений в техподдержку от студентов («Верните все назад, мы не можем сдать наши дипломы!») и преподавателей («Нутром чую, что есть плагиат, а ваша система его не видит»). Можно использовать машинное обучение, deep learning, искусственный интеллект и все такое, но бизнес ждать не может. Поэтому мы решили пойти другим путем и свести все параметры в один:
Да, одна большая кнопка на основные жизненные сценарии. Как видите, сервис интуитивно понятен, и каждый теперь сможет получить тот отчет о проверке в системе «Антиплагиат», который ему требуется в текущей жизненной ситуации. В коммерческом успехе сервиса мы не сомневаемся: пользователи просят данную модификацию со времен создания системы. Как бонус, такой сервис позволит нам надеяться на снижение обращений в техподдержку.
Текстовый помощник Антип
Голосовых помощников выпустили уже все, кто только мог. Алиса, Сири, Алекса, Маруся и даже Олег помогают упростить жизнь людям по всему миру. Мы решили не отставать от рынка, однако у нас есть предложение поинтереснее. Прискорбно, но факт: современная молодежь мало, нет, ОЧЕНЬ МАЛО читает. Добавим сюда клиповое мышление, твиттер, смс и мессенджеры. Что получаем в результате? Что современному человеку очень трудно самостоятельно сформулировать хороший текст для научной работы. Отсюда и боязнь сесть за написание диплома или статьи, прокрастинация, откладывание на последний момент, что, как известно, приводит к печальным последствиям. Ладно пьянки-гулянки, налицо вещи пострашнее: использование чужого текста, обман, заказ работы у профессиональных писателей. Мы наконец-то поняли, в чем основная проблема современных студентов, и предлагаем своевременное решение!
Разрешите представить: Текстовый помощник «Антип» от компании Антиплагиат. Этот текстовый помощник расшифрует ваши мысли и превратит ваши 150 символов в нормальные 2 страницы научного текста. Компания Антиплагиат остается верной своему кредо: творить по-прежнему надо своим собственным умом. Мы лишь существенно облегчаем процесс творчества. Так же, как фонарщики и телеграфистки, вскоре писатели работ на заказ останутся только в городских легендах. Антип дешевле, быстрее, качественнее, ведь тест будет гарантированно уникальным. Вместе с тем, он как личный дворецкий, с которым вы уже долго вместе, разгадает вашу научную мысль по паре предложений и заменит ваши бледные речевые потуги на изящные и сложные грамматически верные конструкции.
Предстоящая сессия будет посвящена бета-тестированию нашего помощника. Следите за новостями.
Вместо выводов
Вот уже две недели все сотрудники компании Антиплагиат работают удаленно. Освободилось время, которое мы раньше тратили на дорогу. Как показывает наша система учета рабочего времени, часть из этого времени внезапно пошла в работу. Сократилось время на митинги, текущий статус каждый пишет в канал группы в слаке. Из-за текущей ситуации даже появилось некое чувство сплоченности и единения. Судя по отчетам из джиры, наша производительность существенно повысилась. Доверие руководства компании мотивирует и вдохновляет. Искренне надеюсь, что с удаленки мы выйдем с новыми сервисами, с которыми вы только что ознакомились.
Все знают о том, какие шедевры появились у Ньютона и Пушкина после вынужденной самоизоляции, однако что делать всем остальным? Как показал скрининг интернета и опрос знакомых студентов, многие всерьез засели за написание своих курсовых, дипломов, диссертаций, статей и романов, положенных в стол много лет назад. Лучшие времена для творчества наступили! Пользуйтесь случаем, познавайте мир бесплатно (пока многие сервисы предоставляют бесплатный доступ к своим ресурсам) и творите собственным умом!