Как стать автором
Обновить

Тестирование лингвистических технологий: соревнования по автоматическому разрешению кореферентности и анафоры

Время на прочтение 5 мин
Количество просмотров 8.4K
Всего голосов 29: ↑28 и ↓1 +27
Комментарии 14

Комментарии 14

Добавлю парочку нюансов к новости.

По регламенту результаты должны были быть объявлены ещё 10-го апреля, но, к сожалению, не объявлены организатором до сих пор. Я, как один из участников, до сих пор в томящем неведении.

Организаторы проделали большую работу и задержка, возникшая в связи со значительным превышением количества прогонов над количеством участников (17 прогонов против 7-ми участников в течении двух суток!) совершенно понятна.

В любом случае, хочу выразить свою признательность Организаторам за большой труд и уверен, что наличие общедоступных размеченных корпусов послужит делу приобщения многих независимых разработчиков и начинающих коллективов к компьютерной лингвистике.
А корпуса будут в открытом доступе или только для участников?
А корпуса будут в открытом доступе или только для участников?


Обучающий корпус с размеченными дорожками по анафоре и кореферентным ссылкам находится в открытом доступе здесь.

Ещё рекомендую посмотреть Открытый корпус.
А его как-то можно скачать в машиночитаемом виде? И какая там лицензия?

По ссылке еще разборы немного странные («Толстый» как нормальная форма фамилии «Толстая», несклоняемая фамилия «Жандарева») — это просто особенности интерфейса?
А его как-то можно скачать в машиночитаемом виде? И какая там лицензия?


На ftp организаторов я не нашёл обучающий корпус, но сами данные сохранились.

Если у Вас есть вопросы, думаю, будет правильным обратиться непосредственно к Светлане Толдовой, организатору.
Интересно, кто-нибудь пытался написать программу, чью степень понимания текстов на естественном языке можно будет определить по той же самой методике, которая применяется при тестировании понимания текстов людьми, изучающими иностранные языки?

В качестве примера ниже приводится текст на чешском языке, взятый из модельного теста на уровень A1 владения языком, и 7 вопросов к нему. Исходя из предположения, что вы не владеете чешским языком, предлагаю вам вначале попытаться определить правильные ответы наугад, ощутив себя тем самым в роли не обученной машины.

После чего переведите текст, вопросы и варианты ответов с помощью сервиса Яндекс.Перевод и посчитайте количество получившихся у вас правильных ответов. Опубликуйте свой результат в комментариях, чтобы можно было оценить статистику распределения.

Какое количество правильных ответов, на ваш взгляд, позволит утверждать, что программа поняла данный текст на человеческом уровне (пусть не носителя языка, но иностранца)?

Milá Jano,

zvu Tě na oslavu svých narozenin. Party
bude v sobotu 7. 6. od 19:30 u mě doma.
Bude tam dost masa, pití a koncert. Přijdou
kamarádi a známí. Přijede i můj bratr Jakub.
Bohužel na party nesmí zvířata.
Těším se na Tebe.

Tvůj Tomáš

1. Co budou ti lidé slavit?
A) Svátek.
B) Vánoce.
C) Nový rok.
D) Narozeniny.

2. Kdo má narozeniny?
A) Jana.
B) Jakub.
C) Tomáš.
D) Kamarád.

3. Ve kterém měsíci je oslava?
A) V červenci.
B) V červnu.
C) V květnu.
D) V září.

4. V kolik hodin začíná oslava?
A) V osm.
B) V sedm.
C) V půl osmé.
D) V půl sedmé.

5. Kde je oslava?
A) U Jakuba.
B) U Tomáše.
C) V kanceláři.
D) V restauraci.

6. Kdo taky přijde na oslavu?
A) Bratranec Jakub.
B) Kamarád Jakub.
C) Kamarád Jany.
D) Bratr Tomáše.

7. Co nebude na oslavě?
A) Pes.
B) Jídlo.
C) Hudba.
D) Nápoje.
Вот мои ответы исходя из знания украинского (в гугле не подсматривал):
1. D
2. C
3. B
4. C
5. B
6. D
7. не знаю. Вариант D — напитки, а что такое A, B и C — не знаю.

Думаю, что все ответы должны быть правильными, чтобы можно было говорить о полном понимании текста, вопросов к нему и ответов на них. Как бы любой носитель языка должен с легкостью отвечать на подобные вопросы.
Спасибо Вам за участие в опросе! Насколько мне известно, носители украинского языка понимают чешский, сербский и другие языки западнославянской и южнославянской групп намного лучше, чем носители одного только русского языка.

Действительно, ответы на первые шесть вопросов все правильные, но седьмой вопрос значительно отличается от других по своей сложности…
1. Думается мне, приведенные кореферентные примеры все-таки относительно просты. Просматривая примеры и тесты типа Тьюринга и т.д., мне часто встречались предложения не с двумя, а с 3-я и более тождествами. Гораздо интереснее, например, как участники смогли бы разобрать штуки вида:

Египтянка не взяла вес. Тяжесть для южанки была непомерная, она не долго сопротивлялась и все-таки уронила ее на себя.
«У меня была задача поднять свое, немножко не получилось.» — прокоментировала она, горько поглядывая на вес.


2. Про пост — технических деталей почти никаких, результаты вы тоже не привели, можно поинтересоваться — цель статьи какова?
Хороший пример. Он заключается в том, что некоторые референты местоимений (или антецеденты) отсутствуют в самом предложении, а только подразумеваются. Штанга тут подразумевается, но есть отсылка к ней местоимением «ее». Штанга же подразумевается исходя из контекста — то что можно «уронить». Получается, что полная анафора не разрешима только за счет простых онтологии «Компания-название» (как у Comprento). Coprento такую штуку не возьмет.
Штанги там нет, но там есть тяжесть. Её и уронила… Так что описанной вами ошибки в примере нет.

Но она же — и вес, который придется разрешать по словарю синонимов.
Спасибо за статью, очень интересно и полезно! В том числе ссылки на корпуса в комментах.
Извините, что пишу тут, но я пытался связаться через Play Store, через support email, через форум — не могу получить ответ.

Пользуюсь Lingvo for Android уже давно.
После смены телефона пропал купленный русско-нидерландский словарь.

На втором телефоне и на iPhone этот словарь есть.
Как вернуть русско-голландский словарь обратно?

Спасибо за ответ! Еще раз сорри, что пишу тут.
Добрый день!

К сожалению, нам не удалось найти Ваше письмо. Пожалуйста, сообщите Ваш адрес электронной почты или напишите письмо на support@abbyy.com, указав в теме письма номер #430911.

С уважением,
Служба технической поддержки компании ABBYY
Зарегистрируйтесь на Хабре , чтобы оставить комментарий