Pull to refresh

Comments 21

А вы не могли бы выложить разметку (тексты+авторы) или скрипт, который её извлекает?

Выложила на github код, который использовала для сопоставления ссылок на Википедию.

Были ли попытки исключить топонимы? Как следует из списка ошибок классификатора, они, возможно, все же негативно влияют.
По крайней мере, к ним нет того доверия, что к gray/grey и color/colour.
Меня больше заинтересовала пара girl/lady.
Возможно, американские тексты позже написаны? По топ-5 приведенных авторов тяжело оценить.

Это интересно.


А была ли мысль просто скормить пары синонимов или просто слов, которые пишутся по-разному из американского и британского английского? Например классические tube и subway, ну или всякие color и colour. Или в процессе выделения признаков эти слова и так всплыли вверх?

Мне интересно было узнать, справится ли алгоритм самостоятельно в выделении таких слов. Слова типа color и colour, а также слова, типичные для Америки и Великобритании, действительно получились с большими весами.
А если добавить канадский и австралийский английский? Сможет ли алгоритм выявлять принадлежность текста без подобных слов?
По отдельным словам — неплохо, но можно пойти намного дальше:

1. Вернуться к токенам. Не переводить слова в нижний регистр, не отлеплять от них пунктуацию. На выходе получим увеличение словаря, разделение имён собственных (как Нью Йорк) и главное — сможем увидеть, с каких слов обычно англичане и американцы фарзу начинают, а какими — заканчивают. Приятно, что это не потребует изменения самой модели.
2. Учитывать n-граммы. Тоже интересно — идиоматические выражения, обороты речи
3. Учитывать контекст. Взять модели спкипграмм, обученные по английским и американским текстам и посмотреть, какие слова встречаются в сильно отличных контекстах (то есть — имеют разный смысл). Это наиболее интересно, как мне думается
Топонимы и имена достаточно важны для классификатора, у самых популярных типа London, Washington, America большие веса. Я без проверки не могу быть уверена, что это будет полезно. Если проверю, от добавлю в статью, спасибо. В полезности выбора именно первого и последнего слова в предложении у меня сомнения.

Я обучала с биграммами, это не улучшило качества алгоритма, но заняло гораздо больше времени. Выявление таких оборотов — отдельная задача, в которой нужно учитывать грамматику языка, применять стемминг и так далее.

Вы описали объем работ на хорошую PhD.
на самом деле тут неделя-две счёта, и пара часов на подготовку. Взять Word2Vec, Glove или аналогичную систему, обучить две модели — одну для американского, другую для британского, и сравнить ассоциированные и взаимозаменяемые слова в обоих вариантах. Можно будет много чего интересного увидеть.

Самая сложная часть работы — подготовка обучающих текстов — уже выполнена.
Такими темпами можно углубиться и до семантики/грамматики языка.

<алаверды>
Видел проект по краудсорсинг-разметке грамматических конструкций английского языка. GameWithWords:Which English
Уже неплохо определяется диалект английского языка, которым вы пользуетесь и родной язык, если вы не носитель.
</алаверды>

Небольшое отступление: вы учитесь или стажируетесь в Калифорнии или просто живёте в Штатах?

Очень интересно, спасибо! Судя по списку авторов, тексты в основном конца 19го-начала 20го века. Интересно, сохранилось ли это различие в современной литературе :)

С современной литературой сложно из-за авторских прав. Возможно, я как-нибудь попробую обучить классификатор на газетных статьях, тем более что есть готовые датасеты.

Мне кажется, с прессой должно быть проще, ведь в каждой стране пресса больше пишет про внутренние дела, чем про внешние. Хотя про Трампа пишут все :)

Имена и топонимы можно удалять, в ситуации с прессой вреда от них больше, чем пользы.

Очень интересное исследование!
Спасибо за статью
Only those users with full accounts are able to leave comments. Log in, please.