Как стать автором
Обновить

Программа анализирует неологизмы в Википедии

Время на прочтение2 мин
Количество просмотров1.1K
Компьютерная программа под названием Zeitgeist, созданная учеными из Ирландии, была представлена на Европейской конференции по искусственному интеллекту несколько дней назад.

Программа ищет в Википедии такие слова, которых нет в официальном лингвистическом справочнике WordNet. База WordNet считается эталонной в том смысле, что именно она обычно применяется в компьютерных системах для автоматического анализа смысла текстов. Данные системы активно используются маркетологами и специалистами по нейро-лингвистическому программированию (НЛП).

Вспомогательная утилита Zeitgeist находит неологизмы, то есть новые слова, которые только что появились в человеческом языке. Они могут быть довольно широко распространены по блогосфере и могут даже присутствовать в Википедии, но не считаются официальной лексикой. Тем не менее, для работы лингвистических программ, которые анализируют блогосферу, нужно иметь их приблизительное значение. Эту проблему решает Zeitgeist.

Когда программа натыкается на неологизм в Википедии, она исследует ссылки с этой страницы, чтобы найти ключевые слова для описания неологизма. Программа не читает документы по этим ссылкам, а берет только их названия. Например, в статье «гастропаб» (неологизм; паб, который специализируется на кулинарии) есть ссылки на статьи «паб» и «кулинария», и это дает ключ к пониманию слова.

По мнению разработчиков Zeitgeist, ссылочная структура Википедии отражает взаимосвязи между различными понятиями, идеями. К сожалению, люди имеют склонность расставлять ссылки где попало. Чтобы это не помешало работе алгоритмов, программа Zeitgeist фильтрует безответные ссылки. Если документ по ссылке не ссылается обратно на страницу с неологизмом, то этот документ игнорируется.

Правда, работа программы не всегда бывает корректной. Например, в статье про «феминацисток» (женщины, которые ненавидят мужчин) есть ссылки на феминизм и нацизм, но ведь феминацистки не имеют ничего общего с доктриной национал-социолизма. В этом случае программа может дать сбой. Но такое случается довольно редко. В 75% случаев Zeitgeist работает достаточно надежно, чтобы составить корректную коннотацию для того или иного неологизма.

Многие коммерческие компании заинтересованы в данной технологии, потому что они хотят получать актуальные и достоверные отчеты о том, что люди пишут об их продуктах в блогах и форумах. В этих текстах встречается очень много сленговых словечек и неологизмов. Живой язык изменяется очень быстро, а лингвистические базы обновляются с опозданием. Таким образом, Википедия — идеальный источник информации для компьютерных лингвистов, даже несмотря на то, что использование неологизмов официально запрещено правилами народной энциклопедии.
Теги:
Хабы:
Рейтинг0
Комментарии0

Публикации

Истории

Ближайшие события

19 марта – 28 апреля
Экспедиция «Рэйдикс»
Нижний НовгородЕкатеринбургНовосибирскВладивостокИжевскКазаньТюменьУфаИркутскЧелябинскСамараХабаровскКрасноярскОмск
24 апреля
VK Go Meetup 2025
Санкт-ПетербургОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань
14 мая
LinkMeetup
Москва
5 июня
Конференция TechRec AI&HR 2025
МоскваОнлайн
20 – 22 июня
Летняя айти-тусовка Summer Merge
Ульяновская область