fedor_malyshkin28 окт 2010 в 14:21

Использование статистических методов для генерации парадигмы по каноническим формам новых слов

3 мин

Чулан

Комментарии 9

slimper 28 окт 2010 в 14:26

Это Вы из Яндекс.Рефераты скопировали?

fedor_malyshkin 28 окт 2010 в 14:34

? Извольте, сударь, объясниться.

slimper 28 окт 2010 в 14:38

Насыщенность текста специфическими, профессиональными словами, отсутвтие вводной части и ссылок — все это сильно напоминает текст из vesna.yandex.ru/.

slimper 28 окт 2010 в 14:40

Ну вот, текст обновили, а было-то два-три абзаца сухого текста, без пояснений. Неподготовленный текст надо было в черновике держать.

fedor_malyshkin 28 окт 2010 в 14:45

См. коммент про глюк — отправил оригинальный текст в саппорт.

fedor_malyshkin 28 окт 2010 в 14:41

Наверно, да, но переписывать статью наверно уже поздно, лучше предоставлю ссылку на предыдущие части — www.nlp-project.ru/

fedor_malyshkin 28 окт 2010 в 14:39

Кстати странный глюк — тэги «table» и «pre» внутри тэгов «li» не видны (как и их содержимое).

kmike 28 окт 2010 в 21:30

А как была получена цифра 85% — проверяли 1000 слов вручную? Или как-то автоматизировали этот процесс? Поделитесь тестовыми данными?

Хранить все слова в словаре в явном виде (и тем более генерировать незнакомые словоформы для хранения) — идея, конечно, странная. Но было бы интересно сравнить (по качеству) такой предсказатель «на статистике слогов» с предсказателем на префиксах и суффиксах, который используется в том же lemmatizer или pymorphy.

fedor_malyshkin 29 окт 2010 в 07:01

Проверить вручную 1000 записей оказалось не так сложно. Заняло это порядка 2-3 часов (почти нечего по сравнению с 3 днями основной работы).
В явном виде хранятся для решения проблем чередования букв в корне при склонениях и подобных проблем.
Но не хочу вводить в заблуждение — ЭТА база используется лишь для хранения оригиналов, простоты редактирования и для облегчения сбора статистики. Для работы морф. модуля строится специальное дерево.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий