Comments 9
Это Вы из Яндекс.Рефераты скопировали?
? Извольте, сударь, объясниться.
Насыщенность текста специфическими, профессиональными словами, отсутвтие вводной части и ссылок — все это сильно напоминает текст из vesna.yandex.ru/.
Ну вот, текст обновили, а было-то два-три абзаца сухого текста, без пояснений. Неподготовленный текст надо было в черновике держать.
Наверно, да, но переписывать статью наверно уже поздно, лучше предоставлю ссылку на предыдущие части — www.nlp-project.ru/
Кстати странный глюк — тэги «table» и «pre» внутри тэгов «li» не видны (как и их содержимое).
А как была получена цифра 85% — проверяли 1000 слов вручную? Или как-то автоматизировали этот процесс? Поделитесь тестовыми данными?
Хранить все слова в словаре в явном виде (и тем более генерировать незнакомые словоформы для хранения) — идея, конечно, странная. Но было бы интересно сравнить (по качеству) такой предсказатель «на статистике слогов» с предсказателем на префиксах и суффиксах, который используется в том же lemmatizer или pymorphy.
Хранить все слова в словаре в явном виде (и тем более генерировать незнакомые словоформы для хранения) — идея, конечно, странная. Но было бы интересно сравнить (по качеству) такой предсказатель «на статистике слогов» с предсказателем на префиксах и суффиксах, который используется в том же lemmatizer или pymorphy.
Проверить вручную 1000 записей оказалось не так сложно. Заняло это порядка 2-3 часов (почти нечего по сравнению с 3 днями основной работы).
В явном виде хранятся для решения проблем чередования букв в корне при склонениях и подобных проблем.
Но не хочу вводить в заблуждение — ЭТА база используется лишь для хранения оригиналов, простоты редактирования и для облегчения сбора статистики. Для работы морф. модуля строится специальное дерево.
В явном виде хранятся для решения проблем чередования букв в корне при склонениях и подобных проблем.
Но не хочу вводить в заблуждение — ЭТА база используется лишь для хранения оригиналов, простоты редактирования и для облегчения сбора статистики. Для работы морф. модуля строится специальное дерево.
Sign up to leave a comment.
Использование статистических методов для генерации парадигмы по каноническим формам новых слов