С морфологическим анализом есть несколько тонкостей:
1. Неявно присутствует шаг нормализации текста. — Что считать словом и т.д.
2. У Вас м.а. основан на словарях (и в общем-то это правильно), и следовательно, качество м.а. зависит от словаря.
3. Сам по себе анализ слова — не такая сложная вещь. Гораздо сложнее тонкости вида анализа аббревиатур, сложных слов вроде автошкола или бетономешалка(в зависимости от словарей это одно или два слова), а так же проверка корректности вариантов разборов.
Ну и для хранения словарей намного эффективнее использовать DAWG(directed acyclic word graph), ну или если лень писать, то trie. 150M для морфологии — это черезчур :)
И да, и нет. Большинство дискетами уже не пользуются, но:
1. контроллеры к XP/2k3 цепляются только с дискет.
2. их активно использует бухгалтерия для отчетов. cd-диски и флешки не принимаются.
Я мошу ошибаться, но со стандартами не все так просто. По-крайней мере, некоторое время назад, текст стандарта кажется то ли С++, то ли POSIX стоили денег.
Про другие стандарты IEEE такое же было.
С морфологическим анализом есть несколько тонкостей:
1. Неявно присутствует шаг нормализации текста. — Что считать словом и т.д.
2. У Вас м.а. основан на словарях (и в общем-то это правильно), и следовательно, качество м.а. зависит от словаря.
3. Сам по себе анализ слова — не такая сложная вещь. Гораздо сложнее тонкости вида анализа аббревиатур, сложных слов вроде автошкола или бетономешалка(в зависимости от словарей это одно или два слова), а так же проверка корректности вариантов разборов.
Ну и для хранения словарей намного эффективнее использовать DAWG(directed acyclic word graph), ну или если лень писать, то trie. 150M для морфологии — это черезчур :)
На таких условиях имхо только после школы или 1го/2го курса найти.
Дискеты продавались по 10 штук в такой коробочке :)
А когда есть новый сервер, диск и спец. дрова, то быстрее/проще дискетку..
1. контроллеры к XP/2k3 цепляются только с дискет.
2. их активно использует бухгалтерия для отчетов. cd-диски и флешки не принимаются.
Так что рано совсем списывать такое понятие.
Про другие стандарты IEEE такое же было.
Только, по-моему, было бы правильней в некоторых местах переводить "student" не как "студент", а как "учащийся" или "ученик".
А так все правильно :-)
Хоть и узнаю знакомые жизненные пункты..