Подбор признаков и проблема переобучения делают использование ИНС не таким уж эффективным. Если интересно обсудить вопросы автоматической обработки текста, то заходите к нам на NLPub или просто напишите мне :)
Если быть совсем строгим и скучным, то можно сказать, что снятие неоднозначности не входит в задачу морфологического анализа. Разумеется, такой ответ никого не интересует.
Вообще, для этого стоит использовать таггеры, которые учитывают совместное расположение слов. Например, на основе деревьев решений (TreeTagger) или скрытых марковских моделей (TnT). Обратите внимание, что их лицензии совсем не являются свободными. Принципы работы и данные для обучения этих анализаторов сильно отличаются от pymorphy2.
Возможно, в вашей задаче можно обойтись простым согласованием именных групп. Эвристика проста: если у вас имеются пары прилагательных и существительных, согласующихся по числу, роду, падежу, то отбросьте остальные варианты их разбора.
Научный интерес не способен охватить вопросы предпочтений, иначе жизнь была бы сильно проще и лучше.
Лично мне очень не нравятся отступы и ряд других традиций в Python, вроде стиля именования приватных методов. Недавно видел, что Django ругают за то, что к нему сложно прикрутить поддержку нереляционных хранилищ и всякие CKEditor (не проверял эту информацию).
Ruby решает поставленные задачи, и решает их очень хорошо. Я говорю в первую очередь не о Web-разработке. Предлагаю закрыть тему, иначе начнётся ад и мусор.
Если говорить по делу, то деваться особо некуда. Работать надо, а проблемы огребать желания нет.
Не совсем понимаю, почему дополнительная финансовая нагрузка приходится именно на ИП, ведь для многих предпринимателей эти отчисления имеют заметную долю в обороте. Есть ведь организации, которые не заметят никакого повышения выплат в ПФР.
Так или иначе, придётся либо усерднее фигачить, либо привлекать тупые дешёвые деньги, которые вместо полезной работы окажутся слиты на налоги.
Я один не верю, что к моей пенсии фонд окажется способен выплатить мне эти деньги?
Добавил TextMF в каталог NLPub. Пожалуйста, проверьте корректность указания сведений.
Есть несколько вопросов-пожеланий.
Во-первых, почему именно Bitbucket, а не GitHub? Последний гораздо удобнее и популярнее. Во-вторых, под какой лицензией распространяется TextMF? Не обнаружил такой информации. В-третьих, имеется ли возможность её использования в сторонних приложениях? В-четвёртых, у вас в репозитории слишком много автогенерируемых файлов, логов, и внешних jar-файлов, которые вполне можно исключить средствами используемой SCM. В-пятых, почему бы не использовать Maven вместо Ant? Он гораздо более лучше™ одевается. В-шестых, мне кажется, что более правильно писать Topic Detection, чем Theme Searching. В-седьмых, вы можете привязать страницу вашего репозитория на Bitbucket к имеющемуся домену. Разумеется, на GitHub вы можете сделать так же.
Поздравляю с привлечением финансирования и желаю успехов в развитии продукта!
Респект таким парням, даже с недоступным корпусом русского языка они не забывают о лингвистике, у них есть цель в жизни, они не опустили руки, а вы сидите за компьютерами и бессмысленно проводите свою жизнь…
Вообще, для этого стоит использовать таггеры, которые учитывают совместное расположение слов. Например, на основе деревьев решений (TreeTagger) или скрытых марковских моделей (TnT). Обратите внимание, что их лицензии совсем не являются свободными. Принципы работы и данные для обучения этих анализаторов сильно отличаются от pymorphy2.
Возможно, в вашей задаче можно обойтись простым согласованием именных групп. Эвристика проста: если у вас имеются пары прилагательных и существительных, согласующихся по числу, роду, падежу, то отбросьте остальные варианты их разбора.
Лично мне очень не нравятся отступы и ряд других традиций в Python, вроде стиля именования приватных методов. Недавно видел, что Django ругают за то, что к нему сложно прикрутить поддержку нереляционных хранилищ и всякие CKEditor (не проверял эту информацию).
Ruby решает поставленные задачи, и решает их очень хорошо. Я говорю в первую очередь не о Web-разработке. Предлагаю закрыть тему, иначе начнётся ад и мусор.
Не совсем понимаю, почему дополнительная финансовая нагрузка приходится именно на ИП, ведь для многих предпринимателей эти отчисления имеют заметную долю в обороте. Есть ведь организации, которые не заметят никакого повышения выплат в ПФР.
Так или иначе, придётся либо усерднее фигачить, либо привлекать тупые дешёвые деньги, которые вместо полезной работы окажутся слиты на налоги.
Я один не верю, что к моей пенсии фонд окажется способен выплатить мне эти деньги?
Мы используем oVirt, лежащий в основе RHEV. Замечательно работает и CentOS, и Scientific Linux.
Есть несколько вопросов-пожеланий.
Во-первых, почему именно Bitbucket, а не GitHub? Последний гораздо удобнее и популярнее. Во-вторых, под какой лицензией распространяется TextMF? Не обнаружил такой информации. В-третьих, имеется ли возможность её использования в сторонних приложениях? В-четвёртых, у вас в репозитории слишком много автогенерируемых файлов, логов, и внешних jar-файлов, которые вполне можно исключить средствами используемой SCM. В-пятых, почему бы не использовать Maven вместо Ant? Он гораздо более лучше™ одевается. В-шестых, мне кажется, что более правильно писать Topic Detection, чем Theme Searching. В-седьмых, вы можете привязать страницу вашего репозитория на Bitbucket к имеющемуся домену. Разумеется, на GitHub вы можете сделать так же.
Поздравляю с привлечением финансирования и желаю успехов в развитии продукта!
Кстати, вечером добавил отдельную статью OpenCorpora на NLPub. Если есть неточности — прошу вас, исправьте :)
— I – am not – a – machi –
— Sticks and stones.