Pull to refresh
11
13
Subscribers
Send message
Спасибо за развернутый ответ. Не понятно, почему особняком стоят островные государства (почему, скажем, не «на Великобритании»?) и как это связано с грамматическими традициями русского языка.
Однако, вот что пишет грамота.ру
Однако литературная норма русского языка, согласно которой следует говорить и писать на Украине, – результат исторического развития языка на протяжении нескольких столетий. Сочетаемость предлогов в и на с определенными словами объясняется исключительно традицией. Ср.: в школе, в институте, в аптеке, в отделе, но: на заводе, на почте, на курорте, на складе и т. д. Литературная норма не может измениться в одночасье из-за каких-либо политических процессов.
Аналогичная ситуация, например, со словом «Русь»: «на Руси не будут блокировать...», но не в. Падежное управление в данном случае может изменяться.
ознакомиться, к сожалению, не могу:
www.u-kraina.com не найден из-за ошибки поиска DNS
Единственное, чего не понял: почему «В Украине»? Вроде пост на русском языке.
Согласен, метод не быстрый, но, наряду с DLA, позволяет решать задачи, которые не могут решить другие алгоритмы.
В следующих частях хотелось бы подробнее остановиться на технических деталях, объяснить принцип работы алгоритма и рассказать, как его реализовать.
Согласен, тематику нужно определять автоматически. Не сказал бы, это простая задача: легко кластеризовать тематику кулинария, и, скажем, автомобили, но кластеризовать поток новостей, например, на 30-50 тематик с точностью хотя бы 85-90% — задача не из легких.

Если мы говорим про контекстную зависимость, например, подключаем н-граммы, то это уже не только синтаксис, а и примитивная семантика. Да, так будет работать, даже с неплохой точностью, но не очень хорошим покрытием. Использование синтаксиса в чистом виде для языков грамматического типа, как нами употребляемый, мало что даст.

И главное, это зависит от решаемой задачи: искать синонимы, пополнять тезаурусы — это да, есть методы и попроще. ЛСА — это не метод классификации или кластеризации (ибо тяжеловат он для этого). Его используют, когда нужно получить меру ассоциативной близости двух разнородных лексически, но однородных семантичеки документов, например. Или построить ассоциативно-семантичесукую сеть.
Сообщения, содержащие подобные друг-другу слова на аналогичных синтаксических позициях — говорят об одном и том-же. То есть, имеют близкий смысл.

— это, разумеется, неверно.

Для того, чтобы различать «батарейку» и «аккумулятор» в разных тематиках можно:
1) строить тематические модели, т.е. на каждую тему своя модель;
2) построить одну модель, но в качестве документа при преобразовании использовать тематически однородный материал.
12 ...
9

Information

Rating
Does not participate
Registered
Activity

Specialization

ML разработчик
Ведущий
Git
Python
Linux
Docker
Английский язык
C++
Visual Studio