Comments / Profile of elingur / Habr

User

Subscribers

elingur Aug 9 2014 at 07:59

Спасибо за развернутый ответ. Не понятно, почему особняком стоят островные государства (почему, скажем, не «на Великобритании»?) и как это связано с грамматическими традициями русского языка.
Однако, вот что пишет грамота.ру
Однако литературная норма русского языка, согласно которой следует говорить и писать на Украине, – результат исторического развития языка на протяжении нескольких столетий. Сочетаемость предлогов в и на с определенными словами объясняется исключительно традицией. Ср.: в школе, в институте, в аптеке, в отделе, но: на заводе, на почте, на курорте, на складе и т. д. Литературная норма не может измениться в одночасье из-за каких-либо политических процессов.
Аналогичная ситуация, например, со словом «Русь»: «на Руси не будут блокировать...», но не в. Падежное управление в данном случае может изменяться.

В Украине не будут блокировать сайты?

elingur Aug 9 2014 at 06:05

ознакомиться, к сожалению, не могу:
www.u-kraina.com не найден из-за ошибки поиска DNS

В Украине не будут блокировать сайты?

elingur Aug 9 2014 at 05:45

Единственное, чего не понял: почему «В Украине»? Вроде пост на русском языке.

-14

Латентно-семантический анализ и искусственный интеллект (ЛСА и ИИ)

elingur Jul 22 2014 at 07:12

Согласен, метод не быстрый, но, наряду с DLA, позволяет решать задачи, которые не могут решить другие алгоритмы.
В следующих частях хотелось бы подробнее остановиться на технических деталях, объяснить принцип работы алгоритма и рассказать, как его реализовать.

Латентно-семантический анализ и искусственный интеллект (ЛСА и ИИ)

elingur Jul 18 2014 at 09:14

Согласен, тематику нужно определять автоматически. Не сказал бы, это простая задача: легко кластеризовать тематику кулинария, и, скажем, автомобили, но кластеризовать поток новостей, например, на 30-50 тематик с точностью хотя бы 85-90% — задача не из легких.

Если мы говорим про контекстную зависимость, например, подключаем н-граммы, то это уже не только синтаксис, а и примитивная семантика. Да, так будет работать, даже с неплохой точностью, но не очень хорошим покрытием. Использование синтаксиса в чистом виде для языков грамматического типа, как нами употребляемый, мало что даст.

И главное, это зависит от решаемой задачи: искать синонимы, пополнять тезаурусы — это да, есть методы и попроще. ЛСА — это не метод классификации или кластеризации (ибо тяжеловат он для этого). Его используют, когда нужно получить меру ассоциативной близости двух разнородных лексически, но однородных семантичеки документов, например. Или построить ассоциативно-семантичесукую сеть.

Латентно-семантический анализ и искусственный интеллект (ЛСА и ИИ)

elingur Jul 17 2014 at 10:08

Сообщения, содержащие подобные друг-другу слова на аналогичных синтаксических позициях — говорят об одном и том-же. То есть, имеют близкий смысл.

— это, разумеется, неверно.

Для того, чтобы различать «батарейку» и «аккумулятор» в разных тематиках можно:
1) строить тематические модели, т.е. на каждую тему своя модель;
2) построить одну модель, но в качестве документа при преобразовании использовать тематически однородный материал.

-1

1 2 ...

7 8

Information

Specialization