Comments / Profile of kzn / Habr

Насколько я помню было два варианта настройки: кошерный, но сложный, и простой. Сложный — получать эхи как ньюсгруппы. А можно было настроить стандартный набор мейлер+тоссер+голдед.

Look

Mathlingvo — блог о компьютерной лингвистике

kzn Apr 22 2013 at 12:21

Быстрее всего спросить у непосредственных разработчиков корпуса: Лаборатории компьютерной лингвистики ИППИ РАН

Look

Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #1)

kzn Mar 27 2013 at 05:56

Начинали они скорее всего с BM25

Look

Обработка естественных языков: недостающий инструмент

kzn Feb 26 2013 at 06:54

В комментариях к оригинальной статье есть ответы на многие вопросы.

Например то, что задача сложная. Что примеры восновном на генерацию текста, а не на анализ.

ОЕЯ обладает большой сложностью. И модели там тоже сложные. Вот скажем банальная задача приведения к нормальной форме. Она сложная. Скажем банальное «мама мыла раму» как приводить слово «мыла»?

Какие времена глагола есть в русском языке? Сколько их? «делаю» и «сделаю» — это одно и то же время? А почему?
Сколько падежей в русском языке? В школе учат, что 6. А в каком падеже Маша в предложении «Маш, послушай меня»? А «Он из лесу вышел» в каком падеже стоит слово «лес»?

Или вот пример с грамматикой зависимостей. Достаточно сходит на НКРЯ и прочитать, какие типы и виды зависимостей бывают. СинТагРус — корпус с размеченными зависимостями создается высококвалифицированными лингвистами, в то же время он за год пополняется примерно на 5-8 тыс. предложений. При том, что над ним постоянно работают 3-4 человека. Почему так медленно?

Look

Что плохого в работе на результат

kzn Dec 30 2012 at 22:29

Все герои напоминают анекдот «что тут думать, тут прыгать надо!».

В случае Павла и Андрей обоим прежде чем делать, надо было бы подумать о том а) что делать, б) с какой целью.

Конечно, если предполагается поддерживать решение, то надо делать правильно, пусть и с бОльшими затратами на первоначальном этапе.

А если нет? Если эта задача одноразовая? Зачем тратить на задачу больше ресурсов, чем необходимо? А часто для таких одноразовых задач самое простое решение — решение в лоб, на коленке.

Look

Принудительно внедряем Helpdesk: опыт «Корпорации Зла»

kzn Dec 23 2012 at 11:23

Легко читать. Многое знакомо.

Вообще прекрасная иллюстрация трудностей, которые возникают при решении организационных проблем техническими средствами.

Look

NLPub — каталог лингвистических решений

kzn Oct 1 2012 at 06:25

Для синтаксического анализа есть еще MSTParser

Look

Определение части речи слова на PHP одной функцией

kzn Sep 27 2012 at 05:46

То, что вы делаете называется POS tagger.

Вы предлагаете фактически правиловый подход к идентификации части речи. Логичным следующим шагом будет тот же правиловый подход для разрешения неоднозначности вроде «Мама мыла раму», где «мыла» — что глагол? существительное?

Лучше посмотреть на современные исследования в этой области.

Look

Раритетный моноблок Compaq Presario 3020

kzn Sep 24 2012 at 07:28

ОП про год написал, не я :-)

Быть он вполне мог — usb 1.0, судя по википедии, был разработан как раз в начале 96го.

Реально он был бесполезен, конечно.

Look

Раритетный моноблок Compaq Presario 3020

kzn Sep 23 2012 at 07:21

Судя по характеристикам это был весьма дорогой девайс для 1996 года.

Look

Библиотека Конгресса продолжает попытки архивировать все твиты за 2006-2012 годы

kzn Jul 22 2012 at 16:42

Как пример — на этом материале можно изучать лингвистические явления. Например — как изменяется употребление различных слов. Или ретроспективный анализ реакции в твиттере на события.

Это же отдельный жанр текстов — твиты.

Look

Парсим русский язык

kzn Jul 20 2012 at 11:42

Спасибо :)

Look

Парсим русский язык

kzn Jul 20 2012 at 10:56

Спасибо. Буду иметь в виду. Я начинал делать преобразование AOT -> ЭТАП (СинТагРус).
Как будет свободное время, попробую сделать это для russian-tagsets. Я просто на Java пишу :)
Собственно, компилятор словарей АОТ и построение минимального КА есть у меня на гитхабе :)

Look

Парсим русский язык

kzn Jul 20 2012 at 10:50

Спасибо за пояснения. А как конвертировлись НКРЯ -> СинТагРус? Это же ведь было нужно для обучения?

Тут еще вопрос — формат НКРЯ это формат снятника(части, в которой снята морф. омонимия), или формат СинТагРуса?

Look

Парсим русский язык

kzn Jul 20 2012 at 10:12

Кстати. Немного офтопика. Вы на Диалоге рассказывали про анализ тональности. В частности, был конвеер обучение POS-теггера на снятнике НКРЯ и maltparser на СинТагРусе. Как конвертировались морф. признаки? Как в вашем Pyrus? Т.е. простое 1:1 соответствие?

Была ли еще привязка к АОТ?

Look

Парсим русский язык

kzn Jul 20 2012 at 08:30

Да, но я вот не помню, морф. данные считались атомарным тегом или составным.

Look

1 2 3 4

6 7 ...

11 12