Comments / Profile of lightcaster / Habr

User

ProfileArticles6PostsNewsComments380

Моноиды и их приложения: моноидальные вычисления в деревьях

lightcaster Jan 24 2011 at 12:53

Хорошая статья. В этой статье habrahabr.ru/blogs/algorithm/105450/ я использовал похожий подход.
Но в основе были полукольца. А точнее, конечные автоматы на тропическом и вероятностном полукольцах. В статье об этом не написано, т.к. не решился писать про кольца, моноиды и т.п. Но математика работает красиво.

0

Открытое письмо ученым и эталонная реализация алгоритма Романова для NP-полной задачи 3-ВЫП

lightcaster Jan 20 2011 at 08:59

Входит.

0

Жизнь в поисковых запросах: немного о связи между «свадьбой» и «платьем»

lightcaster Dec 20 2010 at 17:12

Нада полагать, просто co-occurrence считали? Или что-то похитрее типа PMI/SOC-PMI?

0

Латентно-семантический анализ

lightcaster Dec 20 2010 at 08:46

… с большим набором терминов… — имел ввиду измерения.

0

Латентно-семантический анализ

lightcaster Dec 20 2010 at 08:42

> В нашем случае тексты были примерно одной и той же длины, в реальных ситуациях частотную матрицу > следует нормализовать. Стандартный способ нормализации матрицы TF-IDF

TF-IDF не столько способ нормализации, сколько способ выделить наиболее значимые в рамках документа слова. Он максимален, если термин часто встречается в документе, и редко — во всем наборе документов.

В остальном хорошая статья на правильную тему.

ps кстати, не в курсе как работать с большим набором терминов? Обычно это проблема для LSA.

0

Сортировка массива за O(N) на CUDA

lightcaster Dec 17 2010 at 17:28

Да я вас понял. Просто понятие имеет в особое значение.

А что касается «пренебречь» — то тут согласиться не могу. Сложность алгоритмов вещь злобная. К примеру, если мы решаем задачу коммивояжера с операцией в одну микросекунду (10^(-6)), то для поиска по n городам нам потребуется:
10 — 0,001 секунда
30 — 1073 секунды
50 — 1125899906.8426239 секунд или около 35 лет

Вроде данных и не много, но O(2^n) это тяжело. Тут хоть какие ресурсы бери, все равно сольем. А на счет криптографии: ломать то можно. Но часто это дороже, чем то ради чего ломаешь.

+1

Сортировка массива за O(N) на CUDA

lightcaster Dec 17 2010 at 16:29

Хороший пост. Но будьте осторожны с заявлениями О(n).
Это предполагает, что n любым (больше определенной константы).
Само собой для бесконечного n вы не наберете процессоров.

Извините за придирку, но это важно.
Так и задачу коммивояжера за линейное время можно решить :).

+2

NLP: проверка правописания — взгляд изнутри (часть 4)

lightcaster Dec 6 2010 at 12:33

Рад, что корпус ошибок помог :)

Как-то в твиттере проскакивал парсер: github.com/wavii/pfp

Как я понял, это реализация стенфордского парсера на плюсах. Точно не уверен, поддерживает ли он Dependency Grammar. Возможно, поддержка есть. Хвалятся скоростью.

0

Groupon отклонил предложение Google

lightcaster Dec 5 2010 at 10:56

А фейсбук много приносит?
Если создатели верят в перспективу и хотят сохранить контроль, пусть так и будет. К тому же не бизнес не всегда создается ради продажи. Иногда он просто интересен сам по себе.

0

NLP: проверка правописания — взгляд изнутри (часть 3)

lightcaster Nov 29 2010 at 18:44

Да есть, конечно. Смотрите личку.

+1

NLP: проверка правописания — взгляд изнутри (часть 3)

lightcaster Nov 29 2010 at 17:39

Я не видел реально работающих. Самому интересно.

Я видел демки систем. Одна из них — бронирование авиабилетов, другая — справочник по городу. На входе — речь. На выходе — купленный билет или справка.
Но в живую и в реальности я таких фокусов не видел. Может быть, где-то все же есть.

Если интересует как это все может работать и на сколько сложно — гляньте книжку Artificial Intelligence: A Modern Approach. Там довольно подробно обсуждаются проблемы и решения в этой теме.

ps искусственный интеллект это и есть математика )

0

NLP: проверка правописания — взгляд изнутри (часть 3)

lightcaster Nov 29 2010 at 17:13

Обычно, это не мат. моделью называется.
Лингвисты выделяют отдельные ступени, и задействуют их при решении каких-то задач.

К примеру, для поиска синонимов обычно достаточно почистить текст и заюзать морфологию.
Для вытаскивания фактов точно понадобится синтаксис.
А для вашей задачи — полный набор: морфология, синтаксис, семантика, прагматика + спелл-чекер в придачу.

Да, и еще задачу сильного АИ решить, чтоб перед записью уточнил, что за розовую флешку вы имели ввиду :)

Вобщем, сложно это. Сейчас решаются только сильно ограниченные задачи, да и то с ограничениями :).

0

NLP: проверка правописания — взгляд изнутри (часть 3)

lightcaster Nov 29 2010 at 17:06

Ога, всего 673 строк.

0

NLP: проверка правописания — взгляд изнутри (часть 3)

lightcaster Nov 29 2010 at 15:55

Я находил один для английского: www.dcs.bbk.ac.uk/~jenny/Downloads/CorpusFiles.zip

Правда, там маловато ошибок.
А в целом, да хороших юзабельных корпусов ошибок на связных текстах не встречал.

0

NLP: проверка правописания — взгляд изнутри (часть 3)

lightcaster Nov 29 2010 at 15:21

Не так много, как я думал, но все же.
Я к тому, может, как то статистически это отработать. Идей как это сделать нет, но есть ощущение, что можно. Через тот же machine learning/svm.

0

NLP: проверка правописания — взгляд изнутри (часть 3)

lightcaster Nov 29 2010 at 15:19

Гулять в лесу.
Коль, подойди.
Ждать у моря погоды.
Подался в лингвисты.

0

NLP: проверка правописания — взгляд изнутри (часть 3)

lightcaster Nov 29 2010 at 14:14

Хорошая статья, спасибо.
На счет правил в LanguageTool. Скажите, а сколько их там? Есть ощущение, что их много, и писать их и поддреживать не так просто.

0

Незаметная смерть распознавания речи

lightcaster Oct 16 2010 at 19:13

Бррр. Столько мнений.
К оригиналу статьи идут довольно грамотные комментарии специалистов. В статье похоже сделали некорректные выводы. К примеру, системы голосовых команд оценивались на тестах для распознавания связной речи. Получались грустные результаты. Но ведь эти системы и не предназначены для этого.

Так что все далеко не так плохо.

0

Взлет с карьерного плато (видео)

lightcaster Oct 15 2010 at 16:15

Зашел в коменты с целью написать то же самое :).
Уже пять лет слышу это слово и все никак не могу привыкнуть.

0

«Третьим будешь?!» (с) Афоня или шахматы на ТРОИХ

lightcaster Oct 12 2010 at 16:06

Забавные шахматы, и забавный способ со мной связаться ). Ну чтож, давайте обсудим.

0

1 2 ...

16