Комментарии / Профиль lightcaster / Хабр

@lightcaster

Пользователь

ПрофильСтатьи6ПостыНовостиКомментарии380

Один год продаж CRM

lightcaster 27 авг 2010 в 14:45

Были и есть несколько. Но денег с них мы не получаем.

Посмотреть

Один год продаж CRM

lightcaster 27 авг 2010 в 13:18

Спасибо. Согласен, репрезентативности не хватает, работаем над этим.

Посмотреть

Переводчик Google и Волшебная Точка

lightcaster 25 авг 2010 в 07:53

Чет не идет сегодня комменты писать :(, второй пост слился. Все, ушел работать.

Посмотреть

Переводчик Google и Волшебная Точка

lightcaster 25 авг 2010 в 07:53

Вотжжж, текст за html-теги посчитал.

По-моему объяснение этому может быть простое. Точка считается за токен, либо маркирует конец предложение, типа /s.

Последовательности и 'market различны, соответственно мапится будут на различные последовательности другого языка.

ps наврятли они забили на синтаксис, просто у них синтаксический парсер — статистический

Посмотреть

Переводчик Google и Волшебная Точка

lightcaster 25 авг 2010 в 07:50

По-моему объяснение этому может быть простое. Точка считается за токен, либо маркирует конец предложение, типа .

Последовательности и <market различны, соответственно мапится будут на различные последовательности другого языка.

ps наврятли они забили на синтаксис, просто у них синтаксический парсер — статистический

Посмотреть

Компиляция. 1: лексер

lightcaster 15 июл 2010 в 12:25

Спасибо, по этой ссылке есть занятные книжки.

Посмотреть

Компиляция. 1: лексер

lightcaster 15 июл 2010 в 09:39

Автор, статья неплохая, но дайте перварительно общую картину — классы языков. Ту ж иерархию Хомского
К примеру, не очень понятно почему регекспами нельзя обрабатывать вложенность (а если ими нельзя, то чем можно?).

2Nostromo: читал какие-то мгушные лекции, не очень-то понятно. Не могли бы назвать хорошего лектора (по формальным языкам)?

Посмотреть

Project Offset

lightcaster 12 июн 2010 в 19:41

Не знаю как игра, но саудртек к ролику отличный. Loreena McKennitt на высоте.

Посмотреть

Сергей Брин почтил память своего учителя

lightcaster 31 мая 2010 в 10:25

На сколько я помню, он один из соавторов книги «Introduction to Automata Theory, Languages, and Computation». Очень грамотная книга, необходима для понимания computer science.
Жаль.

Посмотреть

Генератор текста на основе триграмм (python)

lightcaster 29 мар 2010 в 12:47

Похоже, основа та же. Наврятли там использовалась какая-либо грамматика на правилах.
Но текст относительно «чистый» получается. Скорее всего там еще какие-то хитрые алгоритмы поверх идут.

ps но могу и ошибаться

Посмотреть

Генератор текста на основе триграмм (python)

lightcaster 29 мар 2010 в 12:44

Да, смотрел. Но nltk здесь — как из пушки по воробьям. В данном случае даже морфология не используется — обычная тренировка на корпусе (даже без сглаживания) и подбор слов по вероятности. Может быть, через время напишу «правильный генератор», где буду использовать и морфологию, и синтаксис и, возможно, какие-то элементы семантики.

Посмотреть

Генератор текста на основе триграмм (python)

lightcaster 26 мар 2010 в 13:57

Эм… да, алгоритм простой. Висел в личном блоге, получил пару сообщений с рекомендацией перенести сюда. Вот и перенес :).

Посмотреть

Генератор текста на основе триграмм (python)

lightcaster 25 мар 2010 в 16:41

Может быть обрисуете как вы видите этот модуль, желательно по почте ( at gmail.com)? Может быть что-то придумаем.

Вообще, я как-то писал морфологический анализатор, так же на основе словаря аот. Но в основе у меня лежал трансдьюсер (finite state transducer), базу не использовал. У этого подхода есть плюсы, но есть и минусы. Если интересно — могу подробней по почте.

Посмотреть

Генератор текста на основе триграмм (python)

lightcaster 25 мар 2010 в 16:36

Вы правы. Рад что внимательно смотрите код :). Сумма тут всегда равна 1. Похоже я взял этот метод из своего кода, который допускает любое значение частоты.
Здесь же можно использовать просто рандом.

Надо сказать, писал я этот код больше года назад. Сейчас вижу, что функция unirand могла бы быть более прозрачна.

Посмотреть

Генератор текста на основе триграмм (python)

lightcaster 25 мар 2010 в 10:48

Писал все это на 2.5.
Но дело похоже в другом: когда «красил» код, похоже, некоторые символы пропали. На этом месте должны были стоять нули:

def unirand(seq):
sum_, freq_ = 0, 0
for item, freq in seq:
sum_ += freq
rnd = uniform(0, sum_)
for token, freq in seq:
freq_ += freq
if rnd < freq_:
return token

Ту же статью можно глянуть тут: linguis.ru/art/trigram, там корректно.

Кстати, может кто знает, как раскрасить питоновский код на хабре? Встроенными средствами у меня не получилось.

Посмотреть

Генератор текста на основе триграмм (python)

lightcaster 25 мар 2010 в 10:41

Вобщем, да. Цепь маркова, сеть Байеса, как угодно.
Лично мне проще воспринимать подобные модели просто как направленный взвешенный граф, где дуги маркированны вероятностями перехода на следующее состояние.

Посмотреть

Генератор текста на основе триграмм (python)

lightcaster 24 мар 2010 в 20:01

А на счет ruscorpora.ru, я честно говоря не понимаю смысл проекта. Почему бы не открыть корпус, если таковой имеется. Тем более называется национальным и создается на государственные деньги.

Посмотреть

Генератор текста на основе триграмм (python)

lightcaster 24 мар 2010 в 19:56

Думаю, снятие неоднозначности не очень подходит для уровня морфологии. Это что-то ближе к синтаксическому анализу, где может уйти большая часть омонимии. К примеру — «краска стекла по стене» и «в машине нет лобового стекла». Здесь выбор виден из контекста. То есть если писать дизамбигуатор только на основе n-граммной статистики, то он будет неточный и очень сильно зависимый от корпуса.

Вообще, мне не лень его написать :), но я на вскидку не вижу чем этот модуль будет полезен.

Посмотреть

Генератор текста на основе триграмм (python)

lightcaster 24 мар 2010 в 19:31

Спасибо )

Посмотреть

Генератор текста на основе триграмм (python)

lightcaster 24 мар 2010 в 15:50

Может быть. Я слабо знаком с поисковой оптимизацией. Но есть вероятность что они будут рассматриваться как дубли, так как текст становиться ооочень похож на исходный. В этом случае нужно использовать разные корпуса по разным тематикам.

Посмотреть

1 2 ...

17 18