Comments / Profile of lightcaster / Habr

@lightcaster

User

ProfileArticles6PostsNewsComments380

Наивный Байесовский классификатор в 25 строк кода

lightcaster May 30 2011 at 10:08

Да, сами формулы несложные. Просто хабр — не математический журнал, и здесь больше популярны практичные статьи.

Look

Наивный Байесовский классификатор в 25 строк кода

lightcaster May 30 2011 at 10:05

Так и сделал :). Разбил на два корпуса. Стандартная, вобщем, практика. names.txt — файлик создавался шафлом по списку женских и мужских имен.

А в чем результат завышен?

Ниже — код для тестирования.

def test(classifier, test_set):
    hits = 0
    for feats, label in test_set:
        if label == classify(classifier, feats):
            hits += 1
    return hits/len(test_set)

def get_features(sample): return (
        'll: %s' % sample[-1],          # get last letter
        'fl: %s' % sample[1],           # get first letter
        'sl: %s' % sample[0],           # get second letter
        )

if __name__ == '__main__':
    samples = (line.decode('utf-8').split() for line in open('names.txt'))
    features = [(get_features(feat), label) for feat, label in samples]
    train_set, test_set = features[:-100], features[-100:]

    classifier = train(train_set)
    print 'Accuracy: ', test(classifier, test_set)

Look

Наивный Байесовский классификатор в 25 строк кода

lightcaster May 30 2011 at 09:45

Да, хорошая книжка. Кое где поверхностно на мой взгляд, но довольно просто все объясняет.
Спасибо, почитаю.

Look

Наивный Байесовский классификатор в 25 строк кода

lightcaster May 30 2011 at 08:58

Не знаю. Я не читал. Там похожий код?

Знаю хорошую реализацию в nltk. Но там посложнее. Я же хотел написать максимально просто и коротко.

Look

Наивный Байесовский классификатор в 25 строк кода

lightcaster May 30 2011 at 07:50

Похоже, я перестарался с теорией :). Длинные формулы режут глаза.

Look

Twitter отказался от 10 миллиардов долларов Google

lightcaster Apr 15 2011 at 07:10

Согласен.
Продадут владельцы компанию, и что дальше? У них один путь — вкладывать и создавать новые компании. Но если эта им нравится, в чем смысл продажи.

Меня всегда такие новости радуют. Потому что из этого следует что ребята любят то, чем занимаются.

Look

Очнитесь, на дворе XXI век

lightcaster Apr 13 2011 at 06:51

Странно. Посмотрите лекции по программированию стенфорда или мит. Будут там и байты и низкоуровневое барахло. И даже, о ужас, будут рассказывать как реализовывать контейнеры. Да, сейчас и память дешевле, и железо лучше. Вот только и информации больше. В некоторых приложениях экономия нескольких бит на структуру может сильно сократить весь объем.

Look

Префиксная оптимизация регулярных выражений на Java

lightcaster Apr 10 2011 at 18:21

У вас детерминированный автомат. Но не минимальный. Вы оптимизируете только префикс.

Сравните для слов word, ward. Ваше дерево будет содержать 8 узлов и 7 ребер (две ветви), в то время как минимальный DFA 5 и 5 (между вторым и третьим состоянием две дуги).

Look

Префиксная оптимизация регулярных выражений на Java

lightcaster Apr 10 2011 at 17:20

Может быть. Тогда, возможно, вам лучше просто построить минимальный DFA.

Look

Префиксная оптимизация регулярных выражений на Java

lightcaster Apr 10 2011 at 17:09

А, похоже я понял к чему вы. Т.е. изначальная задача стоит так: Есть набор слов. Необходимо определить, есть ли набор этих слов (или регэксп) в словаре.
В этом смысле вашу идею понял, интересно. Но думаю, здесь получится некоторое дублирование работы. В момент разбора регулярки словарь построит из нее то же дерево/авомат.

Look

Префиксная оптимизация регулярных выражений на Java

lightcaster Apr 10 2011 at 15:48

Эмм… а чем тогда автомат не нравится?

Look

Нечёткий поиск в тексте и словаре

lightcaster Apr 5 2011 at 07:19

На счет малой эффективности деревьев, откуда такой вывод?

Look

Вы, что ж, и текст за меня печатать будете? Ага!

lightcaster Apr 1 2011 at 09:09

Есть ощущение, что у гугла скопилась хорошая n-грамная статистика. И народ бьется над тем, к чему ж ее применить. Не пропадать же добру :).

Look

Большому адронному коллайдеру – 20 лет

lightcaster Mar 30 2011 at 18:17

Дык это ж Another World! *Смахивая ностальгическую слезу*

Look

PyUNO — быстрое незначительное редактирование xls-отчета из Python

lightcaster Mar 29 2011 at 16:12

Было дело я тоже колдовал с экселем под линукс. Правда, остановился на xlwt и дописал поверх него утилитку для более простого построения. Может будет кому полезно: github.com/lightcaster/xlrep

Look

Как правильно читать объявления в Си

lightcaster Mar 26 2011 at 20:39

ПробОвать, пробОвать, пробОвать! Откуда эта Ы взялась? Статья неплохая, но следите за русским.

Look

Мечта айтишника, или как мы создали девушку-робота

lightcaster Feb 8 2011 at 16:46

Интересно. Скажите, а Nuance дают модель грамматики или корпусы для тренировки (или и то, и другое)? Я сейчас про распознавание.

Look

Мечта айтишника, или как мы создали девушку-робота

lightcaster Feb 8 2011 at 11:02

ПарикмахЕрская… Вам есть куда расти :)