Pull to refresh
154
0
Александр Пак @Irokez

User

Обучаем компьютер чувствам (sentiment analysis по-русски)

Reading time 12 min
Views 80K
Python *Algorithms *Natural Language Processing *


Sentiment analysis (по-русски, анализ тональности) — это область компьютерной лингвистики, которая занимается изучением мнений и эмоций в текстовых документах. Недавно на хабре появилась статья про использование машинного обучения для анализа тональности, однако, она была настолько плохо составлена, что я решил написать свою версию. Итак, в этой статье я постараюсь доступно объяснить, что такое анализ тональности, и как реализовать подобную систему для русского языка.
Читать дальше →
Total votes 90: ↑85 and ↓5 +80
Comments 40

Парсим русский язык

Reading time 8 min
Views 69K
Algorithms *Natural Language Processing *

В прошлый раз (почти год назад) мы определяли части речи в русском тексте, производили морфологический анализ слов. В этой статье мы пойдем на уровень выше, к синтаксическому анализу целых предложений.

Наша цель заключается в создании парсера русского языка, т.е. программы, которая на вход бы принимала произвольный текст, а на выходе выдавала бы его синтаксическую структуру. Например, так:

"Мама мыла раму":

(предложение
    (именная гр. (сущ мама))
    (глаг. гр. (глаг мыла)
        (именная гр. (сущ раму)))
    (. .)))


Это называется синтаксическим деревом предложения. В графическом виде его можно представить следующим образом (в упрощенном виде):

Читать дальше →
Total votes 128: ↑124 and ↓4 +120
Comments 97

Определение части речи слов в русском тексте (POS-tagging) на Python 3

Reading time 9 min
Views 90K
Python *Natural Language Processing *
Пусть, дано предложение “Съешьте еще этих мягких французских булок, да выпейте чаю.”, в котором нам нужно определить часть речи для каждого слова:

[('съешьте', 'глаг.'), ('еще', 'нареч.'), ('этих', 'местоим. прил.'), ('мягких', 'прил.'), ('французских', 'прил.'), ('булок', 'сущ.'), ('да', 'союз'), ('выпейте', 'глаг.'), ('чаю', 'сущ.')]

Зачем это нужно? Например, для автоматического определения тегов для блог-поста (для отбора существительных). Морфологическая разметка является одним из первых этапов компьютерного анализа текста.
Узнать, как это реализовать на Python 3
Total votes 82: ↑81 and ↓1 +80
Comments 74

Социальные цели

Reading time 2 min
Views 1.2K
Self Promo
Я уже описывал свой стартап на хабре. 42гола — это простой инструмент для учета личных целей. Мы постепенно развиваемся, медленно, но верно набираем активных пользователей. Яндекс нас пока не покупает, да и гугл почему-то молча стоит в стороне. Наконец, посмотрев “Социальную сеть”, и, затарившись холодного пива в зеленых бутылочках, было принято решение как захватить мир нашим стартапом. Вот что из этого получилось:

Читать дальше →
Total votes 101: ↑87 and ↓14 +73
Comments 85

Новый дизайн 42goals

Reading time 1 min
Views 706
Self Promo
Сложно представить проект, дизайн которого не меняется с момента запуска. Если проект активно развивается, то его дизайн обновляется в течении всей жизни проекта. Сегодня, наконец, обновился 42goals, сервис для учета целей и ежедневных дел (предыдущий хабратопик). Главная сайта выглядит теперь так:

Читать дальше →
Total votes 59: ↑40 and ↓19 +21
Comments 68

Обновления на 42goals: API, учет времени, вкладки, архив целей

Reading time 2 min
Views 771
Self Promo
Около 4 месяцев назад мы запустили 42goals, это онлайн инструмент для учета личных целей. 42goals поможет вам бросить курить, подсчитать сколько кофе вы выпиваете, вести учет тренировок или же простой подсчет расходов. За время, прошедшее со дня запуска, мы добавили несколько нововведений. Пожалуй, одно из главных для вас будет — локализация на русский язык.

Из других обновлений: API, учет времени, вкладки, архив и премиум аккаунты.
Читать дальше →
Total votes 37: ↑30 and ↓7 +23
Comments 30

42goals — учет личных целей и ежедневных дел

Reading time 1 min
Views 1.5K
Self Promo
Интерфейс

Команда Ворктрека рада представить новый проект: 42goals.com. Новый сервис предназначен для учета личных целей и ежедневных дел.

Принцип работы очень прост: вы добавляете список целей и отмечаете достижения по ним. Цели могут на данный момент могут быть трех типов:
  1. «штучные», например: количество выкуренных сигарет, чашек кофе, подходов к штанге
  2. «численные»: дистанция ежедневной пробежки, ваши расходы или доходы
  3. «флажки» (да или нет): ежедневная зарядка (делали или проспали), обновление блога, ежедневная продуктивность (хорошо поработали или нет)

Читать дальше →
Total votes 102: ↑86 and ↓16 +70
Comments 123

Улучшенная мобильная версия

Reading time 1 min
Views 1.2K
GTD *
мобильный Ворктрек
Три месяца назад была анонсирована мобильная версия Ворктрека. Однако, спустя некоторое время опытным путем выяснилось, что пользоваться ей совершенно неудобно. К тому же не хватает функционала для работы со списком дел и событиями. В этот раз мы постарались исправить этот недочет. Итак, представляем улучшенную мобильную версию Ворктрека.
Читать дальше →
Total votes 58: ↑39 and ↓19 +20
Comments 30

Отследить продажу адресов спаммерам

Reading time 1 min
Views 724
Spamming and anti-spamming
Недавно прислали предложение продать базу адресов моего ворктрека (продать я, конечно, отказался). А на микрохабре прочел, что не только мне присылали подобное. То есть, скорее всего, предложение разослали новым сервисам, которые уже набрали своих пользователей. А ведь, кто-то может и согласился.

В связи с этим у меня появилась следующая идея, которая позволит убить двух зайцев:
1. Выявить сайты, сливающие свои базы
2. Надежным сайтам предоставить, что-то вроде «сертификата надёжности»

Идея, собственно простая: создаем уникальные адреса для каждого сайта, например: bob123@example.com и регистрируем его на тестируемом сайте. Далее это дело можно автоматизировать, хранить базу (сайт — зарегистрированный имейл). Как только в ящик пришел спам — все ясно. Если ящик пуст — сайт надёжен.

Для пользователей можно создать простой сайт, куда можно зайти и проверить урл. Далее можно плагин создать для фф, оперы и т.д. Зашел на сайт, в углу зелёная галочка — ага, регаться можно. Красная — закрываем окно :)

Возможно, идея не новая, но подобной реализации я пока не припомню.

UPD: перенес в «Спам (и антиспам)»
Total votes 83: ↑72 and ↓11 +61
Comments 70

Мегапланирование

Reading time 1 min
Views 1K
GTD *
Мегапланирование
В Ворктреке с сегодняшнего дня появилась возможность планирования событий. События можно создавать на один день или на отрезок времени.
Также, можно создавать повторяющиеся события:
  • ежедневные, например, зарядка в 7 утра
  • еженедельные, французский по средам
  • ежемесячные, чистка аквариума в последний понедельник месяца
  • и ежегодные, дни рождения

Читать дальше →
Total votes 64: ↑47 and ↓17 +30
Comments 57

Изображение на каждый день

Reading time 1 min
Views 740
GTD *
image
В недавнем хабратопике была ссылка на интересный сайт Multicolr Search Lab Flickr Set. Сайт позволяет производить поиск по изображениям по цвету, причем достаточно точно. Я решил присоединить результаты выдачи к пинарику, и вот что получилось:
Читать дальше →
Total votes 27: ↑14 and ↓13 +1
Comments 9

Пинарик онлайн. Ответы на вопросы

Reading time 2 min
Views 921
Self Promo
image
Итак, прошло почти два дня с момента запуска "пинарика". У меня уже две зеленые клетки :) а у вас?
Большое спасибо за отзывы, советы и критику. В этом топике постараюсь ответить на полученные комментарии.
Комментариев получил очень много, и еще на почте неотвеченные сообщения. Сразу прошу прощения, кому еще не успел ответить.

Обновления


  1. Пофиксил некоторые баги. У пользователей Оперы регистрация вроде должна работать нормально. Если все же имеются ошибки — пишите.
  2. Для пользователей, не получивших письмо для подтверждения регистрации, сделал возможность повторной отправки письма. Для этого в форме входа и регистрации есть ссылка: «мне не пришло письмо для подтверждения эл. почты :(».
  3. Добавил виджет от reformal.ru для сбора пожеланий. Постараюсь осуществить наиболее требуемые в скором времени.
  4. Добавил возможность очищать ячейку. Теперь у каждой ячейки три состояния, переключающихся друг за другом: пустое -> непродуктивное -> продуктивное -> пустое -> и так далее.

Читать дальше →
Total votes 53: ↑41 and ↓12 +29
Comments 64

Пинарик онлайн

Reading time 1 min
Views 2.9K
Self Promo
=)
В топике "Личный тайм-менеджмент" McBernar рассказал об интересном приеме для самомотивации — «календарик-пинарик». Это календарь, в котором вы каждый день отмечаете, продуктивно ли вы его провели или нет. Таким образом вы можете наглядно видеть вашу продуктивность, и в следствии чего стараться быть более усердным.
Идея мне очень понравилась, т.к. тема мотивации для меня особо проблемная. Поэтому я решил попробовать завести себе свой календарик. Однако, бумажных блокнотов я с собой не ношу. В результате, за небольшое время я оформил идею в виде сайта. Надеюсь, кому-то он тоже поможет для самомотивации.

Завести себе «пинарик»

UPD: в опере, оказывается, баг при регистрации: не отображается сообщение, что нужно проверить/подтвердить почту. Постараюсь поправить в скором времени.
Total votes 108: ↑94 and ↓14 +80
Comments 98
1

Information

Rating
Does not participate
Location
Швейцария
Date of birth
Registered
Activity