Обновить
153
Александр Пак@Irokez

Пользователь

62
Подписчики
Отправить сообщение

Обучаем компьютер чувствам (sentiment analysis по-русски)

Время на прочтение12 мин
Охват и читатели88K


Sentiment analysis (по-русски, анализ тональности) — это область компьютерной лингвистики, которая занимается изучением мнений и эмоций в текстовых документах. Недавно на хабре появилась статья про использование машинного обучения для анализа тональности, однако, она была настолько плохо составлена, что я решил написать свою версию. Итак, в этой статье я постараюсь доступно объяснить, что такое анализ тональности, и как реализовать подобную систему для русского языка.
Читать дальше →

Парсим русский язык

Время на прочтение8 мин
Охват и читатели72K

В прошлый раз (почти год назад) мы определяли части речи в русском тексте, производили морфологический анализ слов. В этой статье мы пойдем на уровень выше, к синтаксическому анализу целых предложений.

Наша цель заключается в создании парсера русского языка, т.е. программы, которая на вход бы принимала произвольный текст, а на выходе выдавала бы его синтаксическую структуру. Например, так:

"Мама мыла раму":

(предложение
    (именная гр. (сущ мама))
    (глаг. гр. (глаг мыла)
        (именная гр. (сущ раму)))
    (. .)))


Это называется синтаксическим деревом предложения. В графическом виде его можно представить следующим образом (в упрощенном виде):

Читать дальше →

Определение части речи слов в русском тексте (POS-tagging) на Python 3

Время на прочтение9 мин
Охват и читатели101K
Пусть, дано предложение “Съешьте еще этих мягких французских булок, да выпейте чаю.”, в котором нам нужно определить часть речи для каждого слова:

[('съешьте', 'глаг.'), ('еще', 'нареч.'), ('этих', 'местоим. прил.'), ('мягких', 'прил.'), ('французских', 'прил.'), ('булок', 'сущ.'), ('да', 'союз'), ('выпейте', 'глаг.'), ('чаю', 'сущ.')]

Зачем это нужно? Например, для автоматического определения тегов для блог-поста (для отбора существительных). Морфологическая разметка является одним из первых этапов компьютерного анализа текста.
Узнать, как это реализовать на Python 3

Социальные цели

Время на прочтение2 мин
Охват и читатели1.5K
Я уже описывал свой стартап на хабре. 42гола — это простой инструмент для учета личных целей. Мы постепенно развиваемся, медленно, но верно набираем активных пользователей. Яндекс нас пока не покупает, да и гугл почему-то молча стоит в стороне. Наконец, посмотрев “Социальную сеть”, и, затарившись холодного пива в зеленых бутылочках, было принято решение как захватить мир нашим стартапом. Вот что из этого получилось:

Читать дальше →

Новый дизайн 42goals

Время на прочтение1 мин
Охват и читатели817
Сложно представить проект, дизайн которого не меняется с момента запуска. Если проект активно развивается, то его дизайн обновляется в течении всей жизни проекта. Сегодня, наконец, обновился 42goals, сервис для учета целей и ежедневных дел (предыдущий хабратопик). Главная сайта выглядит теперь так:

Читать дальше →

Обновления на 42goals: API, учет времени, вкладки, архив целей

Время на прочтение2 мин
Охват и читатели914
Около 4 месяцев назад мы запустили 42goals, это онлайн инструмент для учета личных целей. 42goals поможет вам бросить курить, подсчитать сколько кофе вы выпиваете, вести учет тренировок или же простой подсчет расходов. За время, прошедшее со дня запуска, мы добавили несколько нововведений. Пожалуй, одно из главных для вас будет — локализация на русский язык.

Из других обновлений: API, учет времени, вкладки, архив и премиум аккаунты.
Читать дальше →

42goals — учет личных целей и ежедневных дел

Время на прочтение1 мин
Охват и читатели1.7K
Интерфейс

Команда Ворктрека рада представить новый проект: 42goals.com. Новый сервис предназначен для учета личных целей и ежедневных дел.

Принцип работы очень прост: вы добавляете список целей и отмечаете достижения по ним. Цели могут на данный момент могут быть трех типов:
  1. «штучные», например: количество выкуренных сигарет, чашек кофе, подходов к штанге
  2. «численные»: дистанция ежедневной пробежки, ваши расходы или доходы
  3. «флажки» (да или нет): ежедневная зарядка (делали или проспали), обновление блога, ежедневная продуктивность (хорошо поработали или нет)

Читать дальше →

Это просто праздник какой-то!

Время на прочтение1 мин
Охват и читатели1.1K
2010!
Команда Ворктрека поздравляет всех с наступающими праздниками и желает продуктивного нового года!
А также спешим поделиться обновлениями на сайте.
Читать дальше →

Улучшенная мобильная версия

Время на прочтение1 мин
Охват и читатели1.4K
мобильный Ворктрек
Три месяца назад была анонсирована мобильная версия Ворктрека. Однако, спустя некоторое время опытным путем выяснилось, что пользоваться ей совершенно неудобно. К тому же не хватает функционала для работы со списком дел и событиями. В этот раз мы постарались исправить этот недочет. Итак, представляем улучшенную мобильную версию Ворктрека.
Читать дальше →

Мобильная версия, гуглогаджеты и расписание

Время на прочтение1 мин
Охват и читатели1K
iGoogle gadget
Очередной раз обновился Ворктрек. Из свежих обновлений:
  • Версия для мобильных телефонов
  • Гаджеты для iGoogle и GMail
  • Страница помощи по сайту

Читать дальше →

Вива ла Ворктреколюция!

Время на прочтение1 мин
Охват и читатели765
comics
Ворктреку сегодня три месяца, и мы, наконец, обновили дизайн сайта. У проекта обновился логотип, и интерфейс также претерпел косметические улучшения.
Читать дальше →

Отследить продажу адресов спаммерам

Время на прочтение1 мин
Охват и читатели820
Недавно прислали предложение продать базу адресов моего ворктрека (продать я, конечно, отказался). А на микрохабре прочел, что не только мне присылали подобное. То есть, скорее всего, предложение разослали новым сервисам, которые уже набрали своих пользователей. А ведь, кто-то может и согласился.

В связи с этим у меня появилась следующая идея, которая позволит убить двух зайцев:
1. Выявить сайты, сливающие свои базы
2. Надежным сайтам предоставить, что-то вроде «сертификата надёжности»

Идея, собственно простая: создаем уникальные адреса для каждого сайта, например: bob123@example.com и регистрируем его на тестируемом сайте. Далее это дело можно автоматизировать, хранить базу (сайт — зарегистрированный имейл). Как только в ящик пришел спам — все ясно. Если ящик пуст — сайт надёжен.

Для пользователей можно создать простой сайт, куда можно зайти и проверить урл. Далее можно плагин создать для фф, оперы и т.д. Зашел на сайт, в углу зелёная галочка — ага, регаться можно. Красная — закрываем окно :)

Возможно, идея не новая, но подобной реализации я пока не припомню.

UPD: перенес в «Спам (и антиспам)»

Мегапланирование

Время на прочтение1 мин
Охват и читатели1.2K
Мегапланирование
В Ворктреке с сегодняшнего дня появилась возможность планирования событий. События можно создавать на один день или на отрезок времени.
Также, можно создавать повторяющиеся события:
  • ежедневные, например, зарядка в 7 утра
  • еженедельные, французский по средам
  • ежемесячные, чистка аквариума в последний понедельник месяца
  • и ежегодные, дни рождения

Читать дальше →

Список дел на каждый день

Время на прочтение1 мин
Охват и читатели7.6K
форма составления списка дел
Теперь в пинарике можно составлять список дел на каждый день. Форма для составления списка очень простая, но в тоже время удобная.
Читать дальше →

Изображение на каждый день

Время на прочтение1 мин
Охват и читатели821
image
В недавнем хабратопике была ссылка на интересный сайт Multicolr Search Lab Flickr Set. Сайт позволяет производить поиск по изображениям по цвету, причем достаточно точно. Я решил присоединить результаты выдачи к пинарику, и вот что получилось:
Читать дальше →

Итоги первой недели

Время на прочтение1 мин
Охват и читатели1.1K
image
Итак, за прошедшую неделю хабраюзеры попробовали идею календарика-пинарика. Подведем здесь некоторые итоги.
Читать дальше →

Пинарик онлайн. Ответы на вопросы

Время на прочтение2 мин
Охват и читатели1K
image
Итак, прошло почти два дня с момента запуска "пинарика". У меня уже две зеленые клетки :) а у вас?
Большое спасибо за отзывы, советы и критику. В этом топике постараюсь ответить на полученные комментарии.
Комментариев получил очень много, и еще на почте неотвеченные сообщения. Сразу прошу прощения, кому еще не успел ответить.

Обновления


  1. Пофиксил некоторые баги. У пользователей Оперы регистрация вроде должна работать нормально. Если все же имеются ошибки — пишите.
  2. Для пользователей, не получивших письмо для подтверждения регистрации, сделал возможность повторной отправки письма. Для этого в форме входа и регистрации есть ссылка: «мне не пришло письмо для подтверждения эл. почты :(».
  3. Добавил виджет от reformal.ru для сбора пожеланий. Постараюсь осуществить наиболее требуемые в скором времени.
  4. Добавил возможность очищать ячейку. Теперь у каждой ячейки три состояния, переключающихся друг за другом: пустое -> непродуктивное -> продуктивное -> пустое -> и так далее.

Читать дальше →

Пинарик онлайн

Время на прочтение1 мин
Охват и читатели3.9K
=)
В топике "Личный тайм-менеджмент" McBernar рассказал об интересном приеме для самомотивации — «календарик-пинарик». Это календарь, в котором вы каждый день отмечаете, продуктивно ли вы его провели или нет. Таким образом вы можете наглядно видеть вашу продуктивность, и в следствии чего стараться быть более усердным.
Идея мне очень понравилась, т.к. тема мотивации для меня особо проблемная. Поэтому я решил попробовать завести себе свой календарик. Однако, бумажных блокнотов я с собой не ношу. В результате, за небольшое время я оформил идею в виде сайта. Надеюсь, кому-то он тоже поможет для самомотивации.

Завести себе «пинарик»

UPD: в опере, оказывается, баг при регистрации: не отображается сообщение, что нужно проверить/подтвердить почту. Постараюсь поправить в скором времени.
1

Информация

В рейтинге
Не участвует
Откуда
Швейцария
Дата рождения
Зарегистрирован
Активность