Search
Write a publication
Pull to refresh
42
0
Владимир Павлов @yajon

User

Send message

NLP: проверка правописания — взгляд изнутри (часть 1)

Reading time4 min
Views7.4K
Читавшие мои предыдущие публикации знают, что пишу я достаточно редко, но обычно сериями. Хочется собраться с мыслями на заданную тему и разложить их по полочкам, не втискивая себя в прокрустово ложе одной короткой статейки.

На сей раз появился новый повод поговорить об обработке текстов (natural language processing то бишь). Я разрабатываю модуль проверки правописания для одной конторы. На выходе должна получиться функциональность, аналогичная встроенной в MS Word, только лучше :) Не могу пока назвать себя крупным специалистом в этой области, но стараюсь учиться. В заметках постараюсь рассказать о том, куда движется наш проект, как устроен тот или иной этап обработки текста. Может, в комментариях услышу что-нибудь новое/интересное и для себя. Если проекту с этого будет польза — прекрасно. Как минимум, устаканю данные у себя в голове, а это тоже неплохо.
Читать дальше →

Много книг, хороших и разных

Reading time20 min
Views97K
Мой список книг, которые мне хочется прочесть, изрядно вырос, спасибо топику “запасаемся на зиму”. Под катом вы обнаружите список книг, составленный по комментариям в том топике.
Читать дальше →

Нейронные сети: Лекция 1

Reading time3 min
Views52K
Здравствуйте, хабраобщество.

У меня в универе начался курс по нейронным сетям и хочу поделиться информацией с вами, заодно и сам буду лучше воспринимать информацию, а значит выигравшими будут все. Поехали.

Литература


1. Ben Krose, Valter van de Smagt: Introduction to neural networks.
2. Р. Каллан, Введение в нейронные сети.
3. Саймон Хайкин, Нейронные сети полный курс.
4. Gupta Jin Homma, Statical and Dynamical neural networks.

Первые 2 книги хороши для вступления, первая лучше всего, но она на английском, вторая также, чуть хуже изложена, но на русском.

Биологические основания нейронных сетей

.
// тема отдана на самостоятельную обработку.
Теория искусств нейронных сетей появилась, как попытка смоделировать ЦНС (ЦНС — центральная нервная система) высших млекопитающих в 50х годах прошлого столетия.

Выяснилось, что модели искусственных нейронных сетей (Далее ИНС, НС) слишком просты и современные модели нейрофизиологии по сложности на порядок превышает модели НС. Вместе с тем выяснилось, что теория ИНС является прекрасным инструментом для решения сугубо математических задач особенно к класам трудноформализируемых задач.

Под не формализуемыми задачами мы будем понимать задачи, для которых задачу сформулировать невозможно.
К числу таких задач относятся (пример):
  • классификация
  • кластеризации
  • прогнозирования


Под трудно формализуемыми задачами мы будем подразумевать такие задачи для которых формулировка существует, но детерминированный алгоритм нахождения точного решения либо неизвестен, либо слишком затратный по ресурсам.

Чем выше размерность задачи, тем лучше работает нейронные сети и тем хуже классическая математика.

Концепции

Читать дальше →

Опыт первого приложения для Windows Phone 7 Series с использованием Silverlight

Reading time10 min
Views2.8K
Приветствую вас, Хабрасообщество.
В данном топике я расскажу как написать свое первое приложение на Windows Phone 7 на примере своего приложения.
Читать дальше →

Hypocampo — геопланировщик

Reading time3 min
Views5.1K

Добрый день, %username%.

Всем нам когда-то приходилось планировать задачи, и всем нам приходилось забывать запланированное. Иногда это случалось потому, что в нужном месте мы не вспомнили о нужном деле.

Хочу представить свою разработку, призванную помочь избежать таких досадных недоразумений.

Hypocampo — приложение для Android, позволяющее планировать задачи привязывая их не ко времени, а к месту. Суть проста — выбираем место, добавляем к нему задачи. При нахождении вас в точке, для которой имеются запланированные активные задачи срабатывает напоминание.
Читать дальше →

Как правильно оформить статью?

Reading time5 min
Views8.8K
Если вы ведете блог, то, возможно, вам знакомо чувство, когда взлелеянную, родившуюся в тяжелом труде статью никто не читает. И вы не можете понять причины. Кажется, и тема выбрана правильно. И стиль подобран адекватно. И слова использованы именно те, которые нужно! Статья написана интересно, и, бесспорно, должна быть полезной значительной части вашей ключевой аудитории…

image

Вы готовы воспринять это и адекватно отнестись, если сами чувствуете, где совершили ошибку, а где откровенно схалтурили. Знаете, что статья не дотягивает до уровня ваших привычных публикаций. Но если все сделано вроде бы правильно — можно попасть даже в глубокую депрессию из-за непонимания причин такого провала. Я промолчу о том, что мотивация к дальнейшему ведению блога испаряется пропорционально количеству таких «незамеченных» публикаций.
Читать дальше →

Организация командной разработки структур баз данных

Reading time8 min
Views2.5K
Недавно в нашей организации очень насущным стал вопрос командной разработки (около 10 человек) схемы данных для БД Oracle. Работали мы по-старинке с помощью небезызвестного продукта Erwin семейства 3.5.x и до поры до времени были вполне удовлетворены его возможностями, разместив файлик в централизованной системе управления версиями и блокируя его по мере надобности, тем самым избежав коллизий параллельной разработки. Но всё течёт, всё меняется, команда разрастается, да и XXI век на дворе, вот и решили мы воспользоваться более современными средствами. Собственно ниже представлен рассказ о процессе перевода схемы в новый формат (хотя и того же производителя) и организации средств коллективной разработки и поддержки версионности, разбавленный рассуждениями о продукте в целом и паттернами использования его в нашей работе в частности. Без подводных камней описанный процесс не прошёл, так что возможно опыт подобного перехода будет кому-то полезен.
План повествования:
  • Рассуждения о продукте, замечания на тему шаблонов использования, ругань на форматы.
  • Подготовительные работы, шаманство в БД.
  • Организация командной разработки, оптимизация быстродействия.

Читать дальше →

Некоторые идеи написания искуственного интелекта для шахмат

Reading time7 min
Views20K
К сожалению, для шахмат пока нет лучших алгоритмов, чем перебор очень многих позиций. Правда, перебор порядком (и не одним) оптимизированный, но все же это большой перебор. Для поиска ответного хода строится дерево с исходным ходом в корне, ребрами — ходами-ответами и узлами — новыми позициями.

image

Как в элементарных алгоритмах выбирается следующий ход объяснить просто. На своем ходе вы выбираете такой ход (по вашему мнению), который принесет наибольшую пользу (максимизирует вашу выгоду), а противник на очередном своем ходе старается выбрать ход, который принесет ему больше всего пользы (максимизирует его выгоду и минимизирует вашу). Алгоритм с таким принципом называется минимакс. На каждом этапе вы присваиваете каждому узлу в дереве оценку позиции (об этом потом) и на своем ходе ее максимизируете, а на ходе противника — минимизируете. Алгоритм во время работы должен пройти по всем узлам дерева (то есть по всем возможный игровым позициям в игре), то есть совсем непригоден по времени.
Следующее его усовершенствование — альфа-бета отсечение (метод веток и границ).
Читать дальше →

Что молодёжь должна знать о прошлом веке

Reading time4 min
Views7.1K
За два дня до наступления второго десятилетия 21 века возрастные пользователи Reddit составили список воспоминаний, которыми хотят поделиться с младшим поколением. Хотя молодёжь вряд ли поверит, что их отцы могли жить в подобных условиях, когда не было интернета.

• Я написал письмо на физическом листе бумаги и отправил его в Microsoft с вопросом, как вводить математические формулы в Word (на моём компьютере Macintosh II в конце 80-х). Получил ответ, также бумажной почтой, от настоящего программиста Microsoft, который очень подробно ответил на мой вопрос.

• Пультов от телевизора не было. Нужно было оторвать спину от дивана, встать и подойти к телевизору, чтобы нажать кнопку.
Читать дальше →

Opera Mini Proxy для Google Chrome

Reading time2 min
Views24K
Регулярно читающие этот блог наверняка помнят мою предыдущую заметку про Opera Mini Proxy. Для тех кто не помнит, вкратце: это прекрасная возможность экономить трафик там, где он стоит очень дорого.

Opera Mini Proxy (он же Opera Mini Proxy Daemon или ompd) пропускает http трафик через сервера opera mini, где контент сжимается в несколько десятков раз (для оптимизации отображения на мобильных устройствах). До появления ompd можно было использовать opera mini на десктопах с помощью эмуляторов j2me, что, конечно, совсем не удобно. ompd же позволял загружать сжатый контент практически в любом браузере (работая при этом как локальный прокси сервер).

Хорошая новость: теперь ompd можно установить в качестве расширения Chrome (и других браузерах, основаных на исходном коде Chromium). Во-первых, расширение гораздо легче, чем оригинальный ompd, требующий для работы интерпретатор Python. Во-вторых, не нужно постоянно держать второе открытое окно и следить за настройками прокси. Как это выглядит, можно увидеть на скриншоте, а подробности — под катом.
Читать дальше →

Архитектура Adobe Flex 3 компонентов для новичка

Reading time7 min
Views3.3K
Знакомиться со Adobe Flex мне пришлось в почти боевых условиях. Неожиданно понадобилось писать что-то работающее, пользуясь лишь примерами из Интернета и помощью старших товарищей. Поблизости не было ни одной книги по Flex, да и времени на чтение тоже, что сильно сказалось на теоретической базе. Многое делалось на ощупь простым русским методом проб и ошибок. Чтож, попробовать пришлось порядочно. Сейчас, глядя назад, я понял, что многие грабли можно было избежать, если бы имелась под рукой простая вводная статья объясняющая что к чему. Под катом собраны 3 вопроса, из-за недопонимания которых у меня чаще всего возникали проблемы. Надеюсь, ответы на них помогут начинающим быстрее разобраться в тонкостях построения компонентов этого фреймворка.

Читать дальше →

Уроки 10-ти лет технических обзоров

Reading time5 min
Views1.2K
На той неделе было 10 лет, как я веду техническую колонку в The New York Times!

Среди всех десятилетий технического прогресса последнее было особенно невероятным. С тех пор, как я написал свою первую статью в 2000 году, мир технических новинок не столько развивался, сколько несся вперед с космической скоростью. Подумайте о привычных ныне технологиях, которых даже не существовало каких-то 10 лет назад: HDTV, Blu-ray, GPS, Wi-Fi, Gmail, YouTube, iPod, iPhone, Kindle, Xbox, Wii, Facebook, Twitter, Android, онлайн магазины музыки, потоковое видео и т. д. и т. п.

Сейчас отличный момент, чтобы бросить взгляд назад и подтвердить — или опровергнуть прогнозы, сделанные в течение первого десятилетия 21 века.
Читать дальше →

Google Developer Day 2010 видео открытия мероприятия и Keynote выступления

Reading time1 min
Views548
Привет %username%!

В прошлую пятницу в Москве прошло мероприятие Google Developer Day 2010.
Специально для тех, кто по каким-либо причинам не смог участвовать в мероприятии, мы сделали полную запись открытия и Keynote выступления.



Все фотографии с мероприятия можно просмотреть на нашей страничке Фликр.

PS мы взяли несколько интервью у докладчиков, в ближайшее время они тоже будут опубликованы.

TeeWorlds по-новому

Reading time2 min
Views1.6K


Доброго времени суток, Хабралюди!

Как Вы могли прочесть из предыдущего топика — официальная поддержка TeeWorlds была сперва прекращена, после возобновлена частично, под эгидой “хобби”.
Это несколько опечалило поклонников игры.

Команда проекта 300Murlocs.com не могла не поддержать эту динамичную игру и решила дать ей новое рождение.
Читать дальше →

10 причин подружиться с HootSuite

Reading time5 min
Views46K


HootSuite (хутсвит) — это инструмент с множеством функций для самых активных пользователей социальных сетей: гиков, маркетологов, компаний, Дмитрия, и многих других.

HootSuite занимает 6-е место в списке твиттер-клиентов и используется множеством известных западных компаний, таких как Mashable, Sony Ericson и m&m’s; звезд, таких как Green Day, Bon Jovi и Elvis (?); и даже белым домом США. Из известных мне русских знаменитостей, bobuk и @MaximSpiridonov.

За 2 года существования, компания смогла создать качественный продукт, который можно удобно использовать где угодно, когда угодно и как угодно. Буквально на днях, HootSuite.com вошел в TOP 500 сайтов по рейтингу Alexa.

Всего приложение используют около 1 000 000 пользователей.
Читать дальше →

Психометрия Твиттера предсказывает DJIA на 2-6 дней

Reading time2 min
Views1.9K
Йохан Боллен (школа информатики при университете штата Индиана в Блумингтоне) и группа его коллег всё-таки опубликовали нашумевшую работу по статистической корреляции настроений в твиттере и индекса Доу-Джонса (DJIA). Анонс своих исследований они сделали раньше и названные цифры по точности совпадений немало удивили коллег. 14 октября 2010 года опубликована их научная работа целиком (PDF).

Йохан Боллен с коллегами с помощью теста причинности Грейнджера провели анализ временных рядов индекса Доу-Джонса и настроений твиттера за период с 28.02.2008 г. по 03.11.2008 г. в рабочие дни. Для выявления эмоций в твитах использовались система лингвистического анализа OpinionFinder и GPOMS — система психометрии Profile of Mood States (POMS-bi), расширенная 4- и 5-буквенными словами, собранными Google в 2006 году.
Читать дальше →

140 правил интернет-журналиста

Reading time1 min
Views2.2K
Замечательный журналист Александр Амзин (amzin) полтора года назад выпустил книжку «Новостная интернет-журналистика».

Книга полезная, но в современном мире не у всех есть время на чтение учебников, даже таких нужных.

Поэтому Александр решил оформить книжку в модном сейчас микроблогерском формате.

На мой взгляд не все из «140 правил интернет-журналиста» одинаково ценны и бесспорны, но прочесть их и иногда просматривать рекомендую всем, кто занимается новостной журналистикой.

Презентация средствами HTML5

Reading time3 min
Views14K
image
Обратил внимание, что в настоящее время программисты Google начали использовать новую форму представления своих презентаций.

Типичный пример, еще пример — мы видим фреймы, эффекты, изображения, общий стиль.

Несложный поиск привел к удобному шаблону, который при своей простоте позволяет создавать неплохие презентации с легко внедряемыми элементами
Читать дальше →

2Гига #44: Я тучка, тучка, тучка. Я вовсе не медведь

Reading time1 min
Views787

Information

Rating
Does not participate
Location
Ярославль, Ярославская обл., Россия
Registered
Activity