Pull to refresh
40
0
Кирилл Пименов @kirushik

User

Send message

NLP: проверка правописания — взгляд изнутри (часть 2)

Reading time6 min
Views4K
(Часть 1) Сегодня мы поговорим об уровнях понимания текстов нашей системой, о том, какие ошибки правописания отловить просто, какие не очень просто, а какие запредельно сложно.

Начнём с того, что текст можно рассматривать с двух точек зрения: либо как простую последовательность слов, пробелов и знаков препинания, либо как сеть связанных между собой синтактико-семантическими зависимостями понятий. Скажем, в предложении «я люблю больших собак» можно расставить слова в любом порядке, при этом структура связей между словами будет одна и та же:

Читать дальше →

NLP: проверка правописания — взгляд изнутри (часть 1)

Reading time4 min
Views7.4K
Читавшие мои предыдущие публикации знают, что пишу я достаточно редко, но обычно сериями. Хочется собраться с мыслями на заданную тему и разложить их по полочкам, не втискивая себя в прокрустово ложе одной короткой статейки.

На сей раз появился новый повод поговорить об обработке текстов (natural language processing то бишь). Я разрабатываю модуль проверки правописания для одной конторы. На выходе должна получиться функциональность, аналогичная встроенной в MS Word, только лучше :) Не могу пока назвать себя крупным специалистом в этой области, но стараюсь учиться. В заметках постараюсь рассказать о том, куда движется наш проект, как устроен тот или иной этап обработки текста. Может, в комментариях услышу что-нибудь новое/интересное и для себя. Если проекту с этого будет польза — прекрасно. Как минимум, устаканю данные у себя в голове, а это тоже неплохо.
Читать дальше →

Яндекс. Директ. Анализируем конкурентное окружение

Reading time4 min
Views16K

Представьте ситуацию. Вы разрабатываете сайты. Хорошие сайты для хороших людей. Ваши рекламные кампании работают давно, вы вышли на хороший уровень ROI, заказы идут с завидной периодичностью. Все казалось бы хорошо, пока в один прекрасный день мы не получаем кучу писем от Директа, о том что мы кем-то вытеснены с насиженных позиций. Мы идем в выдачу и видим на своей любимой позиции незнакомый сайт конкурента. Естественным нашим желанием будет узнать что это за фрукт и на основании этой информации принять стратегическое решение – ввязываться ли в войну бюджетов (если это серьезный и жирный конкурент) или подпереть снизу и помочь слить бюджет (если это мелочевка).

«Но это же невозможно!» – Скажете вы. – «Любая система контекстной рекламы руководствуется принципами закрытого аукциона и не предоставляет своим рекламодателям информацию о конкурентах. Мы ведь не знаем ни ключевых запросов конкурента, ни настроек его РК. Не знаем использует он минус-слова или кавычки. Самое главное – мы не знаем его ставок и CTR»

Спокойствие, только спокойствие! (с)

В статье я расскажу, как по косвенным признакам узнать максимум стратегически важной информации о конкурентах, достаточной для принятия решений.

Читать дальше →

Как связать два asterisk-сервера (часть первая. SIP)

Reading time3 min
Views13K
imageИтак, имеем два астериска.
Задача — организовать прямой дозвон через префикс туда и обратно.
Исходные данные:
Астериск 1.4 на обеих концах
kazan.asterisk.ru — имя первого астериска.
volgograd.asterisk.ru — имя второго астериска.
Предполагается, что оба астериска имеют прямой выход в интернет (в ином случае тоже проблем быть не должно, нужно настроить NAT и использовать параметр nat=yes)

Пусть 1-й астериск у нас находится в Казани, другой в Волгограде. Обратимся к автомобильным кодам регионов.
Тогда дозвон из Волгограда будет 9-16-<номер>.
Из Казани 9-34-<номер>.
Читать дальше →

«Дело не в тебе, а во мне» — обнаружение и восприятие флирта на экспресс-свиданиях

Reading time6 min
Views7.9K
Об экспресс-свиданиях (speed-dates) на Хабре уже писали. Вкратце, собирается группа участников, они беседуют в парах примерно по 5 минут, затем меняются собеседниками. Каждый участник про каждого из своих партнёров отмечает, насколько сильно он ему понравился; если симпатия окажется взаимной, организаторы передают обоим контакты друг друга.

Группа исследователей из Стэнфордского университета занимается анализом человеческих диалогов, пытаясь распознать как намерения говорящего, так и восприятие речи слушателем. Несоответствие между подразумеваемым и воспринимаемым — закономерное свойство естественной речи. Для анализа использовались стенограммы с экспресс-свиданий, на которых каждая сторона оценивала «заигрывающесть» партнёра, и отмечала свою. Построенной системе автоматического распознавания флирта удалось верно определять намерения говорящего в 71.5% случаев; это превзошло точность оценок самих участников экспресс-свиданий. Как выяснилось, люди в большей степени проециируют на собеседника собственные ощущения, чем анализируют его речь.


Читать дальше →

Альтернативный способ распространения файлов

Reading time3 min
Views3.5K
В последнее время в сети стало распространённым выкладывание различных файлов на различные ресурсы-«файлопомойки». Сейчас я не хочу обсуждать проблемы, связанные с просмотром рекламы при или перед скачиванием, проблемы получения премиум-эккаунтов и удаление файлов по претензиям правообладателей. Найденный мной способ может использоваться как во благо — для автоматического распространения файлов внутри группы, так и во вред — для распространения вирусов, патчей и кряков и т.д. Виноват не изобретатель пистолета, а рука, его держащая.
Читать дальше →

Open Source GSM-сеть на фестивале Burning Man

Reading time2 min
Views8.8K
С 1990-х годов в безлюдную пустыню Блэк-Рок в Неваде съезжаются десятки тысяч человек на фестиваль контр-культуры Burning Man. Как обычно, восьмидневное мероприятие начинается в последний понедельник августа, в 00:01 по местному времени. В этом году приехали около 50 000 человек, но не только рекордная посещаемость является особенностью фестиваля. Дело в том, что энтузиасты open source hardware ещё два года назад построили в пустыне полноценную GSM-сеть на солнечных батареях и свободном оборудовании. Сеть обходится организаторам в копейки, а пользоваться ею может бесплатно любой желающий.
Читать дальше →

Отсутствие копирайта способствовало технологической революции в Германии 19 века

Reading time3 min
Views8.4K
В 19 столетии немецкое государство испытало мощный индустриальный рост, который сопровождался многократным увеличением научных публикаций и общего количества книг, издаваемых в стране. Неожиданная любовь немцев к книгам заставила литературного критика Вольфганга Менцеля в 1836 году назвать Германию «нацией поэтов и мыслителей».

Например, в 1843 году немецкие издательства опубликовали около 14 000 новых книг, большая часть которых были научными публикациями. Если учесть количество населения, то это столько же, сколько издаётся в наши дни, в 21 веке. Для сравнения, в Британской империи в тот год было опубликовано около 1000 новых работ.

В чём причина такого бурного экономического и научного развития? Экономический историк Экхард Хоффнер (Eckhard Höffner) считает, что всё дело в отсутствии копирайта.
Читать дальше →

Паттерны проектирования

Reading time2 min
Views49K
Здравствуй хаброчеловек!

Так уж случилось, что с этого семестра в своем вузе я записался на спецкурс по паттернам проектирования. Курс проходит в виде семинаров, на которых ты (студент) должен рассказать чему научился за неделю (имеется ввиду, какие паттерны изучил и применил на практике).
Читать дальше →

Оборудование российского производства. Часть 2. ЛАНтастИКа

Reading time5 min
Views7.5K
В первой части я рассказывал про M-Link'и — русские конвертеры E1-Ethernet, побывавшие в моих руках. Теперь речь пойдёт о продуктах Петербургской компании «Оптические ТелеCистемы».
ЛАНтастИКа-2Speed — так называется «адаптивная широкополосная система беспроводной оптической связи». В названии скрыт тайный смысл отражена функция устройства — конвертировать обычный Ethernet в волны инфракрасного диапазона.
LANtastIKa

Читать дальше →

ITшник в Австралии

Reading time4 min
Views24K
Данной статьей я постараюсь продолжить обзор стран, начатый в Денег нет, погода дрянь и правительство ввело новые поборы. Что делать?. Я не хочу обсуждать почему, зачем, что меня двигало к переезду (кому-то весело и комфортно только в Нью-Йорке/Лондоне, а кто-то весьма доволен и в деревне), а постараюсь просто привести некоторую информацию. Здесь на сайте довольно много людей из Австралии, надеюсь где-то меня поправят, что-то добавят. С удовольствием отвечу на все вопросы в комментариях.

Читать дальше →

Наши за границей и их блоги

Reading time2 min
Views1K
В догонку к топику «Наши за границей», решил написать список блогов наших за границей, которые я читаю.
Тут в основном IT, но некоторые блоги просто про жизнь там.
Свои впечатления об этих блогах писать не буду — сами лучше разберетесь.
На многие из этих блогов стоит подписаться хотя бы с профессиональной точки зрения.

Читать дальше →

Orange San Francisco — Совсем не бюджетный андроидфон за £99

Reading time5 min
Views44K
image     Не так давно меня попросили подобрать новый телефон, так как я имею кое-какой опыт общения с платформой Android и телефоны на этой платформе доступны в широком ценовом диапазоне, взгляд был смещен именно на так называемые андроидфоны.

    Изучив российский розничный рынок не дорогих смартфонов на базе Android'а я начал уже присматриваться к LG Optimus One, но по счастливой случайности бродя по интернетам наткнулся на героя обзора — Orange San Francisco, ценой в Англии всего в £99 (около 4500 наших рублей) и по техническим характеристикам превосходящий чуть-ли не в два раза все предоставленные на нашем рынке смартфоны стоимостью до 10 000 рублей.

Именно о нем и пойдет речь в сегодняшнем обзоре, добро пожаловать под хабракат.
Читать дальше →

Получаем интернет по USB с компьютера на Android

Reading time2 min
Views806K
image

Статья актуальна на 2010 год, современные Android могут проделывать такое одной «галочкой» в настройках

После покупки HTC Hero у меня возник вопрос: как получать интернет на коммуникаторе через компьютер? С моим предыдущим коммуникатором Toshiba G900 под управлением WindowsMobile 6 было все просто: установил «центр мобильных устройств», и на коммуникаторе появился интернет. «Эта функция не нужна», — скажите вы, ведь сейчас много точек доступа Wi-Fi, через которые можно подключиться двумя кликами. Но вот лично у меня нет Wi-Fi точки (есть ноутбук, но Android не обнаруживает Ad-hoс сети). Поэтому я был огорчен отсутствием этой функции. Все мои попытки найти мануалы на эту темы — не увенчались успехом. Поэтому я решил это сам.
Внимание: Для работы ножен root пользователь.
Читать дальше →

Scene #20: история программ создания музыки на PC

Reading time1 min
Views2.7K
Новый подкаст из серии Scene. Хотя, этот подкаст уже вполне можно назвать телепередачей. Тема выпуска — история музыкальных трекеров (программ для создания музыки на PC).

image

Скачать mov-файл (730 мб)
Смотреть в он-лайне на страничке подкаста

Рассказывает Lyzzard/cornercut
Монтаж Manwe/SandS

Прочие аудио и видео-подкасты о демосцене можно найти здесь: http://scene.rpod.ru/

Dingoo A320 — урожайный год!

Reading time4 min
Views23K

Не секрет, что в США полным ходом идет E3 — крупнейшее событие в игровой индустрии. Sony, Nintendo, Microsoft — все показывают свои новейшие достижения в области развлечений. И лишь одного революционного продукта на этой выставке вы никогда не увидите. Это портативная игровая консоли Dingoo A320. Более года прошло с появления «на сцене» этого весьма неоднозначного гаджета. Нет смысла повторять все дифирамбы в честь Dingoo, его детальный unbox и обзор уже был на Хабре. Лучше попробуем понять причины его воистину бешеной популярности среди гиков.

Итак, мечту человечества о портативном устройстве, на котором можно безнаказанно предаваться ностальгии по игровым системам Nintendo, Sega, NeoGeo и Capcom воплотила в жизнь маленькая и довольно бедная компания Shenzhen Dingoo Digital Co. Да, прямо «из коробки», без манипуляций с прошивкой и плясок с бубном вы можете эмулировать игры от перечисленных выше консолей просто скопировав их в память устройства.
Читать дальше →

Китайский тачскрин-телефон за 70 у.е. — чего ожидать?

Reading time4 min
Views8.6K
Так уж случилось, что одного прекрасного дня попал ко мне в руки китайский тачскрин-телефон — подделка аналог iPhone. Точнее от iPhone тут только часть оформления меню и внешнего вида.

Имя ему SciPhone i9+++. Аппарат был заказан моим другом напрямую из чайнатауна. Стоимость — 71 у.е. вместе с пересылкой. На таможенном ярлыке значится стоимость пересылки в 25 у.е.
Читать дальше →

Neverhood Songs

Reading time1 min
Views1.5K
Удивительно, но до сих пор на хабре не было топика, посвященного этому ни на что не похожему саундтреку. Удивительная музыка из легендарной игры:

http://www.youtube.com/watch?v=WreJGBEF5iA

Архив со всеми аудиозаписями (163 мегабайта):
Народ.Диск
RapidShare

Купить лицензионный диск

Реализация сервисов в MSWin

Reading time14 min
Views1.3K
По рабочей необходимости приходится иногда писать системные сервисы для Microsoft Windows.

На Хабре уже есть статья Создание своего Windows Service , но по моему мнению — статья не более чем краткий обзор, который можно найти в MSDN. В ней не рассмотрены, например, возможные варианты поведения сервиса в случае ошибки, или запись в журналы сообщений.
Постараюсь, используя опыт написания такого рода приложений, изложить максимально возможный объем информации.
Читать дальше →

Квартет Анскомбе

Reading time1 min
Views5.8K
Статистика — это такой инструмент… Очень страшный в неумелых руках. В умелых того страшнее, способен разорвать мозг на куски.

Вот есть последовательности A, B, C и D, про которые известно следующее:
  A B C D
Среднее значение x 9.00 9.00 9.00 9.00
Дисперсия х 10.00 10.00 10.00 10.00
Среднее значение y 7.50 7.50 7.50 7.50
Дисперсия y 3.75 3.75 3.75 3.75
Корреляция между x и y 0.82 0.82 0.82 0.82
Прямая линейной регрессии y = 3 + 0.5 x y = 3 + 0.5 x y = 3 + 0.5 x y = 3 + 0.5 x
То есть все указанные величины для них совпадают. По крайней мере, до второго знака после запятой.
А теперь смотрим глазами

Information

Rating
Does not participate
Location
Nürnberg, Bayern, Германия
Registered
Activity