Pull to refresh
40
0
Кирилл Пименов @kirushik

User

Send message

NLP: проверка правописания — взгляд изнутри (часть 2)

Reading time6 min
Views3.9K
(Часть 1) Сегодня мы поговорим об уровнях понимания текстов нашей системой, о том, какие ошибки правописания отловить просто, какие не очень просто, а какие запредельно сложно.

Начнём с того, что текст можно рассматривать с двух точек зрения: либо как простую последовательность слов, пробелов и знаков препинания, либо как сеть связанных между собой синтактико-семантическими зависимостями понятий. Скажем, в предложении «я люблю больших собак» можно расставить слова в любом порядке, при этом структура связей между словами будет одна и та же:

Читать дальше →
Total votes 56: ↑50 and ↓6+44
Comments12

NLP: проверка правописания — взгляд изнутри (часть 1)

Reading time4 min
Views7.2K
Читавшие мои предыдущие публикации знают, что пишу я достаточно редко, но обычно сериями. Хочется собраться с мыслями на заданную тему и разложить их по полочкам, не втискивая себя в прокрустово ложе одной короткой статейки.

На сей раз появился новый повод поговорить об обработке текстов (natural language processing то бишь). Я разрабатываю модуль проверки правописания для одной конторы. На выходе должна получиться функциональность, аналогичная встроенной в MS Word, только лучше :) Не могу пока назвать себя крупным специалистом в этой области, но стараюсь учиться. В заметках постараюсь рассказать о том, куда движется наш проект, как устроен тот или иной этап обработки текста. Может, в комментариях услышу что-нибудь новое/интересное и для себя. Если проекту с этого будет польза — прекрасно. Как минимум, устаканю данные у себя в голове, а это тоже неплохо.
Читать дальше →
Total votes 24: ↑23 and ↓1+22
Comments14

Яндекс. Директ. Анализируем конкурентное окружение

Reading time4 min
Views16K

Представьте ситуацию. Вы разрабатываете сайты. Хорошие сайты для хороших людей. Ваши рекламные кампании работают давно, вы вышли на хороший уровень ROI, заказы идут с завидной периодичностью. Все казалось бы хорошо, пока в один прекрасный день мы не получаем кучу писем от Директа, о том что мы кем-то вытеснены с насиженных позиций. Мы идем в выдачу и видим на своей любимой позиции незнакомый сайт конкурента. Естественным нашим желанием будет узнать что это за фрукт и на основании этой информации принять стратегическое решение – ввязываться ли в войну бюджетов (если это серьезный и жирный конкурент) или подпереть снизу и помочь слить бюджет (если это мелочевка).

«Но это же невозможно!» – Скажете вы. – «Любая система контекстной рекламы руководствуется принципами закрытого аукциона и не предоставляет своим рекламодателям информацию о конкурентах. Мы ведь не знаем ни ключевых запросов конкурента, ни настроек его РК. Не знаем использует он минус-слова или кавычки. Самое главное – мы не знаем его ставок и CTR»

Спокойствие, только спокойствие! (с)

В статье я расскажу, как по косвенным признакам узнать максимум стратегически важной информации о конкурентах, достаточной для принятия решений.

Читать дальше →
Total votes 94: ↑89 and ↓5+84
Comments34

Как связать два asterisk-сервера (часть первая. SIP)

Reading time3 min
Views12K
imageИтак, имеем два астериска.
Задача — организовать прямой дозвон через префикс туда и обратно.
Исходные данные:
Астериск 1.4 на обеих концах
kazan.asterisk.ru — имя первого астериска.
volgograd.asterisk.ru — имя второго астериска.
Предполагается, что оба астериска имеют прямой выход в интернет (в ином случае тоже проблем быть не должно, нужно настроить NAT и использовать параметр nat=yes)

Пусть 1-й астериск у нас находится в Казани, другой в Волгограде. Обратимся к автомобильным кодам регионов.
Тогда дозвон из Волгограда будет 9-16-<номер>.
Из Казани 9-34-<номер>.
Читать дальше →
Total votes 18: ↑16 and ↓2+14
Comments3

«Дело не в тебе, а во мне» — обнаружение и восприятие флирта на экспресс-свиданиях

Reading time6 min
Views7.8K
Об экспресс-свиданиях (speed-dates) на Хабре уже писали. Вкратце, собирается группа участников, они беседуют в парах примерно по 5 минут, затем меняются собеседниками. Каждый участник про каждого из своих партнёров отмечает, насколько сильно он ему понравился; если симпатия окажется взаимной, организаторы передают обоим контакты друг друга.

Группа исследователей из Стэнфордского университета занимается анализом человеческих диалогов, пытаясь распознать как намерения говорящего, так и восприятие речи слушателем. Несоответствие между подразумеваемым и воспринимаемым — закономерное свойство естественной речи. Для анализа использовались стенограммы с экспресс-свиданий, на которых каждая сторона оценивала «заигрывающесть» партнёра, и отмечала свою. Построенной системе автоматического распознавания флирта удалось верно определять намерения говорящего в 71.5% случаев; это превзошло точность оценок самих участников экспресс-свиданий. Как выяснилось, люди в большей степени проециируют на собеседника собственные ощущения, чем анализируют его речь.


Читать дальше →
Total votes 100: ↑89 and ↓11+78
Comments48

Альтернативный способ распространения файлов

Reading time3 min
Views3.4K
В последнее время в сети стало распространённым выкладывание различных файлов на различные ресурсы-«файлопомойки». Сейчас я не хочу обсуждать проблемы, связанные с просмотром рекламы при или перед скачиванием, проблемы получения премиум-эккаунтов и удаление файлов по претензиям правообладателей. Найденный мной способ может использоваться как во благо — для автоматического распространения файлов внутри группы, так и во вред — для распространения вирусов, патчей и кряков и т.д. Виноват не изобретатель пистолета, а рука, его держащая.
Читать дальше →
Total votes 70: ↑63 and ↓7+56
Comments45

Open Source GSM-сеть на фестивале Burning Man

Reading time2 min
Views8.7K
С 1990-х годов в безлюдную пустыню Блэк-Рок в Неваде съезжаются десятки тысяч человек на фестиваль контр-культуры Burning Man. Как обычно, восьмидневное мероприятие начинается в последний понедельник августа, в 00:01 по местному времени. В этом году приехали около 50 000 человек, но не только рекордная посещаемость является особенностью фестиваля. Дело в том, что энтузиасты open source hardware ещё два года назад построили в пустыне полноценную GSM-сеть на солнечных батареях и свободном оборудовании. Сеть обходится организаторам в копейки, а пользоваться ею может бесплатно любой желающий.
Читать дальше →
Total votes 66: ↑62 and ↓4+58
Comments74

Отсутствие копирайта способствовало технологической революции в Германии 19 века

Reading time3 min
Views8.3K
В 19 столетии немецкое государство испытало мощный индустриальный рост, который сопровождался многократным увеличением научных публикаций и общего количества книг, издаваемых в стране. Неожиданная любовь немцев к книгам заставила литературного критика Вольфганга Менцеля в 1836 году назвать Германию «нацией поэтов и мыслителей».

Например, в 1843 году немецкие издательства опубликовали около 14 000 новых книг, большая часть которых были научными публикациями. Если учесть количество населения, то это столько же, сколько издаётся в наши дни, в 21 веке. Для сравнения, в Британской империи в тот год было опубликовано около 1000 новых работ.

В чём причина такого бурного экономического и научного развития? Экономический историк Экхард Хоффнер (Eckhard Höffner) считает, что всё дело в отсутствии копирайта.
Читать дальше →
Total votes 161: ↑151 and ↓10+141
Comments96

Паттерны проектирования

Reading time2 min
Views48K
Здравствуй хаброчеловек!

Так уж случилось, что с этого семестра в своем вузе я записался на спецкурс по паттернам проектирования. Курс проходит в виде семинаров, на которых ты (студент) должен рассказать чему научился за неделю (имеется ввиду, какие паттерны изучил и применил на практике).
Читать дальше →
Total votes 47: ↑37 and ↓10+27
Comments29

Оборудование российского производства. Часть 2. ЛАНтастИКа

Reading time5 min
Views7.3K
В первой части я рассказывал про M-Link'и — русские конвертеры E1-Ethernet, побывавшие в моих руках. Теперь речь пойдёт о продуктах Петербургской компании «Оптические ТелеCистемы».
ЛАНтастИКа-2Speed — так называется «адаптивная широкополосная система беспроводной оптической связи». В названии скрыт тайный смысл отражена функция устройства — конвертировать обычный Ethernet в волны инфракрасного диапазона.
LANtastIKa

Читать дальше →
Total votes 118: ↑109 and ↓9+100
Comments126

ITшник в Австралии

Reading time4 min
Views24K
Данной статьей я постараюсь продолжить обзор стран, начатый в Денег нет, погода дрянь и правительство ввело новые поборы. Что делать?. Я не хочу обсуждать почему, зачем, что меня двигало к переезду (кому-то весело и комфортно только в Нью-Йорке/Лондоне, а кто-то весьма доволен и в деревне), а постараюсь просто привести некоторую информацию. Здесь на сайте довольно много людей из Австралии, надеюсь где-то меня поправят, что-то добавят. С удовольствием отвечу на все вопросы в комментариях.

Читать дальше →
Total votes 114: ↑107 and ↓7+100
Comments99

Наши за границей и их блоги

Reading time2 min
Views989
В догонку к топику «Наши за границей», решил написать список блогов наших за границей, которые я читаю.
Тут в основном IT, но некоторые блоги просто про жизнь там.
Свои впечатления об этих блогах писать не буду — сами лучше разберетесь.
На многие из этих блогов стоит подписаться хотя бы с профессиональной точки зрения.

Читать дальше →
Total votes 19: ↑17 and ↓2+15
Comments13

Orange San Francisco — Совсем не бюджетный андроидфон за £99

Reading time5 min
Views44K
image     Не так давно меня попросили подобрать новый телефон, так как я имею кое-какой опыт общения с платформой Android и телефоны на этой платформе доступны в широком ценовом диапазоне, взгляд был смещен именно на так называемые андроидфоны.

    Изучив российский розничный рынок не дорогих смартфонов на базе Android'а я начал уже присматриваться к LG Optimus One, но по счастливой случайности бродя по интернетам наткнулся на героя обзора — Orange San Francisco, ценой в Англии всего в £99 (около 4500 наших рублей) и по техническим характеристикам превосходящий чуть-ли не в два раза все предоставленные на нашем рынке смартфоны стоимостью до 10 000 рублей.

Именно о нем и пойдет речь в сегодняшнем обзоре, добро пожаловать под хабракат.
Читать дальше →
Total votes 149: ↑141 and ↓8+133
Comments398

Получаем интернет по USB с компьютера на Android

Reading time2 min
Views803K
image

Статья актуальна на 2010 год, современные Android могут проделывать такое одной «галочкой» в настройках

После покупки HTC Hero у меня возник вопрос: как получать интернет на коммуникаторе через компьютер? С моим предыдущим коммуникатором Toshiba G900 под управлением WindowsMobile 6 было все просто: установил «центр мобильных устройств», и на коммуникаторе появился интернет. «Эта функция не нужна», — скажите вы, ведь сейчас много точек доступа Wi-Fi, через которые можно подключиться двумя кликами. Но вот лично у меня нет Wi-Fi точки (есть ноутбук, но Android не обнаруживает Ad-hoс сети). Поэтому я был огорчен отсутствием этой функции. Все мои попытки найти мануалы на эту темы — не увенчались успехом. Поэтому я решил это сам.
Внимание: Для работы ножен root пользователь.
Читать дальше →
Total votes 71: ↑58 and ↓13+45
Comments87

Scene #20: история программ создания музыки на PC

Reading time1 min
Views2.6K
Новый подкаст из серии Scene. Хотя, этот подкаст уже вполне можно назвать телепередачей. Тема выпуска — история музыкальных трекеров (программ для создания музыки на PC).

image

Скачать mov-файл (730 мб)
Смотреть в он-лайне на страничке подкаста

Рассказывает Lyzzard/cornercut
Монтаж Manwe/SandS

Прочие аудио и видео-подкасты о демосцене можно найти здесь: http://scene.rpod.ru/
Total votes 66: ↑58 and ↓8+50
Comments56

Dingoo A320 — урожайный год!

Reading time4 min
Views23K

Не секрет, что в США полным ходом идет E3 — крупнейшее событие в игровой индустрии. Sony, Nintendo, Microsoft — все показывают свои новейшие достижения в области развлечений. И лишь одного революционного продукта на этой выставке вы никогда не увидите. Это портативная игровая консоли Dingoo A320. Более года прошло с появления «на сцене» этого весьма неоднозначного гаджета. Нет смысла повторять все дифирамбы в честь Dingoo, его детальный unbox и обзор уже был на Хабре. Лучше попробуем понять причины его воистину бешеной популярности среди гиков.

Итак, мечту человечества о портативном устройстве, на котором можно безнаказанно предаваться ностальгии по игровым системам Nintendo, Sega, NeoGeo и Capcom воплотила в жизнь маленькая и довольно бедная компания Shenzhen Dingoo Digital Co. Да, прямо «из коробки», без манипуляций с прошивкой и плясок с бубном вы можете эмулировать игры от перечисленных выше консолей просто скопировав их в память устройства.
Читать дальше →
Total votes 110: ↑101 and ↓9+92
Comments179

Китайский тачскрин-телефон за 70 у.е. — чего ожидать?

Reading time4 min
Views8.6K
Так уж случилось, что одного прекрасного дня попал ко мне в руки китайский тачскрин-телефон — подделка аналог iPhone. Точнее от iPhone тут только часть оформления меню и внешнего вида.

Имя ему SciPhone i9+++. Аппарат был заказан моим другом напрямую из чайнатауна. Стоимость — 71 у.е. вместе с пересылкой. На таможенном ярлыке значится стоимость пересылки в 25 у.е.
Читать дальше →
Total votes 87: ↑75 and ↓12+63
Comments91

Neverhood Songs

Reading time1 min
Views1.5K
Удивительно, но до сих пор на хабре не было топика, посвященного этому ни на что не похожему саундтреку. Удивительная музыка из легендарной игры:

http://www.youtube.com/watch?v=WreJGBEF5iA

Архив со всеми аудиозаписями (163 мегабайта):
Народ.Диск
RapidShare

Купить лицензионный диск
Total votes 178: ↑117 and ↓61+56
Comments72

Реализация сервисов в MSWin

Reading time14 min
Views1.2K
По рабочей необходимости приходится иногда писать системные сервисы для Microsoft Windows.

На Хабре уже есть статья Создание своего Windows Service , но по моему мнению — статья не более чем краткий обзор, который можно найти в MSDN. В ней не рассмотрены, например, возможные варианты поведения сервиса в случае ошибки, или запись в журналы сообщений.
Постараюсь, используя опыт написания такого рода приложений, изложить максимально возможный объем информации.
Читать дальше →
Total votes 22: ↑19 and ↓3+16
Comments4

Квартет Анскомбе

Reading time1 min
Views5.3K
Статистика — это такой инструмент… Очень страшный в неумелых руках. В умелых того страшнее, способен разорвать мозг на куски.

Вот есть последовательности A, B, C и D, про которые известно следующее:
  A B C D
Среднее значение x 9.00 9.00 9.00 9.00
Дисперсия х 10.00 10.00 10.00 10.00
Среднее значение y 7.50 7.50 7.50 7.50
Дисперсия y 3.75 3.75 3.75 3.75
Корреляция между x и y 0.82 0.82 0.82 0.82
Прямая линейной регрессии y = 3 + 0.5 x y = 3 + 0.5 x y = 3 + 0.5 x y = 3 + 0.5 x
То есть все указанные величины для них совпадают. По крайней мере, до второго знака после запятой.
А теперь смотрим глазами
Total votes 122: ↑114 and ↓8+106
Comments68

Information

Rating
Does not participate
Location
Nürnberg, Bayern, Германия
Registered
Activity