Pull to refresh
7
0
ptalus @ptalus

User

Send message

Понимание компьютером текста: действительно ли всё так плохо?

Reading time 8 min
Views 14K
Совсем недавно на Хабре появился пост, в котором автор уверенно заявляет о том, что компьютер никогда не сможет понимать текст так, как его понимает человек. В доказательство он приводит ряд непосильных для машины задач, делая упор на отсутствие эффективных алгоритмов и невозможность моделирования полноценной системы, в которой были бы учтены все возможные варианты построения текста. Однако действительно ли всё так плохо? Правда ли, что для решения подобных задач нужны невероятные вычислительные мощности? И в каком вообще состоянии находится область обработки текстов на естественных языках?
Читать дальше →
Total votes 88: ↑83 and ↓5 +78
Comments 183

Советский «брендбук»

Reading time 1 min
Views 4.3K
image

В это воскресенье, по дороге на Одесский «Староконный» рынок мне несказанно повезло. Всего за 5 гривен (20 рублей) я стал счастливым обладателем советского брендбука. Если быть точнее, это руководство по оформлению Украины в духе решений 26-го съезда КПСС. Особенно интересна текстовая часть (см. Приложения).

Раритет интересен не только фактом своего существования. Такого обстоятельного и детального «гайдлайна» я не встречал уже давно. Господа дизайнеры и сочувствующие — наслаждайтесь PDF-ом на Issuu. Вставить не получается :)
Total votes 122: ↑118 and ↓4 +114
Comments 69

NLP: проверка правописания — взгляд изнутри (часть 3)

Reading time 4 min
Views 4.2K
(Часть 1, Часть 2) В прошлый раз я преждевременно упомянул токенизацию; теперь можно поговорить и о ней, а заодно и о маркировке частей речи (POS tagging).

Предположим, мы уже выловили все ошибки (какие догадались выловить) на уровне анализа текста регулярными выражениями. Стало быть, пора переходить на следующий уровень, на котором мы будем работать с отдельными словами предложения. Разбиением на слова занимается модуль токенизации. Даже в столь простой задаче есть свои подводные камни. Я даже не говорю о языках вроде китайского и японского, где даже вычленение отдельных слов текста нетривиально (иероглифы пишут без пробелов); в английском или в русском тоже есть над чем подумать. Например, входит ли точка в слово-сокращение или представляет собой отдельный токен? («др.» — это один токен или два?) А имя человека? «J. S. Smith» — сколько здесь токенов? Конечно, по каждому пункту можно принять волевое решение, но в дальнейшем оно может привести к различным последствиям, и это надо иметь в виду.

Примерно так я рассуждал на начальных этапах нашего проекта, теперь же склоняюсь к тому, что в задачах обработки текстов частенько приходится подчиняться решениям других людей. Это будет уже ясно на примере маркировки частей речи.
Читать дальше →
Total votes 37: ↑30 and ↓7 +23
Comments 50

Кроссдоменный AJAX на основе CSS

Reading time 1 min
Views 2.3K
Недавно столкнулся с проблемой как передать данные с сервера A в
javascript на сервер B, если на сервере B серверный код писать нельзя,
а на А можно.
И нашел элегантное решение.
Суть решения в том, что для использования предлагается объект
CSSHttpRequest, предоставляющий выполнять AJAX-запросы на базе CSS. Это
работает, поскольку CSS не имеет ограничений безопасности, которые имеет
стандартный объект XMLHttpRequest.
В отличие от JSONP имеет ограничение только на GET-запросы. Также есть некоторые проблемы совместимости с браузерами
Код выглядит следующим образом.
CSSHttpRequest.get(<br> "http://www.nb.io/hacks/csshttprequest/hello-world/",<br> function(response) { alert(response); }<br> );

Данные кодируются на сервере в виде 2-х килобайтных цепочек. Ответ
возвращается в в виде:
 #c0 { background: url(data:,Hello%20World!); }<br> #c1 { background: url(data:,I’m%20text%20encoded%20in%20CSS!); }<br> #c2 { background: url(data:,I%20like%20arts%20and%20crafts.); }

На сервере B с помощью javascript создается невидимый IFRAME, в который
и загружается CSS.
Это также работает и в XHTML.

Данное решение совместимо с IE6+, Firefox 2+, Safari 3+, iPhone.
Вид лицензии: Apache License
Total votes 33: ↑28 and ↓5 +23
Comments 14

«Намертво прибитая к ядру» графическая подсистема

Reading time 6 min
Views 16K


То, что принято называть «графикой в ядре» обычно относится к win32k. Win32k.sys представляет собой ядерную часть графической подсистемы. Загружается пользовательским процессом smss.exe в процессе инициализации всех остальных подсистем. Путь к исполняемому образу для «kmode» подсистемы прописан здесь:


Как же это происходит?
Читать дальше →
Total votes 271: ↑246 and ↓25 +221
Comments 120

Here be dragons: Управление памятью в Windows как оно есть [1/3]

Reading time 8 min
Views 174K

Каталог:
Один
Два
Три

Менеджер памяти (и связанные с ним вопросы контроллера кеша, менеджера ввода/вывода и пр) — одна из вещей, в которой (наряду с медициной и политикой) «разбираются все». Но даже люди «изучившие винду досконально» нет-нет, да и начинают писать чепуху вроде (не говоря уже о другой чепухе, написанной там же):
Грамотная работа с памятью!!! За все время использования у меня своп файл не увеличился ни на Килобайт. По этому Фаерфокс с 10-20 окнами сворачивается / разворачивается в/из трея как пуля. Такого эффекта я на винде добивался с отключенным свопом и с переносом tmp файлов на RAM диск.

Или к примеру μTorrent — у меня нет никаких оснований сомневаться в компетентности его авторов, но вот про работу памяти в Windows они со всей очевидностью знают мало. Не забываем и товарищей, производящих софт для слежения за производительностью и не имеющих ни малейшего понятия об управлении памятью в Windows (и поднявших по этому поводу истерику на пол интернета, на Ars-е даже был разбор полетов). Но самое потрясающее, что я видел всвязи с управлением памятью — это совет переместить pagefile на RAM-диск:
Из моих трех гигабайт под RAM disk был выделен один (на тот момент, когда на лаптопе еще была установлена XP), на котором я создал своп на 768МБ ...

Цель данной статьи — не полное описание работы менеджера памяти (не хватит ни места ни опыта), а попытка пролить хоть немного света на темное царство мифов и суеверий, окружающих вопросы управления памятью в Windows.
Читать дальше →
Total votes 360: ↑338 and ↓22 +316
Comments 85

Редактор кода с подсветкой синтаксиса популярных языков — Touchqode

Reading time 2 min
Views 35K
У меня, как у web-программиста, иногда возникает острая необходимость внести какие-то изменения в код сайта, когда под рукой нет компьютера/ноутбука. Сейчас на Android написано несколько хороших FTP и SSH клиентов, которые позволяют без проблем работать с удалённым сервером до того момента, пока не требуется редактирование кода. С существующими текстовыми редакторами это ужасно неблагодарное занятие, учитывая что никакого намёка на ориентированность на программистов у этих программ нет. Но на днях я узнал про Touchqode, который успел меня уже один раз выручить.


Читать дальше →
Total votes 67: ↑56 and ↓11 +45
Comments 40

Chatroulette своими руками — 50 строк кода

Reading time 1 min
Views 28K
image
Пару месяцев назад я приглашал всех на веб-семинар о p2p во Flash, но сделал это слишком поздно, поэтому наверняка большое количество желающих на него не попало. Самое ценное, что я извлек из этого семинара — то, что peer-to-peer приложения во Flash делать очень легко. Правда у самого руки очень долго до этого не доходили.

Но буквально вчера руки очень сильно зачесались, и посидев ночку я разобрался в том, как работает технология p2p во Flash. Соединить видеопотоки двух flash-клиентов мне показалось мало, поэтому решил сделать что-то более интересное:
  1. Пользователь открывает страничку
  2. Выбирает тему для разговора (один из постов на главной хабры)
  3. Разговаривает со всеми, кто выбрал эту же тему

Сделал. Тут мой пример видеоконференции, исходники клиента и сервера можно скачать отсюда. Минимальные требования для примера — наличие Flash Player 10 и вэб-камеры.

UPD: Все это добро хостится на AppEngine, могут закончиться бесплатные квоты и все перестанет работать. Перекинул клиента на narod.ru. Если работать не будет — заходите сюда
Total votes 78: ↑72 and ↓6 +66
Comments 59

Делаем загрузочно-установочную флешку

Reading time 2 min
Views 773K
После поста о восстановлении флешек, оказалось, что у многих теперь есть рабочие, бесхозные флешки, которые обязательно нужно задействовать. Почему бы не сделать из них загрузочные флешки с дистрибутивами необходимых ОС? Это может здорово пригодиться при установке/переустановке операционных систем на нетбуки, где отсутствуют приводы оптических носителей. А иногда может даже ускорить процесс установки и сделать его намного тише на компьютере, где привод есть.
Хотя на Хабре уже описывались варианты создания загрузочных флешек, но вариант, который предлагаю я — слишком прост и по своему универсален, чтобы обойти его стороной.

image
Читать дальше →
Total votes 161: ↑142 and ↓19 +123
Comments 54

Организация живой трансляции с ip камеры на сайте

Reading time 7 min
Views 20K

Введение

Задача
Рассмотрим задачу по организации на сайте живой видео трансляции с ip камеры. Наш стенд состоит из трёх составных частей:
  • ip камера
  • медиасервер
  • flash плеер в браузере на стороне клиента
Читать дальше →
Total votes 31: ↑30 and ↓1 +29
Comments 15

Boogie Board — замена бумажным блокнотам

Reading time 3 min
Views 15K
   Дома и на работе часто требуется что-нибудь записать или что-то нарисовать, при этом актуальность данной информации исчисляется минутами, если не секундами. Обычно для этих целей я использовал PostIt и/или линованные блокноты небольшого формата, что удобно, но очень расточительно, как в плане денег так (ну относительно конечно же), так и в плане ресурсов планеты и прочих «зеленых» вещей, да и на дворе 21й век как-никак =) И вот на глаза мне попалась хабра-новость LCD замена бумажному блокноту и я решил такую штуку приобрести.
Что из этого получилось
Total votes 76: ↑68 and ↓8 +60
Comments 118

Технология радиоприема 21 века

Reading time 4 min
Views 8.8K
Думаю, тему стоит начать с того, что для вас приемник? Эта такая штуковина с кучей деталей, обязательно с катушками и регулировкой частоты. Неважно, имеет ли приемник цифровой дисплей, или просто крутилку для выбора частоты, либо это TV тюнер стоящий у вас в компьютере и управляемый с компьютере. Все они имеют общий принцип построения, придумать что-то новое, казалось бы, невозможно. Сейчас мы перевернем ваше представление о приемниках, какими они были и какими они стали, особо не углубляясь в тонкости.

imageВзгляните: приемники, представленные на рисунке (№1 — профессиональный связной приемник, №2 — приемник, собранный по новой технологии цифрового моделирования), равны по характеристикам; к тому же приемник №2 является еще и многофункциональным ИЗМЕРИТЕЛЬНЫМ прибором! (Конечно, для работы нового приемника необходим компьютер, но об этом дальше.)

Читать дальше →
Total votes 33: ↑32 and ↓1 +31
Comments 16

Мини-обзор Joomla клиентов

Reading time 3 min
Views 632
Здравствуйте!
Так получилось, что столкнулся я с человеком, которому было сложно объяснить как устроена административная панель (далее для простоты «админка») горячо мною любимой Joomla. Дело в том, что админка перегружена лишней для менеджера информацией, и даже когда ограничиваешь уровень пользователя остается много вопросов, да и человек этот в силу возраста не привык работать с web-интерфейсами.
В тот момент я задумался о написании некого клиента для джумлы, однако поиск указал мне на пару проектов о которых я и хочу рассказать.
Читать дальше →
Total votes 34: ↑22 and ↓12 +10
Comments 15

MIX'10: день второй, Internet Explorer наносит ответный удар!

Reading time 8 min
Views 1.5K
image

В Лас Вегасе начался второй день конференции MIX – крупнейшей конференции на тему web-разработки. Если вы пропустили темы и анонсы первого дня конференции, то смело наверстывайте в этом обширном посте. Если вы еще не в курсе, что это за конференция, то прошу ознакомится с другой статьей, в которой я пытался рассказать о ней более или менее подробно.

Кроме того, начали выкладывать первые записи сессий для скачивания. Спешите видеть! Видео самого кейнота, про который пойдет речь , доступно здесь

Итак. Что нам принес второй день MIX? Вернее, открытие второго дня. Поскольку у меня, когда я начал писать заметку, была половина 12 ночи, а в Лас Вегасе только начинался новый день.

Ответ один и он сокрушительный: Internet Explorer вернулся! Да, иногда они возвращаются. Казалось бы, еще утром я с сомнением оценивал шансы IE9, а сейчас вижу, что он не только догнал, но и перегнал своих конкурентов на их же поле. Но обо все по порядку.

Если вы хотите узнать про: GPU-акселерацию HTML5/SVG и типографики, поддержку и GPU-акселерацию HTML5 Video, полную поддержку селекторов CSS3, мультиядерную обработку JavaScript и о том, как пали в битве скорости и поддержки стандартов Firefox и Chrome… обращайтесь под кат (а так же там есть другие, менее интересные вещи: jQuery и Джон Ресиг, кровь и Билл Бакстон, протокол oData и проект Gustav). Осторожно, много картинок!

Читать дальше →
Total votes 195: ↑140 and ↓55 +85
Comments 195

Zeus trojan первое знакомство

Reading time 3 min
Views 3.2K
Привет, Хабр!
Вот увидел «волну» статей про хеки, непохеки, 1337 h4x0rz… etc. И тут подумал что Хабру будет интерестно почитать про малварь и как она работает не от кросспостинга новостей, а так сказать от рук которые с ней работали.

Сразу оглашу это:
Вся информация в этой статье предоставлена чисто для ознакомления и рассчитана прежде всего указать на ошибки в системах безопасности.


В большинстве случаев антивирус(далее АВ) справлялся со всеми вредными зверушками, но в один прекрасный солнечный денек :) мне пришлось залезть, так сказать, под капот одной из этих «зверушек».

Дело было в в августе 44-го2008-го года. На то время я был немного технически и практически подкован в плане борьбы с всякого рода малварями и тп.

Так вот, лазая по сайтам сомнительного характера, на которые меня направил поисковик в поисках нужной мне софтины, nod32 вдруг закричал, что мне пытаются скормить нечто Trojan-Spy.Win32.Zbot(далее zeus\zbot\зевс). Понятия не имею что мне в голову стукнуло, но уж очень приспичило изучить это зверюгу.

Про то как я наблюдал за зевсом, вышел на его командный центр и получил доступ к нему, под катом.
Читать дальше →
Total votes 26: ↑13 and ↓13 0
Comments 10

Несколько терминальных подключений WindowsXP

Reading time 5 min
Views 5K
image
Поскольку часто приходится подключаться к удаленным машинам, и нужно, чтобы пользователи продолжали дальше работать на своих компьютерах, стало необходимо сделать так, чтобы одновременные терминальные сессии были возможны для Винды.

Началось, как всегда с гугления, но результаты давали или ЕХЕшник с трояном, или какой-то мудренный способ.
Верю, что где-то в просторах Сети есть таки нужное решение, но почему бы самому не создать велосипед программу, которая активирует сабжевые возможности Винды, из которой была беспощадно убрана поддержка этой замечательной фичи?
Читать дальше →
Total votes 33: ↑24 and ↓9 +15
Comments 44

В Starcraft 2 можно играть с AI на нескольких спецкартах и на разных уровнях сложности

Reading time 1 min
Views 3.6K
Здравствуйте, игрозависимые хабралюди и им сочувствующие! Согласно последним новостям из интернетов, народные умельцы сделали карты, на которых можно играть с AI на разных уровнях сложности. Для того чтобы поиграть, надо заиметь старик, как сказано в этом посте, и после этого сделать следующее:
Читать дальше →
Total votes 120: ↑104 and ↓16 +88
Comments 126

Starcraft 2 запущен в оффлайне. Но играть пока не с кем

Reading time 1 min
Views 2K
Здравствуйте, игрозависимые хабралюди и им сочувствующие!
Согласно последним новостям из интернетов, народные умельцы запустили-таки Starcraft 2 в оффлайне! Правда, играть не с кем, AI не работает. Но уже сейчас можно попробовать потыкаться за разные расы :-)
Читать дальше →
Total votes 185: ↑167 and ↓18 +149
Comments 224

Как я покупал iPod touch на ebay, и как мне пришло не совсем то…

Reading time 5 min
Views 39K
Привет, image
Я хочу рассказать интересную историю, как я покупал на Ebay плеер Apple iPod touch 32Gb. О том, как я использовал «снайпер», пользовался посредником и о том какие проблемы возникли. Я уже больше полугода делаю покупки из-за рубежа и особых проблем по поиску того что мне надо не возникло.
image
Читать дальше →
Total votes 329: ↑295 and ↓34 +261
Comments 284

Об обучении нейросетей

Reading time 3 min
Views 13K
image
Это статья уровня 2 (см. ниже).
Статья является логическим продолжением моего рассказа про сверточные нейронные сети и их применения для распознавания изображений.
Прежде чем продолжить хочу дать понимание чем же все таки занимаются люди из области Машинного обучения и какова их глобальная цель. Глобальная цель — это порабощение всех людей машинами создание методов и алгоритмов, способных путем обучения выстраивать сложные и нелинейные модели внешнего мира. В качестве пояснения предлагаю взглянуть на картинку, благодарно позаимствованную из [1]. Сейчас человечество уже умеет создавать алгоритмы, способные учится простым операциям, но что насчет такого вот преобразования — у нас есть изображение сидящего человека которое по сути является сырым вектором значений яркости картинки в каждой точке. И нам необходимо постепенно повышая абстрактность этих сырых данных сделать вывод «человек сидит». Отсюда собственно главный вопрос: Как создать систему способную не только понять простые (пусть и нелинейные) зависимости, но также обучиться сложным, многомерным и многоуровневым иерархиям представлений реального мира?
Читать дальше →
Total votes 50: ↑47 and ↓3 +44
Comments 32

Information

Rating
Does not participate
Location
Донецкая обл., Украина
Registered
Activity