Articles / Bookmarks / Profile of Mirror / Habr

How to become an author

User

ProfileArticlesPostsNewsComments238

rg_software Nov 29 2010 at 07:29

NLP: проверка правописания — взгляд изнутри (часть 3)

4 min

4.4K

Natural Language Processing*Artificial Intelligence

(Часть 1, Часть 2) В прошлый раз я преждевременно упомянул токенизацию; теперь можно поговорить и о ней, а заодно и о маркировке частей речи (POS tagging).

Предположим, мы уже выловили все ошибки (какие догадались выловить) на уровне анализа текста регулярными выражениями. Стало быть, пора переходить на следующий уровень, на котором мы будем работать с отдельными словами предложения. Разбиением на слова занимается модуль токенизации. Даже в столь простой задаче есть свои подводные камни. Я даже не говорю о языках вроде китайского и японского, где даже вычленение отдельных слов текста нетривиально (иероглифы пишут без пробелов); в английском или в русском тоже есть над чем подумать. Например, входит ли точка в слово-сокращение или представляет собой отдельный токен? («др.» — это один токен или два?) А имя человека? «J. S. Smith» — сколько здесь токенов? Конечно, по каждому пункту можно принять волевое решение, но в дальнейшем оно может привести к различным последствиям, и это надо иметь в виду.

Примерно так я рассуждал на начальных этапах нашего проекта, теперь же склоняюсь к тому, что в задачах обработки текстов частенько приходится подчиняться решениям других людей. Это будет уже ясно на примере маркировки частей речи.

Читать дальше →

+23

rg_software Nov 27 2010 at 06:07

NLP: проверка правописания — взгляд изнутри (часть 2)

6 min

4K

Artificial IntelligenceNatural Language Processing*

(Часть 1) Сегодня мы поговорим об уровнях понимания текстов нашей системой, о том, какие ошибки правописания отловить просто, какие не очень просто, а какие запредельно сложно.

Начнём с того, что текст можно рассматривать с двух точек зрения: либо как простую последовательность слов, пробелов и знаков препинания, либо как сеть связанных между собой синтактико-семантическими зависимостями понятий. Скажем, в предложении «я люблю больших собак» можно расставить слова в любом порядке, при этом структура связей между словами будет одна и та же:

Читать дальше →

+43

Boomburum Nov 27 2010 at 00:56

«Тайна» журнала Vogue

4 min

41K

Computer hardware

Немного официальной информации по поводу последнего журнала Vogue, а, точнее, о его интерактивном модуле.

Читать дальше →

+36

rg_software Nov 25 2010 at 18:11

NLP: проверка правописания — взгляд изнутри (часть 1)

4 min

7.4K

Natural Language Processing*Artificial Intelligence

Читавшие мои предыдущие публикации знают, что пишу я достаточно редко, но обычно сериями. Хочется собраться с мыслями на заданную тему и разложить их по полочкам, не втискивая себя в прокрустово ложе одной короткой статейки.

На сей раз появился новый повод поговорить об обработке текстов (natural language processing то бишь). Я разрабатываю модуль проверки правописания для одной конторы. На выходе должна получиться функциональность, аналогичная встроенной в MS Word, только лучше :) Не могу пока назвать себя крупным специалистом в этой области, но стараюсь учиться. В заметках постараюсь рассказать о том, куда движется наш проект, как устроен тот или иной этап обработки текста. Может, в комментариях услышу что-нибудь новое/интересное и для себя. Если проекту с этого будет польза — прекрасно. Как минимум, устаканю данные у себя в голове, а это тоже неплохо.

Читать дальше →

+22

alizar Nov 23 2010 at 13:57

DropMocks: самый простой способ делиться фотографиями

1 min

703

Cloud services*

Один из неизвестных веб-проектов, сделанных сотрудниками Google — сервис DropMocks (назван, очевидно, по аналогии с Dropbox): изумительно простой и концептуальный способ публикации изображений. Просто перетягиваете один или несколько снимков с десктопа в браузер — и получаете ссылки. Работает поразительно быстро и даже без регистрации. Проще, наверное, уже невозможно. Фотогалерея с десятками фотографий создаётся за пару секунд.

Сервис сделан исключительно на CSS и Javascript, без применения Flash. Автор — Глен Мёрфи (Glen Murphy), UI-дизайнер браузера Google Chrome и операционной системы Chrome OS.

+90

mythmaker Nov 18 2010 at 19:47

Доброкнижка про HTML5 от Google

1 min

2.3K

Пока в интернетах идут войны на тему HTML5, убьет он Flash или нет, компания Google выпустила онлайн книгу 20 Things I Learned About Browsers & The Web. И это действительно книга!

Ребята создали веб-приложение, напоминающее детскую книгу, ее можно листать, оставлять закладки, а посвящена она веб-технологиям.

Читать дальше →

+101

recompileme Nov 10 2010 at 16:18

Загрузка контента через YQL

1 min

5.5K

Возможно для вас, как и для меня, станет новостью то, что используя язык запросов Yahoo! Query Language — можно выдрать контент практически с любой страницы непосредственно в браузере (через javascript). Т.е. отпадает необходимость в использовании сервер-сайд кода и библиотек типа curl.

Выглядит это примерно так:
DELETE FROM HTML WHERE 1=1

Даже больше. YQL позволяет выполнять GET и POST HTML запросы.

Как это использовать — да по разному. Вот, для наглядности/примера — украл яндекс) (view source code вам поможет). Можно подглядеть информацию, закрытую корпоративным фаерволом.
А можно и поиграться с кросс-доменными запросами.
Тут уж у кого какая фантазия.

+43

Proig Nov 10 2010 at 00:12

Особенности оптимизации ИТ-проекта при выходе в немецкий сегмент

5 min

1.1K

Search engine optimization*IT-emigration

Предположим, у вас есть замечательный проект. Неважно, какой именно — возможно, это программа, распространяемая по принципу shareware или удобный социальный сервис.

На определенном этапе рано или поздно возникает желание, а то и необходимость расширяться за пределы «родного» для сайта языкового сегмента, будь он русско- или англоязычный. Тем более, что для непродвинутых пользователей замкнутых языковых сегментов в той же мере характерна нелюбовь к англоязычным сайтам, что и для обитателей рунета.

Казалось бы, всё просто — нанял переводчика, залил переведенные страницы на сайт — и радуйся. Но реальность, как всегда, куда веселее.

Несколько лет назад мне довелось поучаствовать в выводе нескольких проектов в немецкий сегмент Сети. Ту феерию факапов и заморочек я не забыл до сих пор.

Поскольку я этим больше не занимаюсь, я решил рассказать хабрапользователям о некоторых неочевидных моментах, связанных с работой в немецком сегменте, дабы те не устрашились и не повторили наш славный путь по граблям.

Статья рассчитана в первую очередь на тех, кто не знает немецкого языка и не имеет опыта работы в de-net'е.

В случае возникновения каких-либо вопросов я с радостью отвечу в комментах или личке.

Читать дальше →

+74

fralik Feb 5 2010 at 14:59

GitHub, вебсайт и автоматическое создание тестового сайта из последней версии исходных кодов

11 min

3.9K

Речь в данной статье пойдет о том, как автоматически получать свежую версию исходников из основной ветки вашего репозитория и разворачивать из нее проект на виртуальном хостинге. Сразу хочу отметить, что с GitHub'ом и Git'ом я познакомился только вчера. Поэтому матерым веб–программистам эта статья может показаться тривиальной. А тем, кто еще только начинает свой путь веб–программиста, надеюсь, поможет.

Читать дальше →

+8

youROCK Sep 19 2009 at 21:50

Движок СУБД на PHP

4 min

3.4K

PHP*Database Administration*

Здравствуйте, уважаемые читатели. Моя СУБД не является портом никакой из существующих СУБД на PHP (в отличие от C#-SQLITE, к примеру), а является уникальной разработкой. Основным отличием от существующих движков, вроде TxtSQL, является поддержка индексов. Если используется только PRIMARY INDEX, скорость вставки на моём ноутбуке достигает 5000/сек. Для PHP, как мне кажется, это вполне неплохо.

Читать дальше →

+135

Roxis Oct 28 2008 at 13:24

Когда файлы не хуже, чем memcached

1 min

1.7K

Кеш на файлах не медленней memcached.
Нужда в memcached отпадает, если Вам нужен локальный (не распределённый) кеш размером не более свободной оперативки.

+3

unconnected Oct 29 2010 at 09:47

Фатальный выбор

8 min

2.5K

Translation

В своей предыдущей статье (en), я рассказывал об истории японского проекта вычислительных систем пятого поколения, запущенного под звон фанфар в 1982 и почившего в 1992, прихватив с собой логическое программирование. В этой я расскажу о том, как в качестве языка для систем пятого поколения был выбран Пролог, вместо более очевидного Лиспа. Мне интересен феномен людей, способных формировать приверженцев того или иного языка. Надеюсь, в этой статье я смогу объяснить его.

Читать дальше →

+48

faxenoff Oct 28 2010 at 22:41

Веб-патология: Нет кнопки для нажимания

3 min

2.5K

Капитан Очевидность опять будет смеяться, но факты таковы: у доброй половины обратившихся ко мне за консультацией с проблемой “Плохие продажи” — на сайте возле описания товара отсутствовала цена и кнопка [Купить]! При этом создатели сайта не вызывали никаких сомнений в умственной полноценности, наоборот, уровень их сайтов был гораздо выше среднего. Этому есть вполне разумное объяснение и лежит оно опять же в области UX дизайна и моделирования опыта пользователей.

Читать дальше →

+64

Drizzly Oct 28 2010 at 11:57

Россияне предпочитают выбирать товар в онлайне, а покупать в оффлайне?

2 min

2K

В апреле этого года IAB Europe в партнерстве с TNS Infratest и Google провела исследование среди интернет-пользователей 39 стран, включая Россию. Цель исследования — понять, как потребители используют Интернет для поиска и приобретения разных товаров.
Респондентам были заданы более 100 вопросов об их он-лайн активности, отношению к интернет-магазинам и схеме совершения покупок. Данные выложены в открытом доступе в в виде открытой базы данных «Потребительский барометр». Каждый желающий может построить интересующие его диаграммы. Я же поделюсь тем, что меня удивило больше всего.

Много интересных и неожиданных диаграмм по результатам исследования под катом.

Читать дальше →

+37

NaFigator Oct 23 2010 at 17:08

30 копеек для Михалкова

1 min

55K

Некий ccketchup, как и многие другие другие пользователи рунета и хабра, остался недоволен «сборами с болванок» в пользу Российскиого союза правообладателей (РСП), учрежденного режиссером Никитой Михалковым.

В общем… Он пошёл дальше недовольств в комментариях к новостям и сегодня предложил идею небольшой оффлайн-акции, начав её своим примером — пошёл на почту и отправил на адрес РСП чистую болванку, а также 6 монеток по 5 копеек письмом с уведомлением о вручении:

И, кажется, нашёл поддержку в массах — завтра и в начале грядущей недели на почту собирается довольно большое количество людей, чтобы отправить свою часть податей светлоликому Никите Сергеевичу.

Адрес и нюансы под катом.

Читать дальше →

+558

artifex Oct 21 2010 at 02:04

История создания Ubuntu

5 min

17K

История Ubuntu берёт своё начало в апреле 2004-го. Но прежде чем рассказать о самой Ubuntu, стоит упомянуть о некоторых ключевых фигурах и событиях, которые предшествовали её появлению.

Марк Шаттлворт

Ни одна история Ubuntu не может быть полной без истории своего основателя — Марка Шаттлворта.

Марк Шаттлворт на МКС

Марк Шаттлворт на МКС

Марк Шаттлворт родился в 1973-м году, в городе Велком провинции Фри-Стейт, ЮАР. Он посещал авторитетный колледж Diocesan и получил докторскую степень в области финансов и информационных систем в Университете Кэйп-Тауна. В этот период, Марк был страстно увлечён компьютером и стал активным участником сообщества Open Source. По крайней мере косвенно, он принимал участие в проектах Apache и Debian, и был первым человеком, который загрузил веб-сервер Apache, вероятно наиболее важное серверное приложение для платформы GNU/Linux, в архивы проекта Debian.

Увидев возможности и потенциал интернета, Шаттлворт основал в своём гараже центр сертификации и компанию по интернет-безопасности, названную Thawte. За несколько лет он вырастил Thawte во второй по величине центр сертификации во всём интернете, уступив лишь киту безопасности — компании Verisign. К слову, продукты и сервисы Thawte были построены и обслуживались свободным программным обеспечением. В декабре 1999-го, Шаттлворт продал Thawte компании Verisign за сумму, которая не разглашается, но которая, по слухам, составила порядка нескольких сотен миллионов американских долларов.

С такой фортуной в молодом возрасте, Шаттлворт мог бы наслаждаться безбедной жизнью. Но вместо этого, он решил реализовать свою заветную мечту — отправиться в космическое путешествие. После оплаты порядка 20 миллионов долларов русской космической программе и посвятив около года на подготовку, включая изучение русского языка и тренировки в Звёздном городке, Шаттлворт реализовал мечту в качестве гражданского космонавта на борту русского Союза TM-34. Шаттлворт провёл 2 дня в ракете Союз и 8 дней на Международной Космической Станции, где принимал участие в экспериментах, посвящённых изучению СПИДа и генома. В начале мая 2002-го, Марк Шаттлворт вернулся на Землю.

В дополнение к исследованию космоса и увеселительной поездке в Антарктику, Шаттлворт играл активную роль как филантроп и венчурный капиталист. В 2001-м, Шаттлворт основал Фонд Шаттлворта (Shuttleworth Foundation, TSF), некоммерческую организацию, расположенную в Южной Африке. Фонд был основан для финансирования, разработки и внедрения инноваций в области образования. Разумеется, в качестве средств, с помощью которых TSF пытался достичь своих целей, применялось и свободное программное обеспечение. В рамках этих проектов, организация стала одним из самых видных сторонников СПО в Южной Африке и вообще в мире. В области венчурного капитала, Шаттлворт оказывал содействие научным исследованиям, разработкам и предпринимательству в Южной Африке со стратегическими инъекциями денежных средств в стартапы через новую фирму венчурного капитала, названную HBD, что означает «Here Be Dragons» («Тут Драконы»). В этот период, Шаттлворт был занят мозговыми штурмами для своего следующего крупного проекта, который в конечном счёте станет Ubuntu.

Читать дальше →

+176

alizar Oct 14 2010 at 13:39

Бэкенд Twitter перешёл на Protocol Buffers

2 min

4.3K

Social networks and communities

Хотя основные копии пользовательских твитов хранятся в базах данных MySQL и Cassandra, компания также разворачивает дополнительное хранилище на Hadoop, которое можно будет использовать для аналитики и дополнительных программных приложений.

Информацию из этой системы можно запрашивать с помощью Java MapReduce или Pig, собственного SQL-подобного языка запросов Hadoop. В данный момент на этот бэкенд уже переведена система поиска, а в будущем появятся и другие приложения.

Отвергнув популярные технологии вроде XML, CSV и JSON, программисты Twitter выбрали в качестве формата для хранения данных бэкенда относительно неизвестный формат Protocol Buffers, разработанный в Google (он уже обсуждался на Хабре). Технические подробности реализации были оглашены представителями Twitter на конференции HadoopWorld во вторник.

Читать дальше →

+39

marks Oct 12 2010 at 10:31

Google собирается заняться подсчетом индекса инфляции

2 min

687

Причем делать это поисковик будет на основе открытых данных, доступных в Сети. Инфляцию Google будет определять как в качестве общемирового, так и регионального показателя. В качестве основного источника информации будут использоваться данные различных интернет-магазинов, Google Price Index. Разработчики нового проекта Google утверждают, что Google Price Index вполне подходит для выведения индекса инфляции, поскольку принципы работы Google Price Index похожи на принципы, действующие для реальных экономических индексов.

Читать дальше →

+40

Boomburum Oct 11 2010 at 17:03

Мой опыт восстановления зрения

9 min

279K

Tutorial

Этим летом я был на некоторое время предоставлен сам себе – всех своих я отправил подальше от дыма, а сам, недолго думая, решил немного подтянуть здоровье. Не просто записаться в тренажерный зал и накачать «квадратиков» для пляжа, а именно обследоваться у некоторых врачей, чтобы выработать для себя вектор дальнейших действий, дабы совсем не превратиться в «овоща».

Расскажу лишь про свой опыт восстановления зрения – именно оно больше всего подвержено риску у любого «компьютерного» человека.

Читать дальше →

+301

marks Oct 10 2010 at 20:15

Google создал роботизированный автомобиль

2 min

2.1K

Как оказалось, Google не только создает уникальные интернет-сервисы или удобные коммуникаторы — сейчас корпорация занялась проблемой безопасности на дорогах. Для решения проблемы разработчики создают автоматизированную систему управлением автомобилей, которая способна управлять авто вовсе без участия человека. И это не просто идея или концепт — вполне рабочие авто с такой системой уже наездили более 225 тысяч (!) километров. По словам разработчиков, автомобили накатал такой пробег при совершении поездок между офисами компании, плюс путешествие по озеру Тахо и другим местам.

Читать дальше →

+81

2

3 4 ...