Search
Write a publication
Pull to refresh
0
0
Mirror @Mirror

User

Send message

NLP: проверка правописания — взгляд изнутри (часть 3)

Reading time4 min
Views4.4K
(Часть 1, Часть 2) В прошлый раз я преждевременно упомянул токенизацию; теперь можно поговорить и о ней, а заодно и о маркировке частей речи (POS tagging).

Предположим, мы уже выловили все ошибки (какие догадались выловить) на уровне анализа текста регулярными выражениями. Стало быть, пора переходить на следующий уровень, на котором мы будем работать с отдельными словами предложения. Разбиением на слова занимается модуль токенизации. Даже в столь простой задаче есть свои подводные камни. Я даже не говорю о языках вроде китайского и японского, где даже вычленение отдельных слов текста нетривиально (иероглифы пишут без пробелов); в английском или в русском тоже есть над чем подумать. Например, входит ли точка в слово-сокращение или представляет собой отдельный токен? («др.» — это один токен или два?) А имя человека? «J. S. Smith» — сколько здесь токенов? Конечно, по каждому пункту можно принять волевое решение, но в дальнейшем оно может привести к различным последствиям, и это надо иметь в виду.

Примерно так я рассуждал на начальных этапах нашего проекта, теперь же склоняюсь к тому, что в задачах обработки текстов частенько приходится подчиняться решениям других людей. Это будет уже ясно на примере маркировки частей речи.
Читать дальше →

NLP: проверка правописания — взгляд изнутри (часть 2)

Reading time6 min
Views4K
(Часть 1) Сегодня мы поговорим об уровнях понимания текстов нашей системой, о том, какие ошибки правописания отловить просто, какие не очень просто, а какие запредельно сложно.

Начнём с того, что текст можно рассматривать с двух точек зрения: либо как простую последовательность слов, пробелов и знаков препинания, либо как сеть связанных между собой синтактико-семантическими зависимостями понятий. Скажем, в предложении «я люблю больших собак» можно расставить слова в любом порядке, при этом структура связей между словами будет одна и та же:

Читать дальше →

NLP: проверка правописания — взгляд изнутри (часть 1)

Reading time4 min
Views7.4K
Читавшие мои предыдущие публикации знают, что пишу я достаточно редко, но обычно сериями. Хочется собраться с мыслями на заданную тему и разложить их по полочкам, не втискивая себя в прокрустово ложе одной короткой статейки.

На сей раз появился новый повод поговорить об обработке текстов (natural language processing то бишь). Я разрабатываю модуль проверки правописания для одной конторы. На выходе должна получиться функциональность, аналогичная встроенной в MS Word, только лучше :) Не могу пока назвать себя крупным специалистом в этой области, но стараюсь учиться. В заметках постараюсь рассказать о том, куда движется наш проект, как устроен тот или иной этап обработки текста. Может, в комментариях услышу что-нибудь новое/интересное и для себя. Если проекту с этого будет польза — прекрасно. Как минимум, устаканю данные у себя в голове, а это тоже неплохо.
Читать дальше →

DropMocks: самый простой способ делиться фотографиями

Reading time1 min
Views703
Один из неизвестных веб-проектов, сделанных сотрудниками Google — сервис DropMocks (назван, очевидно, по аналогии с Dropbox): изумительно простой и концептуальный способ публикации изображений. Просто перетягиваете один или несколько снимков с десктопа в браузер — и получаете ссылки. Работает поразительно быстро и даже без регистрации. Проще, наверное, уже невозможно. Фотогалерея с десятками фотографий создаётся за пару секунд.



Сервис сделан исключительно на CSS и Javascript, без применения Flash. Автор — Глен Мёрфи (Glen Murphy), UI-дизайнер браузера Google Chrome и операционной системы Chrome OS.

Доброкнижка про HTML5 от Google

Reading time1 min
Views2.3K
Пока в интернетах идут войны на тему HTML5, убьет он Flash или нет, компания Google выпустила онлайн книгу 20 Things I Learned About Browsers & The Web. И это действительно книга!

Ребята создали веб-приложение, напоминающее детскую книгу, ее можно листать, оставлять закладки, а посвящена она веб-технологиям.
Читать дальше →

Загрузка контента через YQL

Reading time1 min
Views5.5K
Возможно для вас, как и для меня, станет новостью то, что используя язык запросов Yahoo! Query Language — можно выдрать контент практически с любой страницы непосредственно в браузере (через javascript). Т.е. отпадает необходимость в использовании сервер-сайд кода и библиотек типа curl.

Выглядит это примерно так:
DELETE FROM HTML WHERE 1=1

Даже больше. YQL позволяет выполнять GET и POST HTML запросы.

Как это использовать — да по разному. Вот, для наглядности/примера — украл яндекс) (view source code вам поможет). Можно подглядеть информацию, закрытую корпоративным фаерволом.
А можно и поиграться с кросс-доменными запросами.
Тут уж у кого какая фантазия.

Особенности оптимизации ИТ-проекта при выходе в немецкий сегмент

Reading time5 min
Views1.1K


Предположим, у вас есть замечательный проект. Неважно, какой именно — возможно, это программа, распространяемая по принципу shareware или удобный социальный сервис.

На определенном этапе рано или поздно возникает желание, а то и необходимость расширяться за пределы «родного» для сайта языкового сегмента, будь он русско- или англоязычный. Тем более, что для непродвинутых пользователей замкнутых языковых сегментов в той же мере характерна нелюбовь к англоязычным сайтам, что и для обитателей рунета.

Казалось бы, всё просто — нанял переводчика, залил переведенные страницы на сайт — и радуйся. Но реальность, как всегда, куда веселее.

Несколько лет назад мне довелось поучаствовать в выводе нескольких проектов в немецкий сегмент Сети. Ту феерию факапов и заморочек я не забыл до сих пор.

Поскольку я этим больше не занимаюсь, я решил рассказать хабрапользователям о некоторых неочевидных моментах, связанных с работой в немецком сегменте, дабы те не устрашились и не повторили наш славный путь по граблям.

Статья рассчитана в первую очередь на тех, кто не знает немецкого языка и не имеет опыта работы в de-net'е.

В случае возникновения каких-либо вопросов я с радостью отвечу в комментах или личке.

Читать дальше →

GitHub, вебсайт и автоматическое создание тестового сайта из последней версии исходных кодов

Reading time11 min
Views3.9K
Речь в данной статье пойдет о том, как автоматически получать свежую версию исходников из основной ветки вашего репозитория и разворачивать из нее проект на виртуальном хостинге. Сразу хочу отметить, что с GitHub'ом и Git'ом я познакомился только вчера. Поэтому матерым веб–программистам эта статья может показаться тривиальной. А тем, кто еще только начинает свой путь веб–программиста, надеюсь, поможет.

Читать дальше →

Движок СУБД на PHP

Reading time4 min
Views3.4K
Здравствуйте, уважаемые читатели. Моя СУБД не является портом никакой из существующих СУБД на PHP (в отличие от C#-SQLITE, к примеру), а является уникальной разработкой. Основным отличием от существующих движков, вроде TxtSQL, является поддержка индексов. Если используется только PRIMARY INDEX, скорость вставки на моём ноутбуке достигает 5000/сек. Для PHP, как мне кажется, это вполне неплохо.
Читать дальше →

Фатальный выбор

Reading time8 min
Views2.5K
В своей предыдущей статье (en), я рассказывал об истории японского проекта вычислительных систем пятого поколения, запущенного под звон фанфар в 1982 и почившего в 1992, прихватив с собой логическое программирование. В этой я расскажу о том, как в качестве языка для систем пятого поколения был выбран Пролог, вместо более очевидного Лиспа. Мне интересен феномен людей, способных формировать приверженцев того или иного языка. Надеюсь, в этой статье я смогу объяснить его.
Читать дальше →

Веб-патология: Нет кнопки для нажимания

Reading time3 min
Views2.5K
Капитан Очевидность опять будет смеяться, но факты таковы: у доброй половины обратившихся ко мне за консультацией с проблемой “Плохие продажи” — на сайте возле описания товара отсутствовала цена и кнопка [Купить]! При этом создатели сайта не вызывали никаких сомнений в умственной полноценности, наоборот, уровень их сайтов был гораздо выше среднего. Этому есть вполне разумное объяснение и лежит оно опять же в области UX дизайна и моделирования опыта пользователей.
Читать дальше →

Россияне предпочитают выбирать товар в онлайне, а покупать в оффлайне?

Reading time2 min
Views2K


В апреле этого года IAB Europe в партнерстве с TNS Infratest и Google провела исследование среди интернет-пользователей 39 стран, включая Россию. Цель исследования — понять, как потребители используют Интернет для поиска и приобретения разных товаров.
Респондентам были заданы более 100 вопросов об их он-лайн активности, отношению к интернет-магазинам и схеме совершения покупок. Данные выложены в открытом доступе в в виде открытой базы данных «Потребительский барометр». Каждый желающий может построить интересующие его диаграммы. Я же поделюсь тем, что меня удивило больше всего.

Много интересных и неожиданных диаграмм по результатам исследования под катом.
Читать дальше →

30 копеек для Михалкова

Reading time1 min
Views55K
Некий ccketchup, как и многие другие другие пользователи рунета и хабра, остался недоволен «сборами с болванок» в пользу Российскиого союза правообладателей (РСП), учрежденного режиссером Никитой Михалковым.

В общем… Он пошёл дальше недовольств в комментариях к новостям и сегодня предложил идею небольшой оффлайн-акции, начав её своим примером — пошёл на почту и отправил на адрес РСП чистую болванку, а также 6 монеток по 5 копеек письмом с уведомлением о вручении:

image

И, кажется, нашёл поддержку в массах — завтра и в начале грядущей недели на почту собирается довольно большое количество людей, чтобы отправить свою часть податей светлоликому Никите Сергеевичу.

Адрес и нюансы под катом.
Читать дальше →

История создания Ubuntu

Reading time5 min
Views17K
История Ubuntu берёт своё начало в апреле 2004-го. Но прежде чем рассказать о самой Ubuntu, стоит упомянуть о некоторых ключевых фигурах и событиях, которые предшествовали её появлению.

Марк Шаттлворт


Ни одна история Ubuntu не может быть полной без истории своего основателя — Марка Шаттлворта.

Марк Шаттлворт на МКСМарк Шаттлворт родился в 1973-м году, в городе Велком провинции Фри-Стейт, ЮАР. Он посещал авторитетный колледж Diocesan и получил докторскую степень в области финансов и информационных систем в Университете Кэйп-Тауна. В этот период, Марк был страстно увлечён компьютером и стал активным участником сообщества Open Source. По крайней мере косвенно, он принимал участие в проектах Apache и Debian, и был первым человеком, который загрузил веб-сервер Apache, вероятно наиболее важное серверное приложение для платформы GNU/Linux, в архивы проекта Debian.

Увидев возможности и потенциал интернета, Шаттлворт основал в своём гараже центр сертификации и компанию по интернет-безопасности, названную Thawte. За несколько лет он вырастил Thawte во второй по величине центр сертификации во всём интернете, уступив лишь киту безопасности — компании Verisign. К слову, продукты и сервисы Thawte были построены и обслуживались свободным программным обеспечением. В декабре 1999-го, Шаттлворт продал Thawte компании Verisign за сумму, которая не разглашается, но которая, по слухам, составила порядка нескольких сотен миллионов американских долларов.

С такой фортуной в молодом возрасте, Шаттлворт мог бы наслаждаться безбедной жизнью. Но вместо этого, он решил реализовать свою заветную мечту — отправиться в космическое путешествие. После оплаты порядка 20 миллионов долларов русской космической программе и посвятив около года на подготовку, включая изучение русского языка и тренировки в Звёздном городке, Шаттлворт реализовал мечту в качестве гражданского космонавта на борту русского Союза TM-34. Шаттлворт провёл 2 дня в ракете Союз и 8 дней на Международной Космической Станции, где принимал участие в экспериментах, посвящённых изучению СПИДа и генома. В начале мая 2002-го, Марк Шаттлворт вернулся на Землю.

В дополнение к исследованию космоса и увеселительной поездке в Антарктику, Шаттлворт играл активную роль как филантроп и венчурный капиталист. В 2001-м, Шаттлворт основал Фонд Шаттлворта (Shuttleworth Foundation, TSF), некоммерческую организацию, расположенную в Южной Африке. Фонд был основан для финансирования, разработки и внедрения инноваций в области образования. Разумеется, в качестве средств, с помощью которых TSF пытался достичь своих целей, применялось и свободное программное обеспечение. В рамках этих проектов, организация стала одним из самых видных сторонников СПО в Южной Африке и вообще в мире. В области венчурного капитала, Шаттлворт оказывал содействие научным исследованиям, разработкам и предпринимательству в Южной Африке со стратегическими инъекциями денежных средств в стартапы через новую фирму венчурного капитала, названную HBD, что означает «Here Be Dragons» («Тут Драконы»). В этот период, Шаттлворт был занят мозговыми штурмами для своего следующего крупного проекта, который в конечном счёте станет Ubuntu.
Читать дальше →

Бэкенд Twitter перешёл на Protocol Buffers

Reading time2 min
Views4.3K
Хотя основные копии пользовательских твитов хранятся в базах данных MySQL и Cassandra, компания также разворачивает дополнительное хранилище на Hadoop, которое можно будет использовать для аналитики и дополнительных программных приложений.

Информацию из этой системы можно запрашивать с помощью Java MapReduce или Pig, собственного SQL-подобного языка запросов Hadoop. В данный момент на этот бэкенд уже переведена система поиска, а в будущем появятся и другие приложения.

Отвергнув популярные технологии вроде XML, CSV и JSON, программисты Twitter выбрали в качестве формата для хранения данных бэкенда относительно неизвестный формат Protocol Buffers, разработанный в Google (он уже обсуждался на Хабре). Технические подробности реализации были оглашены представителями Twitter на конференции HadoopWorld во вторник.
Читать дальше →

Google собирается заняться подсчетом индекса инфляции

Reading time2 min
Views687


Причем делать это поисковик будет на основе открытых данных, доступных в Сети. Инфляцию Google будет определять как в качестве общемирового, так и регионального показателя. В качестве основного источника информации будут использоваться данные различных интернет-магазинов, Google Price Index. Разработчики нового проекта Google утверждают, что Google Price Index вполне подходит для выведения индекса инфляции, поскольку принципы работы Google Price Index похожи на принципы, действующие для реальных экономических индексов.

Читать дальше →

Мой опыт восстановления зрения

Reading time9 min
Views279K
   Этим летом я был на некоторое время предоставлен сам себе – всех своих я отправил подальше от дыма, а сам, недолго думая, решил немного подтянуть здоровье. Не просто записаться в тренажерный зал и накачать «квадратиков» для пляжа, а именно обследоваться у некоторых врачей, чтобы выработать для себя вектор дальнейших действий, дабы совсем не превратиться в «овоща».

image

   Расскажу лишь про свой опыт восстановления зрения – именно оно больше всего подвержено риску у любого «компьютерного» человека.
Читать дальше →

Google создал роботизированный автомобиль

Reading time2 min
Views2.1K


Как оказалось, Google не только создает уникальные интернет-сервисы или удобные коммуникаторы — сейчас корпорация занялась проблемой безопасности на дорогах. Для решения проблемы разработчики создают автоматизированную систему управлением автомобилей, которая способна управлять авто вовсе без участия человека. И это не просто идея или концепт — вполне рабочие авто с такой системой уже наездили более 225 тысяч (!) километров. По словам разработчиков, автомобили накатал такой пробег при совершении поездок между офисами компании, плюс путешествие по озеру Тахо и другим местам.

Читать дальше →

Information

Rating
Does not participate
Location
Россия
Date of birth
Registered
Activity