Pull to refresh

Yahoo! Placemaker — геопарсинг в действии

Reading time4 min
Views1.8K

Совсем недавно – 20 мая, компания Yahoo! объявила о выходе своего нового продукта, на данный момент не имеющего аналогов – Yahoo! Placemaker, сервисе гео-парсинга, основной целью которого является извлечение гео-релевантной информации из документов различного формата. Презентация прошла, как принято говорить, «при большом стечении народу» и закончилась «аплодисментами, переходящими в овацию» – задумка и реализация определенно понравилась, и какое-то время в Твиттере можно было наблюдать довольно-таки позитивный поток комментариев на эту тему. Но вот представление окончено, все расходятся по домам, и начинают задавать вопросы: так что же это такое?

Что такое Placemaker


Как уже было сказано, Placemaker – это веб-сервис, который позволяет извлечь гео-релевантную информацию из некоторого документа. Тут есть сразу несколько моментов, которые нуждаются в пояснении. Во-первых, что это за документы, из которых можно извлекать информацию? А во-вторых, что это за такая гео-релевантная информация, а самое главное – кому и зачем она нужна?

С документами все довольно просто. На данный момент Placemaker поддерживает текст (ну он и в Африке текст), HTML-документы (хотя здесь не все так просто), а так же XML-производные форматы аггрегации новостей — RSS и Atom. Кроме того, Placemaker «понимает» расширение RSS и Atom, известное как GeoRSS, а также способен извлекать дополнительную информацию из микроформатов, которые встраиваются в HTML документ. Про информацию-то и следует поговорить поподробнее.

Что Placemaker может


Если очень кратко, то все возможности PlaceMaker можно определить в три группы, а именно:
  • Какие места (географические) упоминаются в документе и какова их важность?
  • Среди всех мест, с одинаковым названием, о котором именно говорится в документе?
  • О каком месте идет речь в документе вцелом?



Проиллюстрируем эти две концепции на примере. Возьмем типичную новостную статью. Даже не читая ее, можно выделить, во-первых, что статья эта о Пакистане и «о чем-то в этом роде», а во-вторых, быстро просканировав текст, можно выделить конкретные географические названия — Пакистан, Исламабад, США (ну куда же без них!), и несколько других. Именно в этом и суть Placemaker — сказать «о чем» эта статья в географическом смысле и перечислить географические названия, отсортировав их — в случае необходимости — по важности.

Кроме того, следует заметить, что проблема мест с одинаковым названием — едва ли не самая сложная, которую разработчики решили при разработке Placemaker. К примеру, знаете ли вы, что существует 11 мест с названием Исламабад? Или 23 Лондона? Или 47 Йорков? А так же 29 мест с названием «Москва», 8 — с названием «Самара» и 234 Сан-Хосе? Разумеется, какие-то из них более популярны, а какие-то — менее, но выбрать-то надо не популярный, а правильный!

Как использовать Placemaker


Вопрос конкретного использования остается на усмотрение пользователя сервиса — но вариантов может быть масса, начиная от географической категоризации новостных статей и поиска упоминаний этого конкретного Спрингфилда в большом наборе документов, заканчивая совсем уж эзотерическими вроде нанесения на карту интенсивности сообщений в Твиттере о конкретном месте. И это только текст — если рассматривать еще и RSS/Atom, задача, которая решается при помощи Placemaker практически в одно действие — это превращение RSS в GeoRSS, то есть опять же, добавление географической информации в поток. К примеру, одна из групп в Yahoo! сделала отличное демо-приложение, которое собирало RSS-фиды от многих источников по всему миру, «пропускало» их через PlaceMaker, после чего показывало на карте, как менялась интенсивность новостей о том или ином регионе с течением времени (очень забавно было видеть огромный «пузырь» на всю Мексику во время всеобщей истерии по поводу свиного гриппа).

Справочная информация


Немного фактов о Placemaker.
  • Placemaker использует числовые идентификаторы WOEID (Where On Earth ID) для обозначения мест. Использование такого идентификатора позволяет однозначно сказать, о каком месте идет речь (в отличии от имени и координат). Полный набор WOEID на данный момент доступен для скачивания разрабочиками (и будет пополняться).
  • Placemaker использует ту же самую платформу, что и Yahoo! Geoplanet, с которым, кстати, можно поиграться вот здесь — и FireEagle.
  • Placemaker — веб-сервис, который способен принимать запросы в формате POST и REST, и выдавать результаты или в в виде XML, заранее определенной схемы, или в формате GeoRSS
  • Для того, чтобы использовать Placemaker, разработчику достаточно получить Application ID на сайте Yahoo! Developer Network
  • Placemaker бесплатен, так же как и GeoPlanet Data — база данных идентификаторов WOEID и сопутствующей информации
  • Placemaker поддерживает 27 языков, среди которых — к великому моему сожалению — все еще нет русского (впрочем, не оставляю надежды, что ситуация изменится).
  • Для того, чтобы поиграться с Placemaker, можно использовать минималистичный демо-сервис, который Расмус Лердорф (автор PHP) написал, по-моему, за ночь — так как с момента объявления публичного API до момента появления сервиса прошло никак не больше полу-суток. Кроме того, в форуме будут публиковаться ссылки на новые продукты, которые используют Placemaker (по понятным причинам пока их совсем немного :) )
  • Начать изучение Placemaker лучше всего с официальной страницы на YDN, где можно прочитать руководство пользователя (которое крайне настоятельно рекомендуется к изучению) и задать вопросы в форуме, который будет мониториться разработчиками.

И напоследок


Placemaker – это бета. Причем не «вечная бета», как это часто бывает у других компаний, а бета пока разработчики не выловят и не пофиксят – нет, не все, но такое количество багов, что приставку «бета» можно будет убрать. Поэтому если вы считаете что нашли баг – не держите это в себе! :) Напишите разработчикам в форум – они обязательно поблагодарят вас и исправят как только смогут. То же самое относится и к функциональности, которая безумно нужна, но по каким-то странным причинам не вошла в этот релиз – пишите, и все у вас будет!

Update: А добавлю-ка я штук несколько ссылок на демошки и маш-апы которые используют PlaceMaker:
Список будет расширен!
Tags:
Hubs:
Total votes 27: ↑26 and ↓1+25
Comments18

Articles