Pull to refresh

Wikistream — всемирный аудио-путеводитель на основе статей Wikipedia

Reading time2 min
Views811
image
Мы выпустили в свет аудио-гид, который основан на Википедии.

В Wikipedia примерно миллион статей имеют координатную привязку к определенным точкам на планете. 172 тысячи из них — на английском языке. На русском — 17 тысяч. Мы преобразовали все это богатство в разумный аудио-гид.
Он доступен вам, если у вас есть смартфон с GPS и Java или iPhone 3G. Вы платите только за интернет трафик.

В этом топике хочу рассказать о некоторых проблемах, с которыми мы сталкивались в процессе реализации проекта.

image
1. Как выяснилось, координаты мест, указанные в Wikipedia, не являются отдельной сущностью в их базе данных. Это просто часть текста. При этом одной статье могут соответствовать несколько координат (разбросанных по тексту), а иногда появляются статьи с координатами, которые на самом деле не описывают никакого конкретного объекта.

2. Есть внешние сервисы, которые проделали титанический труд по обратному преобразованию, и теперь есть возможность по координатам получать URL статьи. К сожалению, опыт показывает, что сервисы не всегда верные (вероятно, репликация осуществляется с большой задержкой). И, к тому же, весьма неустойчивые. Мы подумываем о том, чтобы самостоятельно повторить подвиг, но пока приходится мириться с имеющимся качеством.

3. Все статьи разного объема. Некоторые из них после озвучивания невозможно прослушать и за 30 минут. Кроме того, сам процесс озвучивания занимает время, и мы можем не уложиться в отведенные на весь процесс извлечения контента 2 секунды. Поэтому нам необходимо разбирать состав статьи и аккуратно отделять аннотацию, как наиболее значимую часть.

4. Физические объекты, соответствующие статьям, имеют различную «видимость» в реальности. Я имею в виду, что некоторые из них являются городами, и радиус заметности объекта для туриста может быть 10-20 километров. Другие объекты (памятник вождю) имеют радиус всего-то 30 метров. Сейчас мы работаем над разбором смысловой нагрузки статей, а пока все статьи являются кругами радиуса 100 метров. Хочу напомнить, что Toozla поддерживает объекты произвольной конфигурации, что дает возможность создания сложных последовательных аудио-гидов, которые можно начинать прослушивать с любой точки.

5. Голосовой движок мы выбирали недолго. Ориентиром для нас являлось качество русского языка, а тут бесспорным лидером является хорошо известная шведская компания Acapela. У них удобный API, и количество языков нас на первом этапе вполне удовлетворило.

Название для потока очевидно — Wikistream. Спасибо TarzanASG за помощь. Спасибо тем, кто потестировал наше приложение перед выходом в AppStore.
Подробности и пример робото-озвучки.

Напомним, что в Toozla могут быть платные и бесплатные Потоки.
Контент потока Wikistream предоставляется бесплатно, также как и вся Wikipedia (по лицензии Creative Commons CC-BY-SA 3.0 Unported).
Скачать приложение бесплатно можно для Java с сайта, для iPhone приложение доступно в AppStore.
Tags:
Hubs:
Total votes 9: ↑8 and ↓1+7
Comments5

Articles