Обновить

Комментарии 10

Не очень понятен смысл статьи и для кого она написана. Если коротко, она сводится:

— OpenStreetMap — это терабайт xml.
— С пространственными BigData работать сложнее, чем с обычными.
— Есть шесть алгоритмов пространственного партицирования, два из них интересны, но к чёрту подробности.
— Есть пять фрейморков для обработки данных, но вместо предметного сравнения вот список слов латиницей для каждого.
— Хотите ещё одну такую же статью? Выберите случайное слово.

На мой взгляд, в этой статье четыре-пять полноразмерных статей схлопнуты до состояния каши из терминов. Мне интересна обработка геопространственных больших данных, но даже после второго перечитывания я всё равно ничего не понимаю.

Ты абсолютно прав, это сжатая обзорная статья. Это разведка :) Со временем как раз и будут 4-5 статей. Напиши, о чем тебе интереснее почитать в первую очередь?

Не совсем ясно, почему геоданные отнесены автором к «неструктурируемым». По-моему, более структурированную информацию, чем массивы координат, придумать сложно: ограниченное количество форматов, строгая кластрификация и другие формальные вещи существенно облегчают работу с ними.
К «неструктурируемым» данным относятся не сами «координаты», а организация исследуемых процессов в пространстве, топология массивов координат, отношения и связи. Имея разнородные датчики в метеоданных, мы должны аккуратно совместить данные (а они могут быть еще и в разных структурах) и провести интерполяцию исследуемых параметров.
Более того, описание координат сложных объектов (линия, полигон, мультиобъекты, подписи, составные объекты) имеет различие в разных форматах передачи геоданных. В csv-файле сложно передать линии и полигоны, shp-файлы не содержат подписи и отношения, формат sxf (Панорама) представляет объектную структуру с отдельно описываемым «классификатором», а gdb-файлы (ArcGIS) являются классическими реляционными базами. Структура OSM еще более отличается от данных Панорамы и ArcGIS.
И я не говорю про системы координат, это дивный мир без гарантий соответствия обратного пересчета пар координат :)
Пересчёт координат с гарантированной точностью определяется ГОСТ Р 51794-2008. Я пользовался, пока не подводил.
А усложнить самому себе можно любую задачу, было бы желание :).
Так вот именно, что при использовании этих формул образовывается погрешность, и при обратном пересчете можно и не получить те же самые исходные координаты. А если речь идет о других референц-эллипсоидах?..

Предпосылки к переходу на распределенное хранение и вычисление должны быть весьма весомыми. Задачи попадаются разные, я и не говорю о том, что gpx-треки с бытового навигатора надо сразу на HDFS кидать :)
За точность пересчёта координат по ГОСТ отвечает его разработчик: 29 НИИ Минобороны. А за ошибки при использовании других подходов отвечает тот, кто использует непроверенные разработки :(
В самом ГОСТе есть оговорка о погрешностях пересчета. Пересчет координат один-в-один туда-обратно никто не гарантирует, увы.
Не совсем понятно почему были выбраны именно эти продукты и решения из всей массы. В этой подборке есть безусловные лидеры для решения узких задач, а есть некие рудименты. И несколько хороших продуктов осталось за бортом
Это довольно популярные решения, и ни одно из них я бы не назвал рудиментом. Можно примеры хороших продуктов, оставшихся «за бортом»?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
t1.ru
Дата регистрации
Дата основания
Численность
свыше 10 000 человек
Местоположение
Россия
Представитель
ИТ-холдинг Т1