Обновить
46.53

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Google Earth Engine (GEE) как общедоступный суперкомпьютер

Время на прочтение10 мин
Охват и читатели6.6K

Сервис Google Earth Engine предоставляет возможность бесплатно работать с огромными массивами пространственной информации. К примеру, в считанные минуты можно получить композитную мозаику (сборное изображение) по миллиону космоснимков. Считая, что каждая сцена (набор спектральных каналов) Landsat 8 занимает в сжатом виде 1 ГБ, при таком запросе обрабатывается объем информации порядка 1 ПБ. И все это доступно бесплатно, быстро, и в любое время. Но есть такое мнение (неправильное), что GEE на бесплатных аккаунтах позволяет обработать и экспортировать лишь небольшие наборы данных. На самом деле, такое впечатление вызвано лишь тем, что программировать на GEE можно начать, даже не читая документации сервиса, а вот извлечь много данных, все еще не читая документации, уже не получится. Далее мы рассмотрим три разных решения задачи векторизации растров и двумя разными способами напишем серверную GEE функцию для вычисления геохэша.


Читать дальше →

Студенты, лабы и python: обработка данных

Время на прочтение4 мин
Охват и читатели5.7K

В своей предыдущей заметке на тему обработки данных лабораторных работ я написал об использовании пакета gnuplot – простого и мощного инструмента для решения подобных задач и графического представления результатов. Однако довольно распространённым является мнение, что студенты, которым я советовал использовать gnuplot, вероятно, изучают программирование и способы визуализации данных, и что для них более естественным и полезным будет практическое применение уже полученных навыков в этой сфере. В этом коротком тексте мы рассмотрим применение python с использованием библиотек scipy для обработки данных и matplotlib для представления результатов.

Читать далее

Эпоха визуального контента — развитие или результат регресса: пристрастия пользователей и закономерности восприятия

Время на прочтение5 мин
Охват и читатели9.5K
Мы живём во времена, когда традиционные формы передачи информации уходят в прошлое, а центральную роль в человеческой коммуникации приобретает визуальный контент. Как уже не раз отмечали авторы Хабра, это связано с нейробиологическими закономерностями, в первую очередь, с простотой восприятия и быстрым запоминанием визуальной информации, которая обусловлена количеством нейронов КГМ, участвующих в процессе. Закономерно быстро растет и само количество информации, так, в соответствии с оценками Seagate и IDC, мировой объем информации, записанной в цифровом виде, к 2025 году достигнет 160 зеттабайт, хотя ещё в середине нулевых его оценивали в 0,16 зеттабайт. Немалая часть этого количества приходится на визуальный контент.



Столь существенный рост во многом обусловлен визуальным (графическим, видео и 3D контентом). Неуклонно растущая популярность именно визуальных средств передачи и обмена информации некоторыми считается свидетельством деградации человеческих способностей на фоне технического прогресса. Другие, напротив, считают эти процессы естественной реакцией восприятия на эволюцию коммуникационных технологий и не видят поводов для тревоги. Под катом попытка осмыслить существующие взгляды на изменения поведения пользователей при росте интереса к визуальному контенту, понять влияние тенденций развития визуальной коммуникации.
Читать дальше →

Использование алгоритма k-means при районировании зон ценообразования недвижимости

Время на прочтение8 мин
Охват и читатели4K

Данная публикация не относится к материалам серии «вот он event horizon», а наоборот, как советчик по применению признанных методов анализа БигДата (BigDate) в практической деятельности простых людей, далеких от зоопарка с Пайтонами (Python), Эскьюэлями (SQL), Сиплюсплюсами (C++) и др. – оценщиков, при определении рыночной стоимости недвижимости. Необходимость определять влияние местоположения на стоимость недвижимости не вызывает сомнения. Этот факт закреплен практически, в требованиях ФСО-7 (Федеральный стандарт оценки «Оценка недвижимости (ФСО N 7)» п.11б и 22е.

 В настоящий момент в сети существуют такие «тепловые карты недвижимости», но они узкие по назначению, так как отражают стоимость квартир, а необходимо оценивать и другие виды недвижимости. А с другой стороны эти информационные источники не наделены необходимой полнотой, что ограничивает их применение в судебной экспертизе.

 Конечно, каждый оценщик знает свою территорию и у него существует собственная «тепловая карта». Могу представить, как сам проводил районирование без использования матметодов (рис.1).

 

Читать далее

К чему приводят уязвимости протокола DICOM

Время на прочтение7 мин
Охват и читатели8.2K

Автор: Мария Недяк


Вы наверняка видели в медицинском сериале, как интерны бьются над рентгеновским снимком пациента, а потом приходит их наставник и ставит диагноз по едва заметному пятнышку. В реальности такими остроглазыми диагностами становятся модели машинного обучения, применяемые в технологии medical imaging. Благодаря таким штукам можно гораздо быстрее выявить болезнь, например, определить, являются ли клетки на снимках опухолевыми или неопухолевыми.


Но есть одна проблема — в медицинских технологиях используются DICOM-протоколы, безопасность которых оставляет желать лучшего. О них и пойдет речь в этой статье.


Читать дальше →

Геология XXI века: от реальности к виртуальности

Время на прочтение10 мин
Охват и читатели2.5K

Ранее в статьях мы уже обсудили доступные данные (результаты наземных и спутниковых гравитационных и магнитных измерений, ортофото и космические снимки, цифровые модели рельефа), теоретические подходы и методы обработки (интерферометрия, построение обратных геофизических моделей), обработку данных в ParaView (выделение изоповерхностей) и Blender (высококачественная визуализация и анимация подготовленных в ParaView данных) и даже посмотрели Python Jupyter notebook с вычислениями и визуализацией моделей (включая выделение изоповерхностей средствами библиотеки VTK). Осталось построенные геотермальные изоповерхности конвертировать в формат модели дополненной реальности и получить геотермальную модель в дополненной реальности (AR). Как всегда, модель доступна на GitHub в репозитории ParaView-Blender — в виде исходных STL/PLY файлов и проектов Blender, плюс там же лежат скрипты Google Earth Engine (GEE) для получения композитных снимков Landsat 8 и Sentinel-2 и скрипты для конвертации AR моделей.



AR Модель геотермального резервуара Лахендонг, полуостров Минахаса, Северный Сулавеси, Индонезия Замеры температуры по скважинам обозначены цветными дисками — синим 0-150°C (далеко от резервуара), белым 150-250°C (переходная область вблизи от резервуара), красным 250-350°C (внутри геотермального резервуара).

Читать дальше →

Вычислительная геология и визуализация: пример Python 3 Jupyter Notebook

Время на прочтение5 мин
Охват и читатели7.2K

Сегодня вместо обсуждения геологических моделей мы посмотрим пример их программирования в среде Jupyter Notebook на языке Python 3 и с библиотеками Pandas, NumPy, SciPy, XArray, Dask Distributed, Numba, VTK, PyVista, Matplotlib. Это довольно простой ноутбук с поддержкой многопоточной работы и возможностью запуска локально и в кластере для обработки больших данных, отложенными вычислениями (ленивыми) и наглядной трехмерной визуализацией результатов. В самом деле, я постарался собрать разом целый набор сложных технических концепций и сделать их простыми. Для создания кластера на Amazon AWS смотрите скрипт AWS Init script for Jupyter Python GIS processing, предназначенный для единовременного создания набора инстансов и запуска планировщика ресурсов на главном инстансе.

Визуализация с помощью Visualization Toolkit(VTK) и PyVista это уже далеко не Matplotlib

Читать дальше →

Хорошие BPM — инструменты, которых нет и нет. Моделирование процессов

Время на прочтение15 мин
Охват и читатели22K

Поговорим о том, какие инструменты хотелось бы иметь при описании бизнес-процессов. Инструментов BPMS (BPM systems) много, но выбрать то особо нечего …  

Ниже перечислим некоторые важные инструментальные возможности некоторых сред моделирования процессов (в основном ARIS и MS visio).

Читать далее

Привлекательные аттракторы, тропические циклоны, смертельные эпидемии: мир динамических систем

Время на прочтение9 мин
Охват и читатели7K

Можно ли сделать решение дифференциальных уравнений увлекательным, а результаты яркими и красочными? Вот к чему могут привести многолетние усилия в этом направлении

Читать далее

Новые возможности анализа табличных данных с алгоритмами машинного обучения в Elastic

Время на прочтение20 мин
Охват и читатели6.5K


Elastic stack, также известный как ELK Stack (аббревиатура из программных компонентов: Elasticsearch, Kibana и Logstash), — это платформа построения озера данных с возможностью аналитики по ним в реальном масштабе времени. В настоящее время широко применяется для обеспечения информационной безопасности, мониторинга бесперебойности и производительности работы ИТ-среды и оборудования, анализа рабочих процессов, бизнес-аналитики.


В соответствии со стратегией компании, исходный код всех продуктов Elastic является открытым, разработка ведётся публично, а базовые функции доступны бесплатно, что выгодно отличает платформу от конкурентов.


Одним из платных наборов функций, в которых Elastic видит коммерческий потенциал и активно развивает, является анализ данных с использованием технологий машинного обучения. О его новых возможностях расскажем в нашей статье.

Читать дальше →

Вычислительная геология и визуализация

Время на прочтение4 мин
Охват и читатели4.1K

Мы уже обсуждали современные методы в геологии в статье Геология XXI века как наука данных о Земле на примере модели землетрясения в горном массиве Монте Кристо в Неваде, США 15 мая 2020 года магнитудой 6.5 баллов. И все бы хорошо в этой модели, да вот только самое интересное — смещение геологических блоков и "дыхание гор" нам схематично указал опытный геолог. Самое же важное заключается в том, что современная вычислительная геология (включая геофизику, моделирование и визуализацию) позволяет создать динамическую (4D) геологическую модель и наяву увидеть происходящие геологические процессы.



Геологическая модель с интерферограммой на поверхности рельефа по данным радарной спутниковой съемки, где на шкале Density Anomaly,% является характеристикой неоднородности геологической плотности и черная сфера в центре указывает координаты эпицентра землетрясения, расположенного на глубине 2.8 км.

Читать дальше →

Прочитать письмо XVII века, не открывая конверт

Время на прочтение9 мин
Охват и читатели6.3K


За тысячелетия существования наш вид прошел долгий и тяжкий путь прогресса, повлиявшего на многие аспекты нашей жизни. Многое перестало быть необходимостью, а что-то и вовсе исчезло: мы больше не стираем в реках, не ездим верхом, не лечим все болезни кровопусканием и не чистим зубы веточками. Конечно, все это мы можем делать, но есть куда более эффективные, безопасные и удобные современные эквиваленты. Подобное преобразование не обошло стороной и общение на расстоянии. В наше время всегда можно, если есть такая возможность, отправить e-mail, написать человеку в мессенджер, позвонить по скайпу. Но до недавнего времени не было ни этих причудливых слов, ни технологий, стоящих за ними. Безоговорочными лидерами в сфере общения были письма. Безопасность содержания письма часто была приоритетной задачей, а потому появились восковые печати, конверты на липких лентах и т.д. Однако в эпоху Возрождения (XV—XVI век) не было конвертов, а конфиденциальность обеспечивалась за счет специального метода складывания бумаги (letterlocking), в результате которого письмо становилось собственным конвертом. Прочитать такое послание без развертывания бумаги было невозможным, но для современных технологий нет невозможных задач. Ученые из Лондонского университета королевы Марии (Великобритания) использовали рентгенографию и создали виртуальную модель развернутого письма, при этом не разворачивая и не повреждая оригинал 300-летней давности. Какие тонкости рентгенографии необходимо было учесть, насколько точна виртуальная копия письма, и что было в нем написано? Об этом мы узнаем из доклада ученых. Поехали.

Ближайшие события

Бесплатный удобный ETL инструмент с открытым кодом на основе Python — фантастика или нет?

Время на прочтение13 мин
Охват и читатели22K

Сегодня я хочу рассказать об open-source инструменте, который позволяет извлекать и очищать данные для широкого спектра задач. В этом посте речь пойдет о ViXtract, нашей собственной сборке открытых технологий для работы с данными. Под катом — рассуждения о том, каким должен быть идеальный ETL, рассказ о том, почему его лучше делать на Python (и почему это совсем не сложно), мысли о скриптовом и графическом подходе.

Читать далее

Популярность BPM в разных жанрах музыки. Python: анализ скорости исполнения 500 лучших песен

Время на прочтение9 мин
Охват и читатели28K

Несколько лет назад, занимался изучением теории музыки, продавал и писал аудио-инструментал. Изначально, процесс явно творческий, но вскоре, мой интерес к коммерческой части превысил и возник вопрос: «В каком же темпе создавать ритм музыки?». Поэтому, идея анализа крупной выборки лучших композиций, для определения популярного [часто: самого продаваемого] диапазона темпа исполнения, не покидала с тех пор…

Возможно, тебя заинтересует содержимое...

День открытых данных 2021. Онлайн

Время на прочтение2 мин
Охват и читатели923

image


1-6 марта приглашаем на мероприятия, приуроченные к Международному Дню открытых данных 2021.


Это крупнейшее ежегодное международное событие, которое помогает продвигать концепцию открытых данных среди органов государственной власти, бизнес-корпораций, некоммерческих организаций и гражданского общества. Организатором Дня открытых данных в России выступает АНО «Информационная культура».


Рассказываем, какие мероприятия мы приготовили для участников в этом году.
Накануне Дня открытых данных, с 1 по 5 марта, проведем серию практических онлайн мастер-классов по работе с открытыми данными.

Читать дальше →

Майнкрафт для геологов: 3D-рендеринг миллиарда ячеек на встроенной видеокарте (часть 1)

Время на прочтение20 мин
Охват и читатели4.9K

В одной из прошлых статей с подозрительно похожим заголовком мы показали, как построить модель месторождения и посчитать свойства пласта глубоко под землёй, используя крохи информации о породе, полученной со скважин.

В этой статье мы расскажем, как отобразить модель месторождения на экране так, чтобы опытные геологи и гидродинамики могли сразу видеть (не)соответствие модели своим знаниям об особенностях конкретного месторождения.

Более того, вся реализация займёт у нас не больше часа – после чего мы сможем визуализировать практически любые реальные модели месторождений, как на картинке. А в следующей статье мы оптимизируем быстродействие и потребление видеопамяти настолько, что наш рендерер станет самым быстрым и эффективным в мире*.

* среди известных авторам.

Дисклеймер: эта статья не является пособием по 3D-рендерингу и графическому API. Всё, что требуется от читателя – это понимание основных принципов 3D-графики: что такое атрибуты вершин и т. п. К счастью, на Хабре есть множество хороших статей (раз, два), которые можно прочитать для освежения этих концепций в памяти. В этой статье мы использовали современный OpenGL 4.5, но всё описанное будет работать даже на древнем OpenGL (ES) 2.0.

Читать далее

Обзор современных инструментов дата-аналитика

Время на прочтение6 мин
Охват и читатели17K
image

Сразу уточню, что видов аналитиков очень много, так как анализировать можно все что угодно. Это и веб-аналитики, и классические data scientists, и бизнес-аналитики, и финансовые аналитики, а также продуктовые, системные и UX аналитики. Причина такого разнообразия, по-видимому, в том, что в ряде крупных компаний над созданием одной платформы или продукта одновременно могут работать десятки, а то и сотни программистов и аналитиков. В таких условиях происходит сильное сужение специализации.

Все перечисленные виды аналитиков используют свои специфические наборы инструментов. Поэтому сосредоточусь только непосредственно на сфере анализа данных вне контекста происхождения этих самых данных. Таким образом мы исключаем из обзора системы веб-аналитики, CRM, ERP, системы складского учета, управления логистикой и документооборотом.
Читать дальше →

Business Intelligence на очень больших данных: опыт Yota

Время на прочтение11 мин
Охват и читатели7.4K


Всем привет! Меня зовут Михаил Волошин, и я, как руководитель отдела инструментов бизнес-анализа, хочу верхнеуровнево рассказать о плюсах и особенностях BI-решения Yota.

200 Tb Vertica, 400 Tb Hadoop, кластер Tableau, специфичная организация процесса разработки и многое другое ждут вас под катом.

Внимательный читатель спросит: «А при чем тут Vertica и слоник Hadoop, технологии же разные?» Да ни при чем — это лишь КДПВ.
Читать дальше →

Cелф-сервис BI убивает кровавый энтерпрайз

Время на прочтение7 мин
Охват и читатели8.9K

Привет, меня зовут Владимир Шилов, я руководитель направления в департаменте анализа данных «Ростелекома». В мае 2019 года я пришёл в команду Business Intelligence (BI) и одной из первых задач была реализация отчётности по анализу посещаемости отчетов во всех BI-инструментах, установленных в компании.

Решение этой задачи позволило собрать любопытную статистику и сделать выводы о востребованности BI-инструментов в «Ростелекоме». В этой статье я хочу поделиться следующими результатами нашего анализа:

• Какие BI системы наиболее востребованы в реалиях крупной компании;
• Какие критерии влияют на внутреннюю популярность решения;
• Какие современные тенденции пользовательского поведения можно наблюдать внутри компании и какие вопросы будут стоять перед ИТ-подразделениями в ближайшее время.

Читать далее