Обновить
44.87

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Анализируем данные с помощью визуализации: рисуем поверх Google Maps

Время на прочтение6 мин
Охват и читатели12K

Привет, я Катя, системный аналитик в Ozon. Одна из первых задач, которую мне поручили здесь — проверить качество географических данных. Формально эта задача больше относится к анализу данных, чем к системному анализу. Но меня она очень заинтересовала, ведь требовался не только анализ, но и исследование и, по возможности, реализация решения, а для меня это самое интересное в работе. 

Впереди меня ждала RnD-задача с исследованием картографических форматов, рисованием поверх Google Maps и реализацией скрипта на Python. Как я боролась с визуализацией картографических данных, расскажу в этой статье.

Читать далее

Как подружить ClickHouse и Power Bi

Время на прочтение2 мин
Охват и читатели19K

Однажды на работе мне потребовалось построить дашборд в Power BI, но данные хранились в ClickHouse. В Power BI есть много различных конекторов, но специального для ClickHouse нет. В этой статье мы разберемся с данной проблемой!

Читать далее

Аналитики данных в Авито: ожидания и спектр задач

Время на прочтение10 мин
Охват и читатели35K

Привет, я Дина Симкина, директор по аналитике Авито. Я отвечаю за то, чтобы аналитика помогала бизнесу принимать правильные решения. В статье я расскажу, кого мы в компании называем аналитиками данных и чего от них ждём в зависимости от профессионального уровня.

Читать далее

Домик в деревне, потоп, и цифровые модели рельефа

Время на прочтение5 мин
Охват и читатели7.8K

Сбылась мечта вашего детства—вы присмотрели себе домик в деревне​! Домик в отличном состоянии, из окна прекрасный вид, под самым окном тихо журчит речка Переплюйка, жизнь прекрасна! Вы совсем было собрались его купить, но вдруг достали телефон и зачем-то решили почитать новости. А там—изменения климата, очередное наводнение неважно где, с разрушениями и жертвами. И вдруг вы с беспокойством смотрите на речку Переплюйку прямо перед вами, и думаете, а не превратится ли она в случае чего в бурный поток, смывающий всё нажитое непосильным трудом? Давайте посмотрим, чем технологии ГИС (геоинформационных систем) могут вам помочь, и почему свободный доступ граждан к географическим данным полезен для принятия решений.

Читать далее

В шоке от цен на авиабилеты по России: как летать дешевле

Время на прочтение10 мин
Охват и читатели41K

Вы продаете билетов на самолеты? - Нет, только показываю. - Красивое…

Люди делятся на два типа: одни летают за тысячу рублей из Питера во Владивосток, другие сутками скрупулезно высчитывают маршруты через Казахстан, отказываются от багажа, соглашаются на микро кресла и в итоге все равно получают космический ценник. 

Почему так происходит, как формируются цены на авиабилеты и как в итоге покупать их дешевле - рассказываю под катом.

Читать далее

Как превратить книгу о Гарри Поттере в граф знаний

Время на прочтение12 мин
Охват и читатели11K

Обработка естественного языка — это не только нейронные сети, а данные — это не только строки, числа и перечисления. Область работы с данными простирается намного дальше. К старту флагманского курса по Data Science представляем вашему вниманию перевод из блога разработчиков графовой базы данных neo4j о том, как при помощи SpaCy и Selenium извлечь из книги граф взаимоотношений героев. Подробности и код, как всегда, под катом.

Читать далее

Как выглядит эффект бэггинга на смещение и дисперсию

Время на прочтение12 мин
Охват и читатели4.8K

Часто суть статей о бэггинге сводится к тому, что вы обучаете множество деревьев решений на различных частях данных и усредняете прогнозы, чтобы получить окончательный прогноз, который улучшается из-за того, что дисперсия случайного леса меньше дисперсии одного дерева решений. Тексты с таким заключением содержат отличные демонстрации, код и много других мыслей. Но криптоаналитику и дата-сайентисту, доктору Роберту Кюблеру, переводом статьи которого мы делимся сегодня, часто не хватает хороших выкладок о причине, почему бэггинг — хорошая идея, а ещё не хватает демонстраций уменьшения дисперсии на реальных данных. Восполняем этот пробел к старту нашего флагманского курса по Data Science.

Читать далее

Танцующие горы Ирана по данным спутниковой интерферометрии

Время на прочтение2 мин
Охват и читатели9.9K

Территория северо-западного Ирана на границе с Каспийским морем выделяется своей сейсмической необузданностью, как во времена молодости нашей планеты. В недрах этого района и сегодня продолжаются процессы нефтегазообразования, например, поблизости от вулкана Дамаванд, геологическую модель которого я показывал ранее. Недавно я занимался вопросом устойчивости плотины Ямчи в провинции Ардебиль и полученные результаты оказались настолько удивительными, что я хочу ими здесь поделиться. Пусть в предыдущих статьях я уже показывал, как растут горы, но чтобы горы еще и танцевали — это мало где удастся увидеть! Как обычно, все данные доступны в GitHub репозитории Yamchi Dam, Ardabil, North Iran.



Плотина выделена красным кольцом, далее от нее в направлении к правому верхнему краю картинки течет река, питающая город Ардебиль. Озеро и плотина растут вверх со коростью около 10 см в год, а сам город с такой же скоростью погружается вниз. Но самое интересное в том, как именно происходит это движение — хотя значение вертикального смещения за год велико, это лишь малая часть общей картины.

Построение RPA CoE и чем это поможет компании

Время на прочтение6 мин
Охват и читатели2.5K

Компании задумываются о внедрении RPA и зачастую видят данный продукт, только как возможность автоматизации отдельных, самых болезненных процессов в компании, однако современные поставщики RPA-платформ идут дальше и предлагают развить в компании собственную квалификацию RPA, для того чтобы в перспективе создать подразделение, которое самостоятельно сможет создавать процессы для автоматизации, определяя самые «болезненные места» бизнеса.

Это подразделение для плавного и системного внедрения новой технологии называется Center of Excellence. Про него - далее.

Читать далее

Как в Trello оценить процессные задачи и построить их визуализацию?

Время на прочтение8 мин
Охват и читатели5.9K

Если вы задавались вопросом:
- "Как четко (или почти четко) измерить эффективность процессной работы программистов, маркетологов, аналитиков, дизайнеров и на основе этих измерений построить визуализацию?" - то эта статья будет вам интересна.

В решении задачи используем язык программирования R, графики на ggplot и Trello как инструмент таск-менеджмента в том виде в котором ранее скорее всего вы его не использовали.

Разберем подробно

Как мыслит GPT? Визуализируем скрытые слои

Время на прочтение8 мин
Охват и читатели4.3K

В стремлении прояснить языковые модели Transformer с помощью пакета Ecco авторы показывают механизм генерации предложений внутри предварительно обученной языковой модели. После генерации предложения возможно визуализировать представление о том, как модель пришла к каждому слову — речь идёт о столбце на рисунке выше. Строки — это слои модели. Чем темнее элемент строки, тем выше ранг токена в слое. Слой 0 расположен на самом верху. Слой 47 — в самом низу. К старту курса о машинном и глубоком обучении показываем и рассказываем о том, как мыслит GPT.

Читать далее

Streamlit. Поиск кратчайшего пути

Время на прочтение3 мин
Охват и читатели47K

Самое длинное приключение начинается со слов «Я знаю короткую дорогу».

Интересно о чем это? Читай дальше!

Промышленная автоматизация — беремся за проектирование

Время на прочтение7 мин
Охват и читатели17K
Проектирование — это только поначалу страшно..
С чего начинается проект автоматизации и системы управления?
Автоматизация промышленных объектов, как мы уже знаем, проходит через несколько стадий. В этот раз мы затронем проектирование и типовые примеры подбора используемых элементов с последующим их включением в проектную документацию. В комментариях к предыдущей статье, где я пытался в общих чертах объяснить принцип подготовки к тендерам, советовали начать с изучения ГОСТов. Ну что же. Мы с коллегами, ради интереса, нашли несколько интересных ссылок, чтобы ознакомиться с содержанием этих стандартов. К сожалению, это совсем не применимо на территории ЕС, где мы пользуемся местными нормативными актами и стандартами. Об этом речь пойдёт ниже, в частности об известном сертификате «СЕ» — почему и зачем он нужен.
Читать дальше →

Ближайшие события

NFStats — анализ netflow данных для ISP «на коленке»

Время на прочтение5 мин
Охват и читатели18K

Приветствую! Продолжая рубрику "на коленке" (написал два года назад одну статью и уже рубрика), наконец у меня появилось время поделиться и рассказать еще об одном проекте (а заодно и привести его в порядок), который используется у нас на сети небольшого транзитного провайдера для сбора и анализа статистики сетевого трафика .

Это web-приложение позволяет просматривать статистику в разрезе BGP автономных систем, IP-адресов, интерфейсов, что полезно при балансировке трафика и общего понимания какой трафик проходит через/в/из вашу/ей AS. Удобное подспорье для небольших ISP.

Читать далее

Новая функция Notion и 3 применения

Время на прочтение2 мин
Охват и читатели4.1K

Всем привет. Меня зовут Божок Анна. Я фанатка Notion и это моя первая статья.

Хочу вам рассказать про новую функцию в программе. А именно сквозной или синхронизированный блок.

И так же поделюсь тремя вариантами его использования.

Читать далее

Построение графов с помощью библиотеки PyViz на основе текстового анализа ESG стратегий отдельных компаний

Время на прочтение3 мин
Охват и читатели2.4K

В настоящее время многие страны мира сконцентрировались на таком важном направлении как экологическое, социальное и корпоративное управление организациями (ESG). Под этим сложным понятием чаще всего подразумевают то, каким образом деятельность компаний влияет на решение экологических проблем окружающей среды, поведенческие настроения в обществе, а также насколько эффективно ведется управление. Проведем анализ нескольких российских компаний и выясним, как применяются принципы ESG. Для этого нам потребуются: данные новостных источников по выбранной тематике, инструменты для построения графов и текстового анализа.

Анализ огромного потока неструктурированной текстовой информации является одним из постоянных действий любого человека. Для того, чтобы провести быстрый обзор ключевых моментов существуют современные технологичные инструменты, такие как графы знаний или knowledge graph. Графы знаний используются для наглядного представления взаимосвязей между людьми, событиями, предметами и т.д.

Данные для обработки были предварительно собраны из новостных источников с веб-сайтов организаций, а также дополнительно проведены простые манипуляции:

·        местоимения заменены на наименования компаний;

·        предложения разделены в список.

Чтобы построить knowledge graph необходимо в предложении определить несколько основных сущностей, а именно: субъекта, объекта и отношения между ними. В качестве субъектов и объектов чаще всего выступают следующие части речи: простые или составные имена существительные, а также связанные с ними прилагательные в отдельных случаях. Функцию построения отношений между частями речи в русском языке могут выполнять как глаголы, так и существительные. Подготовленный набор данных выглядит следующим образом:

Читать далее

Методы укладки Gephi. Force Atlas и Force Atlas 2

Время на прочтение4 мин
Охват и читатели5K

Прежде чем определиться с выбором раскладки вашего графа, нужно понять какие цели вы преследуете, когда строите его и что именно вы хотите проанализировать и показать.

Впечатление, которое производит ваш граф, может значительно отличаться в зависимости от выбранного алгоритма. Вы должны понимать, что окончательный выбор может стать очевидным только после экспериментов и визуальной оценки. Он должен соответствовать как вашим данным, так и цели построения графа. Здесь нет абсолютно правильных или неправильных ответов: часть решения будет принята субъективно, исходя из вашего собственного визуального суждения.

Рассмотрите свои варианты с точки зрения целостности. Конечная цель создать граф, который не только понятен, но и позволяет рассказать убедительную историю. Если при достижении этих целей макет выглядит впечатляюще, даже лучше! Однако любое прочтение литературы и поиск в интернете быстро покажет, что многие графы выглядят впечатляюще, но не передают смысла данных, и они настолько плотны, что их невозможно прочитать. Не становитесь жертвой создания, чего-то впечатляющего, ради красивой картинки - всегда помните, что вы используете средство просмотра графов, и делаете все возможное, чтобы показать данные чётко. Теперь, когда мы определили приоритеты, мы можем перейти к рассмотрению различных компоновок Gephi.

Для демонстрации настроек раскладок будем использовать данные о переводах пользователей трёх различных банков.

Читать далее

Диаграмма Сэнкей (Sankey diagram) на Python

Время на прочтение10 мин
Охват и читатели34K

В этой статье рассмотрим, как пошагово создать диаграмму Сэнкей - от загрузки и генерирования необходимых данных до сохранения полученной диаграммы. Используемые инструменты - python, pandas и plotly.

Читать далее

Анонсируем версию Datalore Enterprise для команд Data Science

Время на прочтение4 мин
Охват и читатели1.1K

Привет, Хабр!

Jupyter-ноутбуки хоть и вызывают споры, однако все равно являются самым часто используемым инструментом для решения задач Data Science. Ноутбуки просты в личном использовании. Но если вы когда-либо пробовали организовать командную работу с ними, то наверняка сталкивались со сложностями. Именно поэтому мы в JetBrains решили выпустить специальную версию Datalore Enterprise для команд Data Science!

Читать далее

ZEN’изация по полной, выбираем правильную память для EPYC процессоров

Время на прочтение6 мин
Охват и читатели8K
Память для серверов AMD Socket SP3, также именуемые как поколение EPYC, основанные на архитектуре Zen. Какую конфигурацию поддерживают и как правильно забивать банки памяти? EPYC, или серверные процессоры AMD, за последние несколько лет набрали высокую популярность среди интеграторов серверов и кластерных систем. Благодаря унифицированной архитектуре SoC, позволяющей апгрейдить сервера без смены платформы, популярность будет и дальше расти. Мы же сосредоточимся на поддерживаемой памяти и ее правильном выборе.


Читать дальше →