Search
Write a publication
Pull to refresh
102
221

Motion – Peter Sandberg

Send message

Изучаем Анализ данных с помощью библиотеки Bokeh в Python

Reading time12 min
Views8.6K

Визуализация данных – это искусство представления информации в виде графиков, диаграмм, дашбордов и других визуальных элементов. Она позволяет сделать данные более доступными и понятными, помогая выявить закономерности и взаимосвязи, которые могли бы остаться незамеченными при анализе сырых данных. Подходящая визуализация способна превратить сложные структуры данных в наглядные образы, позволяя нам видеть и понимать информацию на более глубоком уровне.

В этом контексте библиотека Bokeh для Python выделяется как одно из наиболее мощных и гибких средств для визуализации данных. Bokeh обеспечивает интерактивные и красочные графики, которые можно легко встраивать в веб-приложения и даже динамически изменять в режиме реального времени.

Читать далее

Гиперпараметрический поиск и оптимизация моделей

Reading time15 min
Views24K

При создании моделей машинного обучения существует одна важная составляющая, которая часто остается за кадром, но имеет решающее значение для достижения высокой производительности и точности — это гиперпараметры.

Как архитекторы строят основу для здания, так и выбор гиперпараметров определяет фундамент для моделей машинного обучения. Гиперпараметры — это параметры, которые настраиваются до начала процесса обучения и определяют как саму структуру модели, так и способ её обучения. Их правильный выбор может значительно повлиять на результаты обучения, тогда как неправильно подобранные значения гиперпараметров могут привести к нежелательным и недооцененным моделям.

Читать далее

Применение генеративных адверсариальных сетей (GANs) для синтеза данных

Reading time12 min
Views4.8K

Генеративные адверсариальные сети, или GANs, представляют собой инновационную технику в области глубокого обучения, которая позволяет создавать высококачественные синтетические данные. GANs состоят из двух основных компонентов: генератора и дискриминатора. Генератор создает новые данные, стараясь подражать распределению реальных данных, тогда как дискриминатор пытается различить сгенерированные данные от реальных. Эти две сети соревнуются друг с другом, и такой процесс противостояния позволяет GANs достичь высокой степени реалистичности в сгенерированных данных.

Применение генеративных адверсариальных сетей имеет важное значение во множестве областей, включая компьютерное зрение, естественную обработку языка, медицину, искусство и многое другое. GANs позволяют создавать данные, которых нет в исходных наборах данных, что может быть невероятно полезным для расширения обучающих выборок и улучшения производительности моделей машинного обучения. В медицине GANs могут помочь генерировать медицинские изображения для обучения моделей диагностики, а в области искусства они могут использоваться для создания уникальных и вдохновляющих произведений.

Читать далее

Blue-Green и Canary деплойменты в микросервисах

Reading time14 min
Views13K

В этой статье рассмотрим основные принципы, преимущества и недостатки стратегий Blue-Green и Canary деплоймента, а также раскроем лучшие практики для их успешной реализации в современной среде разработки микросервисов.

Читать далее

Анализ временных данных с учетом сезонности и трендов

Level of difficultyMedium
Reading time8 min
Views6K

Временной ряд - это последовательность данных, упорядоченных во времени. Это может быть что угодно: цены на акции, погода, продажи, трафик в сети, звуки сердечных сокращений – любые измерения, которые меняются в зависимости от времени.

Читать далее

Разведочный анализ (EDA)

Reading time10 min
Views40K

Разведочный анализ данных, или EDA, – это как археологические раскопки в мире информации. Это первый шаг, когда мы берем на себя роль исследователя данных и начинаем расследовать, как устроены наши данные, как они взаимосвязаны и что они нам могут рассказать. EDA – это не просто скучная предварительная обработка, это настоящее приключение, в ходе которого мы обнаруживаем неожиданные моменты, паттерны и закономерности, которые часто прячутся на первый взгляд.

Представь, что ты археолог, который обнаружил древний город. Первое, что ты делаешь, – это изучаешь артефакты, учишься понимать их значение и связи между ними, прежде чем начнешь рассказывать историю этого города. Точно так же и EDA позволяет нам раскрывать истории, заложенные в данных. Мы открываем для себя ключевые факторы, влияющие на наши переменные, выявляем паттерны поведения и взаимосвязи, которые нередко оказывают решающее влияние на стратегии и принимаемые бизнес-решения.

Читать далее

Асинхронные микросервисы на Python

Level of difficultyEasy
Reading time8 min
Views17K

Микросервисы – это парадигма, где приложение разбивается на небольшие независимые компоненты, каждый из которых отвечает за конкретную функцию. Это как отделы в офисе, каждый офис – это отдельный сервис, который может быть разработан, масштабирован и развернут независимо.

Почему асинхронность так важна для наших микросервисов? Представьте себе множество людей, ожидающих в лифте – каждый из них хочет двигаться своим темпом, и никто не хочет ждать, когда лифт подойдет к нужному этажу. Так и в мире микросервисов – каждый сервис может заниматься своей задачей, не блокируя другие. Асинхронность позволяет нам этим заниматься: вместо того чтобы ждать ответа от одного сервиса, мы можем отправить запрос другому и эффективно использовать время, пока ждем ответа.

Читать далее

Системы управления временными рядами

Level of difficultyEasy
Reading time7 min
Views5.5K

Для эффективного хранения и обработки таких объемных и динамичных данных требуются специальные базы данных. Традиционные реляционные базы данных могут быть неэффективны в работе с временными рядами из-за их большого объема и сложности обработки. Поэтому существуют специализированные базы данных для временных рядов (TSDBMS), которые предназначены именно для этой задачи.

TSDBMS обладают оптимизированными структурами данных и индексами, которые позволяют справляться с высокой частотой обновления данных и проводить сложные операции агрегации и анализа. Они также предоставляют механизмы для горизонтального масштабирования и обеспечения отказоустойчивости, что критически важно при работе с такими динамичными данными.

Читать далее

Профилирование производительности R-скриптов

Level of difficultyMedium
Reading time13 min
Views1.2K

Когда мы занимаемся анализом данных, каждая миллисекунда имеет значение. Профилирование производительности - это мощный инструмент, который позволяет нам выявлять узкие места в нашем коде, те самые места, где программа затрачивает больше всего времени. Понимание этих моментов позволяет нам сосредотачиваться на оптимизации и сделать нашу работу более быстрой и эффективной.

Цель этой статьи - рассмотреть методы профилирования производительности и оптимизации для повышения эффективности R-скриптов. Мы поговорим о встроенных инструментах R, которые помогают нам профилировать код, а также о том, как правильно анализировать результаты профилирования.

Читать далее

Анализ пространственно-временных паттернов в распределенных системах обработки данных

Level of difficultyMedium
Reading time16 min
Views3.5K

В современном мире огромное количество информации собирается, передается и обрабатывается каждую секунду, и именно анализ этих данных помогает нам делать важные выводы и принимать взвешенные решения.

Наша цель - разобраться, как анализ пространственно-временных паттернов способен преобразовать массу данных в ценные знания.

Важность анализа данных в пространстве и времени состоит в том, чтобы обнаружить скрытые связи и закономерности, которые могут быть незаметны на первый взгляд. С помощью различных методов и алгоритмов мы сможем определить причинно-следственные связи, выделить группы похожих данных и предсказать будущие события.

Читать далее

Построение компромиссных решений и определение эффективности Парето в многокритериальных системах

Level of difficultyMedium
Reading time17 min
Views12K

Сегодняшний мир становится все сложнее с каждым днем, и системы, с которыми нам приходится сталкиваться, становятся все более разветвленными и разнообразными. При этом, мы всегда сталкиваемся с множеством различных целей, которые должны быть учтены и достигнуты одновременно. Как же нам разобраться в этой сложности и принимать обоснованные решения?

В этом нам поможет понятие эффективности Парето. Именно оно играет ключевую роль в анализе многокритериальных систем. Этот принцип был впервые сформулирован итальянским экономистом Вильфредо Парето в начале 20-го века и означает, что если нет такого решения, которое бы улучшило одну из целей, не ухудшив при этом другие, то такое решение считается эффективным с точки зрения Парето.

Читать далее

Паттерн Space-Based для масштабируемых систем

Level of difficultyMedium
Reading time7 min
Views3.5K


В эпоху больших данных и глобально распределенных приложений, масштабирование систем является одним из главных вызовов для разработчиков. Масштабирование не только означает обработку большего количества данных или обслуживание большего числа пользователей, но и поддержание высокой производительности, отказоустойчивости и надежности системы.

Одним из подходов, который обещает решить эти проблемы, является Space-Based архитектура, или SBA. Эта модель, также известная как «tuple space» или «shared nothing» архитектура, предлагает уникальный способ организации и управления данными и обработкой, который может масштабироваться практически без ограничений.
Читать дальше →

Архитектура CQRS

Level of difficultyMedium
Reading time10 min
Views25K


Идея CQRS возникла в 2010 году, когда Грег Янг (Greg Young) опубликовал статью на эту тему. CQRS быстро стал популярным в разработке приложений, и сегодня является одним из ключевых подходов в работе со сложными системами.

CQRS (Command Query Responsibility Segregation) — это архитектурный паттерн, который предлагает разделить операции записи и чтения данных в приложении на две отдельные ветки. Вместо того, чтобы использовать единый интерфейс для обеих операций, CQRS предлагает использовать различные модели данных для команд и запросов. Это позволяет оптимизировать каждую модель для конкретных задач и улучшить производительность приложения.
Читать дальше →

Многомерные базы данных

Level of difficultyMedium
Reading time9 min
Views8.5K


Многомерные базы данных (МБД) представляют собой эффективные инструменты для организации и анализа больших объемов данных в сфере аналитики. Они представляют данные в форме кубов, где каждая ось представляет собой отдельное измерение, а значения представляются в виде ячеек. Концепция МБД зародилась в конце 1970-х годов.

Многомерные базы данных отличаются от обычных реляционных баз данных тем, что они специально оптимизированы для работы с аналитическими запросами и агрегированными данными. В отличие от традиционных баз данных, где данные хранятся в виде таблиц, в МБД основное внимание уделяется анализу данных и созданию быстрых и эффективных запросов.
Читать дальше →

Консолидация баз данных: этапы, методы и примеры

Level of difficultyMedium
Reading time13 min
Views9.5K

Сейчас во всём мире объёмы данных растут с невероятной скоростью, и чтобы эффективно использовать их потенциал, требуется правильное хранение и управление информацией. Одним из наиболее эффективных способов решения этой проблемы является консолидация баз данных. Но что это такое и как её правильно реализовать? В этой статье мы разберёмся, какую пользу может принести консолидация баз данных и как её провести на практике. Если вы хотите оптимизировать свою работу с данными, то эта статья для вас!
Читать дальше →

Сравнение SQL- и NoSQL-баз данных

Level of difficultyEasy
Reading time11 min
Views60K

SQL и NoSQL — две популярные модели баз данных, которые используют для решения различных задач. Чтобы понять, какая из них подойдёт в вашем случае, необходимо разобраться в их различиях, преимуществах и недостатках.

В этой статье я рассмотрю основные характеристики SQL- и NoSQL-баз данных и сравню их, чтобы помочь выбрать лучший вариант для вашего проекта.
Читать дальше →

Как программный код привел к потерям большого количества денег и даже трагедиям

Level of difficultyEasy
Reading time9 min
Views7.3K

В настоящее время программирование играет огромную роль в нашей жизни и экономике. Все больше компаний, организаций и государств испытывают большую потребность в создании различных программных продуктов. Но не все проходят гладко и безопасно.

Зачастую сложности возникают из-за ошибок, которые программисты допускают в своей работе. И даже одна небольшая ошибка может привести к потере большого количества денег или даже трагедиям. Такое происходит далеко не редко и многие примеры известны всему миру.

В этой статье мы рассмотрим несколько примеров случаев, когда неправильный программный код привел к негативным последствиям и как это можно было бы избежать.

Читать далее

Как математики расшифровали «код» природы и внесли свой вклад в биологию

Level of difficultyEasy
Reading time11 min
Views4K

Математика не ограничивается рамками абстрактных чисел и формул. Она позволяет анализировать и моделировать самые разнообразные процессы, включая биологические, что делает ее невероятно мощным инструментом в науке.

В этой статье мы более детально рассмотрим, как математические методы применяются в биологии и какие математики внесли вклад в биологию. Если вы интересуетесь процессами жизни, желаете узнать больше о вкладе математике в биологию или просто любопытны, то эта статья именно для вас.

Читать далее

64 идеи новых значков для авторов на Хабре

Reading time5 min
Views1.6K

Хабр — это крупнейшая русскоязычная площадка для IT‑специалистов, технологических стартапов и новостей сферы новых технологий. Вместе с тем, площадка не перестает развиваться, и это обосновано. Я хотел бы внести небольшие идеи и вклад в развитие Хабра, предложив добавить несколько новых значков на Хабр, которые могли бы стать мотиватором для тех, кто желает писать статьи.

По анализу трафика на Similarweb февраль 2023 года было около 37 миллионов посещений, а за период с декабря 2022 года по февраль 2023 года на Хабре было более 100 миллионов посещений.

Читать далее

Ультимативный Roadmap для Python-разработчика в 2023 году + источники знаний

Level of difficultyEasy
Reading time4 min
Views239K

Python — один из самых популярных языков программирования в мире. Статистика современного рынка свидетельствует о том, что Python желаемый навык, и что его использование широко распространено в различных сферах, таких как наука, инженерия, бизнес, аналитика данных и многих других.

В этой статье я составил полную дорожную карту для изучения Python, прилагая полезные источники знаний.

Читать далее

Information

Rating
31-st
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Registered
Activity

Specialization

Specialist
Middle
From 1 ₽
SQL
Python
Database
English
PostgreSQL
Git