Изучаем Python: модуль json для начинающих с домашним заданием / Хабр

Введение: JSON – универсальный язык обмена данными

Если вам когда-либо приходилось передавать структурированные данные между двумя разными системами, вы наверняка сталкивались с JSON. Сегодня JSON (JavaScript Object Notation) — это общепринятый стандарт для обмена данными в интернете. Он стал настолько популярным благодаря своей простоте и эффективности.

Что это такое простыми словами?

Представьте, что вам нужно отправить кому-то информацию о пользователе: имя, возраст и список его увлечений. В Python вы бы, скорее всего, использовали словарь:

{
    "name": "Алекс",
    "age": 30,
    "hobbies": ["программирование", "путешествия", "фотография"]
}

Так вот, JSON — это, по сути, тот же самый способ записи данных, но в виде обычного текста. Эта текстовая структура состоит из пар "ключ-значение" и упорядоченных списков (массивов), что делает ее понятной не только для машин, но и для человека.

Почему все его используют?

Простота и читаемость: Синтаксис JSON минималистичен и интуитивно понятен. В отличие от своего "старшего брата" XML, он не использует громоздкие теги, что делает его более компактным и легким для восприятия.
Универсальность: Несмотря на происхождение из JavaScript, JSON не привязан к какому-либо конкретному языку программирования. Большинство современных языков, включая Python, Java, C# и другие, имеют встроенные или сторонние библиотеки для удобной работы с этим форматом.
Широкое применение: JSON используется повсеместно: от передачи данных между браузером и сервером (API) до хранения настроек в конфигурационных файлах и работы с базами данных.

JSON в Python

Для программистов на Python работа с JSON — сплошное удовольствие. В стандартной библиотеке есть встроенный модуль json, который позволяет легко превращать объекты Python в JSON-строку (этот процесс называется сериализацией) и наоборот, JSON-строку в объекты Python (десериализация). Никаких внешних зависимостей — все необходимое уже "под капотом".

В этой статье мы подробно разберем, как использовать этот мощный инструмент для решения повседневных задач.

2. Основы работы с модулем json

Вся магия работы с JSON в Python вращается вокруг четырех основных функций. Их легко запомнить попарно: две для работы со строками (dumps, loads) и две для работы с файлами (dump, load). Давайте разберемся с каждой из них.

Сериализация: Превращаем объекты Python в JSON

Сериализация — это процесс преобразования структуры данных Python (например, словаря или списка) в текстовую строку формата JSON.

json.dumps(): из Python в JSON-строку

Функция json.dumps() (dump string) берет объект Python и возвращает строку в формате JSON.

import json

# Создаем словарь Python
user_data = {
    "name": "Иван Иванов",
    "age": 30,
    "is_active": True,
    "courses": ["Python", "Git"],
    "passport": None
}

# Сериализуем в JSON-строку
json_string = json.dumps(user_data)

print(json_string)
# Вывод: {"name": "\u0418\u0432\u0430\u043d \u0418\u0432\u0430\u043d\u043e\u0432", "age": 30, "is_active": true, "courses": ["Python", "Git"], "passport": null}

Обратите внимание на несколько моментов:

True в Python превратился в true в JSON.
None стал null.
Русские буквы по умолчанию экранируются (\u0418...). Чтобы это отключить, можно добавить параметр ensure_ascii=False.

Делаем вывод красивым

Полученная строка компактна, но неудобна для чтения. Чтобы отформатировать ее, у json.dumps() есть два полезных параметра:

indent: задает количество пробелов для отступа на каждом уровне вложенности.
sort_keys: если True, ключи в объектах (словарях) будут отсортированы по алфавиту.

Давайте применим их:

# Используем ensure_ascii=False для корректного отображения кириллицы
json_formatted_string = json.dumps(user_data, indent=4, sort_keys=True, ensure_ascii=False)

print(json_formatted_string)

Результат будет гораздо более читаемым:

{
    "age": 30,
    "courses": [
        "Python",
        "Git"
    ],
    "is_active": true,
    "name": "Иван Иванов",
    "passport": null
}

Десериализация: Читаем JSON в Python

Десериализация — это обратный процесс: преобразование JSON-строки в объект Python.

json.loads(): из JSON-строки в Python

Функция json.loads() (load string) парсит строку, содержащую JSON, и возвращает объект Python (чаще всего словарь или список).

import json

json_data = '{"name": "Анна Петрова", "city": "Москва", "skills": ["SQL", "Power BI"]}'

# Десериализуем строку в словарь Python
python_dict = json.loads(json_data)

print(python_dict)
# Вывод: {'name': 'Анна Петрова', 'city': 'Москва', 'skills': ['SQL', 'Power BI']}

# Теперь можно работать с ним как с обычным словарем
print(f"Имя: {python_dict['name']}")
# Вывод: Имя: Анна Петрова

Работа с файлами: сохраняем и загружаем JSON

Часто данные в формате JSON хранятся в файлах (с расширением .json). Для удобной работы с ними существуют функции dump и load.

json.dump(): записываем объект Python в JSON-файл

Функция json.dump() сериализует объект Python и записывает его напрямую в файловый объект. Она принимает два обязательных аргумента: сам объект и файловый объект, открытый на запись.

import json

user_profile = {
    "user_id": 123,
    "username": "coder2025",
    "settings": {
        "theme": "dark",
        "notifications": True
    }
}

# Открываем файл для записи
with open("profile.json", "w", encoding="utf-8") as f:
    # Записываем словарь в файл с форматированием
    json.dump(user_profile, f, indent=4, ensure_ascii=False)

print("Файл profile.json успешно создан.")

После выполнения этого кода появится файл profile.json с красивым и отформатированным содержимым.

json.load(): читаем JSON-файл в объект Python

Функция json.load() читает данные из файлового объекта, содержащего JSON, и десериализует их в объект Python.

import json

# Открываем файл для чтения
with open("profile.json", "r", encoding="utf-8") as f:
    # Загружаем данные из файла в переменную
    data = json.load(f)

print(data)
# Вывод: {'user_id': 123, 'username': 'coder2025', 'settings': {'theme': 'dark', 'notifications': True}}

print(f"Тема оформления: {data['settings']['theme']}")
# Вывод: Тема оформления: dark

Итак, мы рассмотрели четыре кита, на которых держится вся работа с JSON в Python. Запомнить их просто: функции с s в конце (dumps, loads) работают со строками, а без s (dump, load) — с файлами.

3. Продвинутые возможности и решение типичных задач

Освоив основы, вы готовы погрузиться в более сложные и интересные сценарии. Стандартный модуль json достаточно гибок, чтобы справиться с нестандартными типами данных и возможными ошибками в формате.

Работа с пользовательскими объектами Python

Что произойдет, если попытаться сериализовать экземпляр собственного класса?

import json

class User:
    def __init__(self, name, email):
        self.name = name
        self.email = email

user = User("Алиса", "alice@example.com")

# Попытка сериализации
# json.dumps(user) 
# -> TypeError: Object of type User is not JSON serializable

json.dumps() "спотыкается", потому что не знает, как представить объект User в виде JSON. К счастью, есть несколько способов его "научить".

Решение через default

Самый простой способ — передать в json.dumps() функцию-помощника через параметр default. Эта функция будет вызываться для всех объектов, которые модуль не может сериализовать самостоятельно. Она должна вернуть JSON-совместимое представление объекта, например, словарь.

def user_serializer(obj):
    if isinstance(obj, User):
        return {"name": obj.name, "email": obj.email}
    # Для других типов данных, которые могут вызвать ошибку,
    # вызываем стандартный обработчик
    raise TypeError(f"Object of type {type(obj).__name__} is not JSON serializable")

json_string = json.dumps(user, default=user_serializer, indent=4, ensure_ascii=False)
print(json_string)

Вывод:

{
    "name": "Алиса",
    "email": "alice@example.com"
}

Более лаконичным вариантом может быть использование __dict__, который вернет все атрибуты объекта в виде словаря.

json.dumps(user, default=lambda o: o.__dict__)

Продвинутый способ: собственный JSONEncoder

Для более сложных и системных задач, например, когда вам нужно обрабатывать множество разных кастомных классов, можно создать собственный класс-кодировщик, унаследовав его от json.JSONEncoder и переопределив метод default().

from json import JSONEncoder

class CustomEncoder(JSONEncoder):
    def default(self, obj):
        if isinstance(obj, User):
            return {"name": obj.name, "email": obj.email}
        # Вызываем родительский метод для обработки стандартных типов 
        # или выброса TypeError
        return super().default(obj)

json_string = json.dumps(user, cls=CustomEncoder, indent=4, ensure_ascii=False)
print(json_string)

Использование cls=CustomEncoder указывает dumps применять наши правила сериализации.

Десериализация в пользовательские объекты

Теперь решим обратную задачу: как из JSON-строки получить не просто словарь, а экземпляр нашего класса User? Для этого в функциях json.loads() и json.load() существует параметр object_hook.

object_hook — это функция, которая будет вызвана для каждого декодированного JSON-объекта (то есть для каждого словаря). Она получает словарь в качестве аргумента, и ее задача — вернуть нужный нам объект Python.

import json

class User:
    def __init__(self, name, email):
        self.name = name
        self.email = email
    
    def __repr__(self):
        return f"<User {self.name} ({self.email})>"

def user_decoder(dct):
    # Проверяем, похож ли словарь на нашего пользователя (например, по ключам)
    if "name" in dct and "email" in dct:
        return User(dct["name"], dct["email"])
    return dct

json_string = '{"name": "Алиса", "email": "alice@example.com"}'

# Десериализуем строку с использованием object_hook
user_obj = json.loads(json_string, object_hook=user_decoder)

print(user_obj)
print(type(user_obj))

Вывод:

<User Алиса (alice@example.com)>
<class '__main__.User'>

Как видите, json.loads() вернул нам полноценный экземпляр класса User, а не стандартный dict.

Обработка ошибок: что делать, если JSON "кривой"?

При работе с внешними данными (например, от API) мы не можем быть уверены в их корректности. Если попытаться десериализовать невалидную JSON-строку, Python выбросит исключение json.JSONDecodeError.

Примеры невалидного JSON:

'{"key": "value",}' (лишняя запятая)
'{"key": "value'} (незакрытая строка)
"{'key': 'value'}" (использование одинарных кавычек вместо двойных)

Чтобы ваше приложение не "падало" из-за таких проблем, используйте конструкцию try...except:

import json

invalid_json = '{"name": "Боб", "age": 40,}' # Лишняя запятая в конце

try:
    data = json.loads(invalid_json)
    print("JSON успешно разобран:", data)
except json.JSONDecodeError as e:
    print("Ошибка декодирования JSON!")
    print(f"Сообщение об ошибке: {e.msg}")
    print(f"Строка: {e.lineno}, колонка: {e.colno}")

Вывод:

Ошибка декодирования JSON!
Сообщение об ошибке: Expecting property name enclosed in double quotes
Строка: 1, колонка: 29

Такой подход позволяет элегантно обработать ошибку, залогировать ее и продолжить выполнение программы, не прерывая ее работу.

## 4. Производительность и альтернативы

Для большинства повседневных задач производительности встроенного модуля json более чем достаточно. Он надежен, удобен и всегда под рукой. Однако в высоконагруженных системах, при обработке гигантских JSON-файлов или в задачах, критичных ко времени отклика (например, в веб-фреймворках), он может стать узким местом.

Когда стандартный json может быть медленным?

Основная причина, по которой стандартная библиотека может уступать в скорости, заключается в том, что она написана на чистом Python с некоторыми C-оптимизациями, но не всегда максимально эффективна для крупномасштабных задач. Процессы сериализации и десериализации требуют значительных ресурсов CPU, особенно при работе с большими объемами данных. Кроме того, при загрузке большого JSON-файла в память создается множество объектов Python, что приводит к существенному расходу оперативной памяти — зачастую в 4-5 раз больше, чем размер самого файла на диске.

Обзор альтернативных библиотек

К счастью, существуют сторонние библиотеки, спроектированные специально для максимальной производительности. Как правило, они написаны на Rust или C, что обеспечивает им значительное преимущество в скорости.

orjson: скорость и удобство

orjson — одна из самых популярных и быстрых библиотек для работы с JSON в Python. Она создана на Rust и ориентирована на максимальную производительность.

Ключевые преимущества orjson:

Высокая скорость: orjson значительно превосходит стандартный json в скорости как сериализации (dumps), так и десериализации (loads).
Нативная поддержка типов: В отличие от стандартной библиотеки, orjson "из коробки" умеет корректно сериализовать dataclasses, datetime, UUID и даже объекты numpy. Это избавляет от необходимости писать собственные обработчики для этих популярных типов.
Корректность и строгость: Библиотека строго следует спецификации JSON и UTF-8, что обеспечивает высокую надежность.
Компактный вывод: По умолчанию orjson генерирует байтовые строки (bytes) без лишних пробелов, что идеально подходит для передачи данных по сети.

Установка:
pip install orjson

Пример использования:

import orjson
from dataclasses import dataclass
from datetime import datetime

@dataclass
class User:
    name: str
    signup_ts: datetime

user = User("Елена", datetime.now())

# orjson легко сериализует dataclass и datetime
json_bytes = orjson.dumps(user)
print(json_bytes)
# b'{"name":"\xd0\x95\xd0\xbb\xd0\xb5\xd0\xbd\xd0\xb0","signup_ts":"2025-10-26T08:22:00.123456+00:00"}'

# Десериализация
data = orjson.loads(json_bytes)
print(data)
# {'name': 'Елена', 'signup_ts': '2025-10-26T08:22:00.123456+00:00'}

msgspec: скорость плюс валидация

msgspec — это еще одна высокопроизводительная библиотека, которая идет на шаг дальше, объединяя быструю сериализацию с валидацией данных. Она также поддерживает не только JSON, но и MessagePack, YAML и TOML.

Ключевые преимущества msgspec:

Экстремальная производительность: В бенчмарках msgspec часто оказывается самой быстрой библиотекой для Python, обгоняя даже orjson.
Валидация "без накладных расходов": Главная особенность msgspec — возможность декодировать JSON сразу в строго типизированные структуры данных (похожие на dataclasses или pydantic), выполняя валидацию типов "на лету" практически без потери производительности.
Эффективность по памяти: Благодаря использованию C-расширений и специальных Struct типов, msgspec очень экономно расходует память.
Поддержка нескольких форматов: Возможность легко переключаться между JSON, MessagePack и другими форматами делает библиотеку очень гибкой.

Установка:
pip install msgspec

Пример использования с валидацией:

import msgspec
from typing import Optional

# Описываем ожидаемую структуру данных
class User(msgspec.Struct):
    name: str
    email: Optional[str] = None

# Создаем декодер для нашего типа
decoder = msgspec.json.Decoder(User)

# Декодируем и валидируем JSON
user_obj = decoder.decode(b'{"name": "Андрей", "email": "andrew@example.com"}')

print(user_obj)
# User(name='Андрей', email='andrew@example.com')

# Попытка декодировать некорректные данные вызовет ошибку
# decoder.decode(b'{"name": 123}')
# -> msgspec.ValidationError

Когда что выбирать?

Стандартный json: Идеален для скриптов, небольших приложений и ситуаций, где нет внешних зависимостей и не требуется экстремальная производительность.
orjson: Отличный выбор, когда нужна быстрая замена стандартному модулю. Если ваше приложение активно работает с JSON (например, веб-сервис) и вы хотите легко и быстро повысить его производительность, orjson — ваш кандидат номер один.
msgspec: Лучший выбор для высокопроизводительных систем, где важна не только скорость, но и строгая валидация данных на входе (например, при обработке запросов в API). Если вы работаете с четко определенными схемами данных, msgspec обеспечит и скорость, и надежность.

5. Практические примеры использования

Теория важна, но ничто не закрепляет знания лучше, чем практика. Давайте рассмотрим несколько реальных сценариев, где модуль json становится незаменимым помощником.

Пример 1: Работа с API

Большинство современных веб-сервисов (API) возвращают данные в формате JSON. Наша задача — получить эти данные и извлечь из них полезную информацию.

Задача: Получить список публичных репозиториев пользователя GitHub и вывести их названия и URL-адреса. Для этого мы будем использовать популярную библиотеку requests. Если она у вас не установлена, выполните: pip install requests.

import requests
import json

# Имя пользователя, чьи репозитории мы хотим получить
username = "user123"
# Формируем URL для запроса к API GitHub
url = f"https://api.github.com/users/{username}/repos"

try:
    # Отправляем GET-запрос
    response = requests.get(url)
    # Проверяем, что запрос успешен (статус код 200)
    response.raise_for_status()

    # Десериализуем полученный JSON-ответ. 
    # Библиотека requests имеет встроенный метод .json(), который делает это за нас.
    # Это эквивалентно json.loads(response.text)
    repos_data = response.json()

    print(f"Публичные репозитории пользователя {username}:")
    
    # Перебираем список репозиториев (который теперь является списком словарей Python)
    for repo in repos_data:
        # Извлекаем нужные данные по ключам
        repo_name = repo["name"]
        repo_url = repo["html_url"]
        print(f"- {repo_name}: {repo_url}")

except requests.exceptions.RequestException as e:
    print(f"Ошибка при выполнении запроса: {e}")
except json.JSONDecodeError:
    print("Ошибка декодирования JSON. Получен невалидный ответ от сервера.")

В этом примере мы отправили запрос к API, получили ответ в виде JSON-строки, а затем легко преобразовали его в список словарей Python, с которым уже очень удобно работать в цикле.

Пример 2: Чтение и анализ файла конфигурации

JSON — отличный формат для хранения настроек и конфигураций приложений благодаря своей читаемости.

Задача: Создать файл конфигурации для нашего приложения, а затем прочитать его и использовать параметры для настройки.

Сначала создадим сам файл config.json:

{
  "app_name": "My Awesome App",
  "version": "1.2.0",
  "debug_mode": true,
  "database": {
    "host": "localhost",
    "port": 5432,
    "user": "admin"
  },
  "supported_features": [
    "feature_a",
    "feature_b",
    "feature_c"
  ]
}

Теперь напишем Python-скрипт, который будет читать этот файл:

import json

CONFIG_FILE = "config.json"

try:
    with open(CONFIG_FILE, "r", encoding="utf-8") as f:
        # Загружаем всю конфигурацию из файла в один словарь
        config = json.load(f)

    # Теперь мы можем легко обращаться к любым параметрам
    print(f"Запускаем приложение: {config['app_name']} (версия {config['version']})")

    if config["debug_mode"]:
        print("Внимание: приложение запущено в режиме отладки!")

    db_host = config["database"]["host"]
    db_port = config["database"]["port"]
    print(f"Подключаемся к базе данных по адресу: {db_host}:{db_port}")

    print(f"Поддерживаемые фичи: {', '.join(config['supported_features'])}")

except FileNotFoundError:
    print(f"Ошибка: Файл конфигурации '{CONFIG_FILE}' не найден.")
except json.JSONDecodeError:
    print(f"Ошибка: Не удалось разобрать файл конфигурации '{CONFIG_FILE}'. Проверьте синтаксис JSON.")
except KeyError as e:
    print(f"Ошибка: В файле конфигурации отсутствует необходимый ключ: {e}")

Этот подход позволяет отделить конфигурацию от кода, что делает приложение более гибким и удобным в сопровождении.

Пример 3: Создание вложенных JSON-структур

Иногда требуется не читать, а, наоборот, программно сгенерировать сложный JSON-документ для отправки в другую систему.

Задача: Сформировать JSON-объект, описывающий заказ в интернет-магазине, и сохранить его в файл.

import json
from datetime import datetime

# Собираем данные о заказе, используя словари и списки Python
order_data = {
    "order_id": 10543,
    "timestamp": datetime.now().isoformat(), # Используем стандартный формат ISO 8601 для даты
    "customer": {
        "name": "Мария Смирнова",
        "email": "m.smirnova@example.com",
        "address": {
            "city": "Санкт-Петербург",
            "street": "Невский проспект",
            "house": "10"
        }
    },
    "items": [
        {
            "product_id": "prod-001",
            "product_name": "Ноутбук ProBook 15",
            "quantity": 1,
            "price": 75000.00
        },
        {
            "product_id": "prod-025",
            "product_name": "Беспроводная мышь",
            "quantity": 1,
            "price": 1500.50
        }
    ],
    "is_paid": True
}

# Сохраняем сформированную структуру в файл с красивым форматированием
try:
    with open("order_10543.json", "w", encoding="utf-8") as f:
        json.dump(order_data, f, indent=4, ensure_ascii=False)
    
    print("Файл заказа order_10543.json успешно создан.")

except IOError as e:
    print(f"Не удалось записать файл: {e}")

В результате выполнения этого кода будет создан файл order_10543.json с идеально структурированным и читаемым содержимым. Мы создали сложную вложенную структуру, комбинируя словари для объектов и списки для массивов, а json.dump() легко преобразовал всё это в корректный JSON-формат.

6. Заключение

Мы совершили полное погружение в мир работы с JSON в Python. Начав с основ, мы увидели, насколько просто и интуитивно можно преобразовывать данные между объектами Python и текстовым форматом JSON с помощью всего четырех ключевых функций: dumps, loads, dump и load.

Практические задачи для закрепления материала

Задача 1: Идеальная сериализация

Дан словарь Python. Преобразуйте его в JSON-строку так, чтобы:

Строка была отформатирована с отступом в 4 пробела.
Ключи были отсортированы по алфавиту.
Русские символы отображались как есть, а не в виде \uXXXX кодов.

product_info = {
    "name": "Смартфон 'Горизонт'",
    "price": 25000,
    "available": True,
    "tags": ["электроника", "гаджеты"]
}

Задача 2: Сохранение и чтение из файла

Дан список словарей с информацией о пользователях.

Напишите скрипт, который сохраняет этот список в файл users.json с красивым форматированием.
Напишите второй скрипт, который читает данные из users.json, а затем выводит в консоль имя второго пользователя в списке.

users = [
    {"id": 1, "name": "Петр"},
    {"id": 2, "name": "Анна"},
    {"id": 3, "name": "Сергей"}
]

Задача 3: Разбор ответа API

Представьте, что вы получили от API следующую JSON-строку. Напишите код, который десериализует эту строку и выведет на экран значение ключа temp_min для второго дня прогноза (то есть для "2025-10-27").

api_response_str = """
{
  "city": "Москва",
  "forecast": [
    {
      "date": "2025-10-26",
      "temp_max": 5,
      "temp_min": -2
    },
    {
      "date": "2025-10-27",
      "temp_max": 4,
      "temp_min": -3
    }
  ]
}
"""

Задача 4: Сериализация кастомного объекта

Дан класс Book. Напишите код для сериализации экземпляра этого класса в JSON-строку, используя параметр default в json.dumps().

import json

class Book:
    def __init__(self, title, author, year):
        self.title = title
        self.author = author
        self.year = year
        
my_book = Book("Мастер и Маргарита", "М.А. Булгаков", 1967)

# Ваш код здесь
# ...

Задача 5: Безопасный парсинг

Дана строка broken_json с синтаксической ошибкой (лишняя запятая). Напишите программу, которая пытается ее десериализовать. Если возникает ошибка json.JSONDecodeError, программа не должна "падать", а должна вывести в консоль сообщение: Ошибка: Получены некорректные JSON-данные.

import json

broken_json = '{"id": 101, "status": "processed",}'

# Ваш код здесь
# ...

Анонс новых статей, полезные материалы, а так же если в процессе решения возникнут сложности, обсудить их или задать вопрос по статье можно в моём Telegram-сообществе.

Уверен, у вас все получится. Вперед, к практике!