
Привет, Хабр!
Меня зовут Жеронкин Антон, я Data Engineer и участник профессионального сообщества NTA.
Иногда специфику работы дата‑инженера можно описать следующей картинкой:

И сейчас я расскажу почему: в одном проекте необходимо было использовать датасет, представляющий из себя около 5 млн. статей и связанных с ними сущностей (авторы, издательства, и т. д.).
Отмечу, что перед командой стояла задача адаптировать и загрузить этот датасет в PostgreSQL. При адаптации датасета необходимо было сохранить все связи между сущностями «Статья»‑»Автор», «Статья»‑»Издательство», «Статья»‑»Ключевое слово». Можно поспорить, что такой датасет можно сразу загрузить в MongoDB, ведь она является документоориентированной СУБД и гораздо лучше заточена для работы со слабоструктурированными сущностями, но в нашей команде не было достаточных навыков работы с ней.
Датасеты поставляются в формате одного JSON‑файла. Ниже привожу выдержку из описания датасета, составленного его авторами — с полной версией можно ознакомиться на странице датасета.

Какой вывод можно сделать из этого описания? У датасета есть структура, и она, на первый взгляд, кажется простой — создаётся впечатление, что датасет можно легко трансформировать в любой нужный нам вид. При его преобразовании в валидный для реляционных СУБД вид, достаточно будет извлечь отдельные столбцы, образовать связи между таблицами путем извлечения пар их ID. Так думал и я, решив, что преобразование этого датасета не займет много времени.
Первое, с чем мне пришлось столкнуться — впечатляющий размер датасета (17 ГБ) и встречающиеся иногда невалидные (нарушен синтаксис, баланс скобок) JSON‑записи.
Второе — записи в датасете слабоструктурированы. Слабоструктурированные сущности в данном контексте — это сущности, под хранение которых нет чётко и однозначно описанной структуры данных, как в тех же реляционных СУБД. В соседних записях половина атрибутов может быть общей для всех, а другая половина — быть уникальной для данной конкретной записи.
Таким образом, требовалось понять, что датасет из себя представляет и провести разведочный анализ. Было решено подгружать датасет в pandas с разбивкой по группам строк (чанкам), т.к.:
Сырой JSON‑файл размером в 17 ГБ целиком не загрузить как в текстовый редактор, так и в словарь через библиотеку json. В pandas через доп.параметр chunksize этот момент можно контролировать
Неясно, сколько на самом деле атрибутов, как они форматированы в JSON, насколько сложно их будет читать в сыром виде. Pandas хотя бы на верхнем уровне может представить записи в виде таблицы с плоской структурой.
Как и ожидалось, связанные со статьей сущности (авторы, издания), оформлены не в виде плоской структуры (одна строка — одна статья — один автор), а в виде вложенных списков внутри столбцов таблицы:

Для того, чтобы такие отношения между статьями и авторами, изданиями корректно отразить в реляционной СУБД, нам необходимо выровнять сущности, нормализовать и правильно смоделировать связь «Многие‑ко‑многим».
Если эти термины незнакомы, покажу на пальцах, как это работает. Допустим, мы имеем следующую таблицу:

И мы придерживаемся следующего порядка действий:
Преобразуем таблицу в первую нормальную форму (1НФ):

В новой структуре таблицы одной связи будет соответствовать ровно одна строка.
Дополнительно присвоим каждому из значений столбцов уникальный ID:

Разбиваем таблицу на две, а для их связи создаём дополнительную таблицу, в которой будут храниться пары ID подписчиков и издателей:

Естественно, пример, который я привёл выше, является сильно упрощенным «объяснением на пальцах», однако он позволяет продемонстрировать, что будет происходить дальше. Теперь я реализую это на Python:
import itertools
import pandas as pd
# читаем json порциями по 10000 записей
chunks = pd.read_json(raw_data_line, chunksize=10000, lines = True)
lst_authors = []
lst_paper_author = []
lst_venues = []
lst_references = []
i=0
# цикл обработки
for chunk in chunks:
chunk.fillna('', inplace = True)
#АВТОРЫ
paper_author_tuples = [([x[0]], x[1])
for x in list(zip(chunk['_id'], chunk['authors'].fillna('')))
if x[1] != '']
paper_author_pairs = [item for x in paper_author_tuples
for item in list(itertools.product(x[0],x[1]))]
paper_author_pairs = [(x[0], {k:v for k,v in x[1].items()
if k in ['_id', 'name', 'org']})
for x in paper_author_pairs ]
paper_author_pairs = fix_ids(paper_author_pairs)
paper_author = [{'paper_id': x[0], 'author_id': x[1]['_id']}
for x in paper_author_pairs]
authors = [x[1] for x in paper_author_pairs]
lst_paper_author.extend(paper_author)
lst_authors.extend(authors)
# Издательства (venues)
# аналогичная обработка, только у одной статьи не много издательств, а одно
# references
if 'references' in chunk:
references_tuples = [([x[0]], x[1])
for x in list(zip(chunk['_id'], chunk['references']))
if x[1] != '']
references_pairs = [item for x in references_tuples
for item in list(itertools.product(x[0],x[1]))]
lst_references.extend(references_pairs)
del chunk['references']
del chunk['authors']
chunk.to_csv(f'clearsets\\papers-{i}.csv', sep='\t', encoding='utf-8')
i+=1
# формируем csv с уникальными авторами и их id
pd.DataFrame(lst_authors).drop_duplicates(subset='_id').to_csv(f'clearsets\\authors.csv', sep='\t', encoding='utf-8')
# формируем csv со связями статей и авторов
pd.DataFrame(lst_paper_author).to_csv(f'clearsets\\paper_author.csv', sep='\t', encoding='utf-8')
# формируем csv со ссылками статей друг на друга
pd.DataFrame(lst_references).to_csv(f'clearsets\\references.csv', sep='\t', encoding='utf-8')
Пояснения к отдельным вызовам функций я прикрепил в комментариях. В целом, логика работы с датасетом соответствует той, что я описывал ранее.
# извлекаем пары значений (id статьи, [все авторы в статье])
paper_author_tuples = [([x[0]], x[1])
for x in list(zip(chunk['_id'], chunk['authors'].fillna('')))
if x[1] != '']
# раскрытие списков на вторых позициях кортежей
# создание уникальных пар (один id статьи, один автор)
paper_author_pairs = [item for x in paper_author_tuples
for item in list(itertools.product(x[0],x[1]))]
# фильтрация ключей в авторах, очистка от ненужных атрибутов
paper_author_pairs = [(x[0], {k:v for k,v in x[1].items()
if k in ['_id', 'name', 'org']})
for x in paper_author_pairs ]
# пары айдишников для связи авторов и статей
paper_author = [{'paper_id': x[0], 'author_id': x[1]['_id']}
for x in paper_author_pairs]
authors = [x[1] for x in paper_author_pairs]
lst_paper_author.extend(paper_author)
lst_authors.extend(authors)
Попробуем выполнить этот код.

Оказывается, у некоторых авторов нет даже ID, о чем нам красноречиво сигнализирует эта ошибка.

Чтобы обойти этот недостаток датасета, напишем функцию генерации недостающих ID и интегрируем её в обработку.
import uuid
def fix_ids(pairs):
for pair in pairs:
if '_id' not in pair[1]:
pair[1]['_id'] = uuid.uuid4().hex[:24]
return pairs
# создаем отсутствующие айдишники
paper_author_pairs = fix_ids(paper_author_pairs)
Выбор 24-символьного UUID обусловлен тем, что этот формат ID уже применяется в датасете, и у меня нет особой потребности переделывать их под какой‑то другой формат.
За скобками я оставил дополнительный скрипт, который проверяет уникальность каждого ID — поскольку ID будут использоваться как первичные ключи таблиц, необходимо исключить их дублирование. Хотя эта проверка у меня не выявила дублирования (кстати, СУБД тоже нормально приняла датасет). Этими проверками пренебрегать не стоит.
После того, как датасет обработан, остается залить его в заранее подготовленные таблицы и можно спокойно им пользоваться.

Подведем итоги
Когда мы сталкиваемся с большим ненормализованным датасетом, да еще и в формате JSON, который нужно переложить в связанные SQL‑таблицы, мы:
Читаем датасет по чанкам;
Анализируем датасет на качество, смотрим на атрибуты;
Нормализуем датасет, раскрываем связи между сущностями и следим за их целостностью.
В целом, знание этих пунктов позволит сразу адаптировать датасет под реляционные СУБД и значительно сократить время, затраченное на его обработку, ведь со структурной точки зрения его не потребуется переделывать бессчётное количество раз. А для всего остального — есть функционал SQL. Удачи!