Самая масштабная утечка документов в истории интернета: 2,6 терабайта




Международный консорциум журналистов-расследователей (ICIJ) выложил в свободный доступ «Панамский архив»: крупнейшую базу данных об офшорных компаниях, полученную с компьютеров панамской юридической фирмы Mossack Fonseca неизвестными лицами.

Аноним (John Doe) передал репортёрам немецкой газеты Süeddeustche Zeitung 2,6 терабайта файлов — электронные таблицы, тексты писем, PDF, TIFF и другие форматы, в том числе древние и уже неиспользуемые. Понимая масштаб работы, те попросили ICJI организовать международный совместный проект.

Миллионы графических изображений прогнали через программу распознавания символов Tesseract на 40 временных серверах в облаке Amazon. Для индексации текста использовали Apache Solr, для обработки документов в разных форматах — Apache Tika.

В течение года архив изучали 370 репортёров из 80 стран мира. Чтобы облегчить им работу журналистам, разработчики из ICIJ подключили графический интерфейс от библиотечной программы Project Blacklight. Чтобы показывать информацию в графическом виде и отображать связи между объектами, пришлось использовать проприетарную программу Linkurious, а с помощью инструмента Talend содержимое реляционной SQL базы Mossack Fonseca перевели в формат Neo4j.



Сейчас результат труда разработчиков предлагается оценить всем желающим через интернет.

База ICIJ в структурированном виде доступна по адресу:
https://www.occrp.org/en/panamapapers/database.html

Можно скачать копию на свой компьютер (35,7 МБ в архиве).





БД содержит информацию о почти 214 000 офшорных фирмах в 21 офшорных юрисдикциях.

Интерактивная карта клиентов офшорных фирм


В базе 11 516 фирм, которые принадлежат 6285 российским гражданам. Среди них — родственники и друзья высокопоставленных чиновников. Такая масштабная утечка документов может привести к ряду громких отставок и уголовных дел, хотя офшорные фирмы зачастую действуют в сером юридическом поле, не нарушая законодательство.

Опубликована лишь часть информации из 11,5 млн файлов, которые удалось получить с компьютеров юридической компании Mossack Fonseca, одного из крупнейших в мире генераторов фирм-однодневок.

Международный консорциум журналистов-расследователей не публикует всю имеющуюся информацию, здесь нет исходных документов или большой базы с персональной информацией, не указаны банковские счета фирм, содержимое электронной переписки и финансовые транзакции компаний. Это делается, чтобы не засветить персональные данные многочисленных людей, не причастных к финансовым преступлениям.

Обнародованы только названия фирм, их юрисдикции, почтовые адреса и имена руководителей офшорных компаний. Данные охватывают период с 1977 по 2015 годы.

База данных «Панамского архива» опубликована под свободной лицензией Creative Commons Attribution-ShareAlike. Международный консорциум журналистов-расследователей приглашает всё сообщество направить усилия на изучение и классификацию опубликованной информации.

UPD. Первая находка сообщества Geektimes


UPD2. Вторая находка сообщества Geektimes