Утечка 809 миллионов email адресов сервиса Verifications.io из-за публично открытой MongoDB / Хабр

Примечание переводчика — поводом для перевода статьи стало получение уведомления Have I Been Pwned о том, что мои данные оказались в этой утечке.

На прошлой неделе исследователи безопасности Bob Diachenko и Vinny Troia обнаружили незащищенную базу данных MongoDB, содержащую 150 гигабайт маркетинговой информации в виде открытого текста, включая 763 миллиона уникальных адресов электронной почты. Находка не только огромная, но и необычная. Она содержит данные об отдельных клиентах, а также «деловую информацию», такую как данные о сотрудниках и доходах различных компаний. Это разнообразие может объясняться источником информации: база данных, принадлежащая фирме Verification.io по «проверке» адресов электронной почты. База была отключена в тот же день, когда исследователь сообщил об этом компании.

Хотя вы, вероятно, никогда не слышали о них, такие компании играют решающую роль в индустрии электронного маркетинга. Они не рассылают маркетинговые электронные письма от своего имени и не проводят автоматизированные рассылки. Вместо этого они проверяют список клиента, чтобы убедиться, что адреса электронной почты в нем действительны и не возвращаются с ошибкой. Но полная проверка того, что адрес электронной почты работает, включает в себя отправку сообщения на этот адрес и подтверждение того, что оно было доставлено — по сути отправка спама людям. Это означает уклонение от блокировок интернет-провайдеров и платформ, таких как Gmail. (Существуют менее грубые способы проверки адресов электронной почты, но у них есть компромисс ложных срабатываний.) Основные провайдеры email-рассылок часто передают эту работу на аутсорсинг, а не берут на себя риск внесения своей инфраструктуры в черный список.

«У компаний есть списки адресов электронной почты и хотят начать рассылку по ним, но они не уверены, насколько они достоверны», — говорит Troia, основатель фирмы Night Lion Security. «Поэтому они идут в компанию, которая по сути рассылает спам». Troia предполагает, что база данных может быть настолько большой и разнообразной, потому что она содержит все данные клиентов Verification.io. WIRED не мог в течение нескольких дней связаться с компанией или CEO Vlad Strelkov. В понедельник веб-сайт Verification.io отключился и с тех пор не восстанавливался. (копия в архиве интернета прим. перев.)

В целом, 809 миллионов записей в базе Verification.io включают стандартную информацию, такую как имена, адреса электронной почты, номера телефонов и физические адреса. Но многие также включают в себя такую информацию, как пол, дата рождения, размер ипотечного кредита, процентная ставка, аккаунты Facebook, LinkedIn и Instagram, связанные с адресами электронной почты, а также характеристики кредитного рейтинга людей (например, средний, выше среднего и т.д.). Между тем, другие записи в базе, по-видимому, связаны с B2B продажами, включая названия компаний, цифры годового дохода, номера факсов, веб-сайты компаний и отраслевые идентификаторы для классификации компаний («SIC» и «NAIC» коды).

Данные не содержат номеров социального страхования или номеров кредитных карт, и единственные пароли в базе данных предназначены для собственной инфраструктуры Verification.io. В целом, большая часть данных является общедоступной из различных источников, но когда преступники могут получить в свои руки множество агрегированных данных, им будет намного легче запускать новые схемы мошенничества или расширять базу целей.

В открытой базе данных исследователи также обнаружили некоторые из внутренних инструментов Verification.io, такие как тестовые учетные записи электронной почты, сотни SMTP-серверов (отправка электронной почты), текст электронных писем, инфраструктура для предотвращения спама, ключевые слова, которых следует избегать, и IP-адреса для черного списка. Diachenko предполагает, что клиенты Verification.io загружают таблицу Excel, содержащую адреса электронной почты для проверки, а затем Verification.io запускает свои тесты и возвращает списки рабочих адресов и те, которые ответили с ошибкой. Возможно, учитывая разобщенность данных и свидетельство того, что они были импортированы из множества различных файлов Excel, что Verification.io также сохранил некоторые или все данные, полученные от клиентов после завершения проверки адресов электронной почты.

Исследователи проверяли образцы данных с компаниями, перечисленными в качестве клиентов Verification.io. Troia говорит, что его собственная информация появилась в базе данных. WIRED поговорил с владельцем компании, которая занимается email маркетингом. Он подтвердил достоверность части данных. WIRED также проверил четырех человек, но не нашел их в списке. Diachenko and Troia также отмечают, что у них нет никакого способа узнать, обнаружил ли кто-либо данные Verification.io, когда они были общедоступны. «Я понятия не имею, получил ли кто-нибудь еще доступ к этому, кроме нас», — говорит Troia. «Но это было точно доступно всем для скачивания».

Исследователь безопасности Troy Hunt добавил данные Verification.io в свой сервис HaveIBeenPwned, который помогает людям проверить, были ли их данные скомпрометированы в результате утечек. Он сказал, что 35% из 763 миллионов адресов электронной почты являются новыми для базы данных HaveIBeenPwned. Дамп Verification.io также является вторым по величине из когда-либо добавленных в HaveIBeenPwned по количеству адресов электронной почты после 773 миллионов, известных как Collection #1, которые были добавлены ранее в этом году. Hunt говорит, что часть его собственной информации включена в базу Verification.io.

«Главный вывод для меня в том, что это просто еще один случай, когда у кого-то есть мои данные и сотни миллионов данных других людей, и я абсолютно не знаю, как они их получили», — говорит Hunt. «Я никогда не слышал о компании до сих пор, и я, конечно, не могу вспомнить, есть ли у них согласие использовать мои данные. Конечно, вполне возможно, что в некоторых положениях и условиях обслуживания говорится, что они могут использовать мои данные примерно так, но это не совсем соответствует моим ожиданиям относительно того, как мои данные должны использоваться».

Разобщенная природа представленных данных Verification.io говорит о хаотичном состоянии индустрии данных в целом. Личная информация людей передается огромным корпорациям, таким как Facebook, покупается и продается сомнительными маркетологами, или похищается у гигантов данных и обречена бесконечно распространяться в чистилище криминальных форумов. Пользователям становится труднее контролировать, у кого есть их данные и где они находятся. Как говорит Hunt: «К сожалению, это просто еще один день в Интернете».

Примечание переводчика — это мой первый перевод на Хабре, об ошибках и неточностях прошу сообщать в личные сообщения.