При поиске свободного имена в зоне .com меня неприятно удивило количество уже занятых, но неиспользуемых доменов. Судя по всему, зарегистрированы все произносимые комбинации букв на всех основных языках мира. И даже непроизносимые короткие комбинации. То ли существует большой рынок доменов, то ли мне просто на ум приходят те же имена, что и всем остальным? Посмотрим на голую статистику…
В настоящее время зарегистрировано 137 миллионов доменных имён .com. По данным Verisign, в «активной зоне» по состоянию на 27.01.2019 года есть 137 756 106 доменов .com. Перед этим я сверил корректность цифры с файлом DNS-зоны.
Из них используется около трети (предприятия, личные веб-сайты, электронная почта и т. д.). Ещё треть, по-видимому, не используется, а последняя треть используется в различных спекулятивных целях.
Вот как используются домены (на выборке из 2188 штук):

Я начал краулинг со случайной выборки доменов верхнего уровня из DNS-файла зоны (файл скачан 21.01.2019, а краулинг продолжался до 23.01.2019), пока не достиг 100 000 валидных доменов (не все записи там валидные, некоторые выполняют роль ханипотов для ловли людей, которые нелегально распространяют файлы зоны, а примерно 1% являются нейм-серверами; после их исключения осталось 98 854 валидных доменов).
Для каждого домена я собрал следующее:
Сканирование заняло чуть более 48 часов с одного сервера в сингапурском дата-центре. Затем я запустил второй этап краулинга для всех доменов, которые не смогли подключиться по HTTP или HTTPS (в случае временных ошибок). И, наконец, для 2188 доменов из выборки я вручную проверил все ошибки на случай, если краулер вышел по таймауту или события DOM оказались заблокированы в JavaScript.
Затем я написал вспомогательный скрипт для ускорения ручной классификации сайтов на основе их скриншота и содержимого.

Скрипт представляет возможные категории в виде списка кнопок с содержимым по умолчанию
С помощью этого скрипта я выполнил категоризацию сайтов за два дня. Не все сайты пришлось различать вручную: в некоторых случаях категория была очевидной по полю <title>, так что я применил регулярные выражения. В других случаях скриншота оказалось недостаточно, поэтому пришлось вручную открывать домен в браузере для проверки.


Список категорий дополнялся по мере работы. Например, я не ожидал большого количества доменов для азартных игр (под алиасами).
Для большинства категорий приводится случайная выборка скриншотов.
Контент — домен с любым уникальным контентом. Это категория по умолчанию, куда я помещал любые сайты в случае сомнений.

Обратите внимание, что половина доменов в этой категории — страницы паркинга GoDaddy, на которых GoDaddy размещает объявления Google по ключевым словам, связанным с доменным именем.

Если мне не удалось подключиться или получить валидный ответ по порту 80 или 443 для домена верхнего уровня или субдомена www, при этом у домена нет MX-записи, я помещал его в эту категорию. Некоторые из этих доменов, вероятно, используются как-то иначе, например, как FTP или игровые сервера, но мне кажется, таких меньшинство. Ещё сюда попали любые сайты на IPv6, потому что сервер краулера был настроен только для IPv4.
Пустой домен — тот, для которого веб-сервер отвечает на запросы, но возвращает пустые страницы, ошибки 404 или незаполненные шаблоны (например, установки WordPress по умолчанию).
Разница между пустым и припаркованным доменом заключается в том, что пустой домен предположительно настроен пользователем, но содержимое ещё не добавлено.

Многие домены выставляются на продажу через различных брокеров и торговые площадки. Почти половину из них, похоже, продаёт HugeDomains, хотя на их веб-сайте говорится лишь о «более 200 000» доменах, доступных для покупки. Я учитывал только домены от известных площадок или когда контактные данные не включались в состав рекламного объявления, потому что рекламные сети и брокеры часто врут, что представляют владельца домена (вместо этого я классифицировал все такие домены как объявления).

Если домен возвращал ошибку любого типа, будь то ошибка HTTP или ошибка на странице, я относил его к этой категории.
Обратите внимание, что сюда могли случайно попасть некоторые приватные домены, если они использовали обычную аутентификацию, поскольку я не отличал 403 Forbidden (из-за отсутствия базовых учётных данных для аутентификации) от других ошибок.

Запаркованные домены отображают страницу регистратора или сообщают, что домен ещё не настроен. Чтобы попасть в эту категорию, домен должен выдавать страницу без внешней рекламы. Он может рекламировать собственные услуги, но не может размещать объявления из рекламной сети.

Почти все сайты этой категории на китайском языке и работают под алиасами: часто это короткие строки цифр или согласных (например, 17770012 или tdwhtr). Они следуют общим шаблонам и содержат похожие изображения, часто с автоматически генерируемыми логотипами. Я предполагаю, что их цель — привлечь людей на удачу.

Если домен не попадал ни в какую категорию, но у него есть MX-запись в DNS (для email), я относил его в категорию «Почта». Не проверял, работает ли почтовый сервер или доставка. Вполне возможно, что многие из этих доменов не используются для электронной почты.
Сюда отнесены «домены тщеславия», которые отсылают на страницы Facebook, альтернативные названия компаний и т. д.
Это сайты, на которых никакой контент не доступен без авторизации (или, в некоторых случаях, регистрации).

Как и игорные сайты, многие порносайты работает под разными алиасами. Веб-сайты преимущественно на китайском языке, и домены следуют аналогичным шаблонам именования. Поскольку многие сайты отображают порнографический материал напрямую (без предупреждения), я не делал скриншоты.
В настоящее время зарегистрировано 137 миллионов доменных имён .com. По данным Verisign, в «активной зоне» по состоянию на 27.01.2019 года есть 137 756 106 доменов .com. Перед этим я сверил корректность цифры с файлом DNS-зоны.
Из них используется около трети (предприятия, личные веб-сайты, электронная почта и т. д.). Ещё треть, по-видимому, не используется, а последняя треть используется в различных спекулятивных целях.
Вот как используются домены (на выборке из 2188 штук):

Как я получил эти цифры
Я начал краулинг со случайной выборки доменов верхнего уровня из DNS-файла зоны (файл скачан 21.01.2019, а краулинг продолжался до 23.01.2019), пока не достиг 100 000 валидных доменов (не все записи там валидные, некоторые выполняют роль ханипотов для ловли людей, которые нелегально распространяют файлы зоны, а примерно 1% являются нейм-серверами; после их исключения осталось 98 854 валидных доменов).
Для каждого домена я собрал следующее:
- запись WHOIS;
- все DNS-записи для доменов верхнего уровня и поддоменов
www
(DNS-запросомANY
напрямую к нейм-серверам, указанным в WHOIS-записи);
- ответы HTTP и HTTPS (код состояния, заголовки и тела) для главной страницы домена верхнего уровня и поддомена
www
(невалидные SSL-сертификаты относили домен в категориюError
);
- скриншот главной страницы в Mozilla Firefox 64.0 под Linux.
Сканирование заняло чуть более 48 часов с одного сервера в сингапурском дата-центре. Затем я запустил второй этап краулинга для всех доменов, которые не смогли подключиться по HTTP или HTTPS (в случае временных ошибок). И, наконец, для 2188 доменов из выборки я вручную проверил все ошибки на случай, если краулер вышел по таймауту или события DOM оказались заблокированы в JavaScript.
Затем я написал вспомогательный скрипт для ускорения ручной классификации сайтов на основе их скриншота и содержимого.

Скрипт представляет возможные категории в виде списка кнопок с содержимым по умолчанию
С помощью этого скрипта я выполнил категоризацию сайтов за два дня. Не все сайты пришлось различать вручную: в некоторых случаях категория была очевидной по полю <title>, так что я применил регулярные выражения. В других случаях скриншота оказалось недостаточно, поэтому пришлось вручную открывать домен в браузере для проверки.
Сводная статистика и выводы
Топ-10 регистраторов .com из выборки в 100 000 доменов

- GoDaddy зарегистрировал треть всех доменных имён. Это примерно 45 миллионов доменов. Из них на каждом третьем парковочные страницы. Иными словами, более 10% всех доменов .com в интернете размещают объявления GoDaddy.
- Хотя в выборке 1851 регистратор, они управляются небольшим числом операторов. Например, только DropCatch.com контролирует более тысячи регистраторов: DropCatch.com 1000 LLC, DropCatch.com 1001 LLC, DropCatch.com 1002 и так далее; аналогичные схемы с номерами используют и другие регистраторы, но у некоторых не столь очевидные схемы.
- За последний год зарегистрировано 25% доменов.
Возраст доменов из выборки в 100 000 штук (в годах)

Категории доменов
Список категорий дополнялся по мере работы. Например, я не ожидал большого количества доменов для азартных игр (под алиасами).
Для большинства категорий приводится случайная выборка скриншотов.
Контент (31% или ~43 млн)
Контент — домен с любым уникальным контентом. Это категория по умолчанию, куда я помещал любые сайты в случае сомнений.

Реклама (23% или ~31 млн)
Обратите внимание, что половина доменов в этой категории — страницы паркинга GoDaddy, на которых GoDaddy размещает объявления Google по ключевым словам, связанным с доменным именем.

Нет веб-сервера (11% или ~16 млн)
Если мне не удалось подключиться или получить валидный ответ по порту 80 или 443 для домена верхнего уровня или субдомена www, при этом у домена нет MX-записи, я помещал его в эту категорию. Некоторые из этих доменов, вероятно, используются как-то иначе, например, как FTP или игровые сервера, но мне кажется, таких меньшинство. Ещё сюда попали любые сайты на IPv6, потому что сервер краулера был настроен только для IPv4.
Пусто (9,2% или ~13 млн)
Пустой домен — тот, для которого веб-сервер отвечает на запросы, но возвращает пустые страницы, ошибки 404 или незаполненные шаблоны (например, установки WordPress по умолчанию).
Разница между пустым и припаркованным доменом заключается в том, что пустой домен предположительно настроен пользователем, но содержимое ещё не добавлено.

На продажу (7,1% или ~9,8 млн)
Многие домены выставляются на продажу через различных брокеров и торговые площадки. Почти половину из них, похоже, продаёт HugeDomains, хотя на их веб-сайте говорится лишь о «более 200 000» доменах, доступных для покупки. Я учитывал только домены от известных площадок или когда контактные данные не включались в состав рекламного объявления, потому что рекламные сети и брокеры часто врут, что представляют владельца домена (вместо этого я классифицировал все такие домены как объявления).

Ошибка (5,7% или ~7,9 млн)
Если домен возвращал ошибку любого типа, будь то ошибка HTTP или ошибка на странице, я относил его к этой категории.
Обратите внимание, что сюда могли случайно попасть некоторые приватные домены, если они использовали обычную аутентификацию, поскольку я не отличал 403 Forbidden (из-за отсутствия базовых учётных данных для аутентификации) от других ошибок.

Запаркован (4,8% или ~6,5 млн)
Запаркованные домены отображают страницу регистратора или сообщают, что домен ещё не настроен. Чтобы попасть в эту категорию, домен должен выдавать страницу без внешней рекламы. Он может рекламировать собственные услуги, но не может размещать объявления из рекламной сети.

Азартные игры (3,0% или ~4 млн)
Почти все сайты этой категории на китайском языке и работают под алиасами: часто это короткие строки цифр или согласных (например, 17770012 или tdwhtr). Они следуют общим шаблонам и содержат похожие изображения, часто с автоматически генерируемыми логотипами. Я предполагаю, что их цель — привлечь людей на удачу.

Почта (2,6% или ~3,5 млн)
Если домен не попадал ни в какую категорию, но у него есть MX-запись в DNS (для email), я относил его в категорию «Почта». Не проверял, работает ли почтовый сервер или доставка. Вполне возможно, что многие из этих доменов не используются для электронной почты.
Редирект (1,1% или ~1,6 млн)
Сюда отнесены «домены тщеславия», которые отсылают на страницы Facebook, альтернативные названия компаний и т. д.
Приватный (0,64% или ~0,9 млн)
Это сайты, на которых никакой контент не доступен без авторизации (или, в некоторых случаях, регистрации).

Порно (0,59% или ~0,8 млн)
Как и игорные сайты, многие порносайты работает под разными алиасами. Веб-сайты преимущественно на китайском языке, и домены следуют аналогичным шаблонам именования. Поскольку многие сайты отображают порнографический материал напрямую (без предупреждения), я не делал скриншоты.