Здравствуйте хабражители!
Статистический анализ Вконтакте, приведенный в одном из недавних топиков, сподвиг меня выложить некоторые результаты своего исследования аккаунтов продавцов на Яндекс.Маркете.
В процессе сбора статистики было проанализировано 21052 аккаунта, зарегистрированных по состоянию на 4 июля 2011 года. И вот результаты проделанной работы.
Осторожно, трафик.
1. Получить опыт парсинга сайтов с использованием phpQuery, XPath;
2. Вычислить количество зарегистрированных аккаунтов на Яндекс.Маркете;
3. Достать адрес сайта продавца (если есть);
4. Узнать Google PR, Yandex тИЦ, Yandex вИЦ, Alexa LP, наличие IP адреса, из whois — created: и paid-till: параметры домена;
5. Проанализировать собранную информацию.
Столкнулся с проблемой ограничения доступа по IP от Яндекса. Попытки решить ее через прокси не удались. Поэтому собиралась информация по частям из-под разных IP. Использовались IP местных провайдеров, сервера друзей, интернет-трафик CDMA оператора Украины PEOPLEnet. Всего было «забанено» 7 IP.
Был написан бот, который обращался по ссылкам, типа market.yandex.ru/shop-info.xml?shop-id=ххх, и анализировал полученный контент. Id значение менялось от 0 до 68545 (на 04.07.11 это был крайний аккаунт. Вычислено по ходу парсинга).
Пример. Под id=155 находится ozon.ru и в названии указан сайт, а под id=156 ничего нет (невалидный id).
В результате получено 21052 (31%) валидных значений:![](https://habrastorage.org/r/w780q1/storage1/6bc737b8/4c7b9ff2/19ab46e5/c3dc63f8.jpg)
Из всей совокупности валидных id — 14220 (68%) имели в выдаче адрес сайта, остальные просто название магазина или фирмы:
![](https://habrastorage.org/r/w780q1/storage1/10198caf/d83b4b84/3c248bc7/c4f28058.jpg)
Обнаружено 211 дубликатов сайтов под разными id из них:
17 дубликатов — test.yandex.ru (часть из них);
15 дубликатов — sotmarket.ru (часть из них);
6 дубликатов — techhome.ru, teramir.ru;
5 дубликатов — assistavto.ru, kubanpc.ru, ulmart.ru;
4 дубликатов — dostavka.ru, h2odesign.ru, kupitswimtraner.ru, originalam.net;
3 дубликатов — dsbw.ru, flamingo.ru, holodilnik.ru, kupithexbug.ru, superplayer.ru, techport.ru;
2 дубликатов — 15 сайтов;
1 дубликатов — 87 сайтов;
Возникает вопрос, зачем регистрироваться больше одного раза? Возможно, кто-то из общественности подскажет, но факт такой имеет место быть.
Распределение доменов по зонам:
![](https://habrastorage.org/r/w780q1/storage1/dd0c9f2d/00578c22/0e26abdf/1847acc0.jpg)
*Примечание: другие — fm, eu, lv, am, cx, uz, lt, cc, ws, in.
С помощью сайта seop.ru определялся Google PR, Yandex тИЦ, Yandex вИЦ путем подставления 10-ти адресов. Результаты парсились через XPath.
Количество сайтов в каждом уровне Google PR:
![](https://habrastorage.org/r/w780q1/storage1/449de114/1b686973/e8f92537/906beff3.jpg)
*Примечание: n/a – не определен.
Google PR 8 — laptopshop.ru;
Google PR 7 — ozon.ru, tehnotrade.com.ua, biblioclub.ru, shop.tut.by, s7.ru
Топ-20 сайтов Яндекс тИЦ:
![](https://habrastorage.org/r/w780q1/storage1/c675da95/b8072079/d8016d81/0377c18e.jpg)
Примечательно то, что ТОП возглавляют хостинг-компании.
Доля сайтов, имеющих уровень Яндекс тИЦ от 0 до 100, составляет 13205 (94%) и распределяется так:
![](https://habrastorage.org/r/w780q1/storage1/ed18e036/156576e6/a8d4d5c3/158d06a1.jpg)
Количество сайтов в каждом уровне Яндекс вИЦ:
![](https://habrastorage.org/r/w780q1/storage1/92142177/530f4eab/b8e9e0f5/9621b86a.jpg)
*Примечание: n/a – не определен.
К удивлению, сайтов с уровнем 1 не оказалось. Вероятно это ошибка расчета сайта. Я лишь привожу данные, полученные из открытых источников.
вИЦ 6 — hw.ru, hosting.rbc.ru, sport.lgg.ru, hc.ru, ozon.ru, peterhost.ru, host.ru, 3206080.ru, all-hotels.ru, host.ru.
Топ-20 сайтов по уровню Alexa LP (меньше — лучше). Значения брались непосредственно с сайта:
![](https://habrastorage.org/r/w780q1/storage1/19ccae66/0638d8e2/093a5c7e/78969f13.jpg)
Наличие IP адреса определялось с использованием php функции gethostbyname:
![](https://habrastorage.org/r/w780q1/storage1/167399ca/de037a32/ea4db50f/6d9556ff.jpg)
Наличие created: и paid-till: полей из whois определялось с применением кода opensource проекта phpwhois:
![](https://habrastorage.org/r/w780q1/storage1/9825995f/ccd42ee1/3fd8bbe9/7080bcd4.jpg)
Вот такая получилась статистика. У истоков исследования стояло задание, полученное и выполненное на фрилансе и интерес, кто же зарегистрирован в Яндекс.Маркете. Хочу заметить, что с каждым днем появляются новые зарегистрированные продавцы и индекс id растет.
Надеюсь приведенная информация была Вам полезна или хотя бы интересна. Это мой первый топик и первый опыт написания ИТ статьи. Буду рад принять конструктивную критику и услышать Ваши мысли по этому поводу.
Спасибо за внимание!
По просьбе пользователей даю ссылку на файл с собранной базой.
Статистический анализ Вконтакте, приведенный в одном из недавних топиков, сподвиг меня выложить некоторые результаты своего исследования аккаунтов продавцов на Яндекс.Маркете.
В процессе сбора статистики было проанализировано 21052 аккаунта, зарегистрированных по состоянию на 4 июля 2011 года. И вот результаты проделанной работы.
Осторожно, трафик.
Какие преследовались цели:
1. Получить опыт парсинга сайтов с использованием phpQuery, XPath;
2. Вычислить количество зарегистрированных аккаунтов на Яндекс.Маркете;
3. Достать адрес сайта продавца (если есть);
4. Узнать Google PR, Yandex тИЦ, Yandex вИЦ, Alexa LP, наличие IP адреса, из whois — created: и paid-till: параметры домена;
5. Проанализировать собранную информацию.
Препятствия:
Столкнулся с проблемой ограничения доступа по IP от Яндекса. Попытки решить ее через прокси не удались. Поэтому собиралась информация по частям из-под разных IP. Использовались IP местных провайдеров, сервера друзей, интернет-трафик CDMA оператора Украины PEOPLEnet. Всего было «забанено» 7 IP.
Ход выполнения:
Был написан бот, который обращался по ссылкам, типа market.yandex.ru/shop-info.xml?shop-id=ххх, и анализировал полученный контент. Id значение менялось от 0 до 68545 (на 04.07.11 это был крайний аккаунт. Вычислено по ходу парсинга).
Пример. Под id=155 находится ozon.ru и в названии указан сайт, а под id=156 ничего нет (невалидный id).
В результате получено 21052 (31%) валидных значений:
![](https://habrastorage.org/storage1/6bc737b8/4c7b9ff2/19ab46e5/c3dc63f8.jpg)
Из всей совокупности валидных id — 14220 (68%) имели в выдаче адрес сайта, остальные просто название магазина или фирмы:
![](https://habrastorage.org/storage1/10198caf/d83b4b84/3c248bc7/c4f28058.jpg)
Анализ доменных имен:
Обнаружено 211 дубликатов сайтов под разными id из них:
17 дубликатов — test.yandex.ru (часть из них);
15 дубликатов — sotmarket.ru (часть из них);
6 дубликатов — techhome.ru, teramir.ru;
5 дубликатов — assistavto.ru, kubanpc.ru, ulmart.ru;
4 дубликатов — dostavka.ru, h2odesign.ru, kupitswimtraner.ru, originalam.net;
3 дубликатов — dsbw.ru, flamingo.ru, holodilnik.ru, kupithexbug.ru, superplayer.ru, techport.ru;
2 дубликатов — 15 сайтов;
1 дубликатов — 87 сайтов;
Возникает вопрос, зачем регистрироваться больше одного раза? Возможно, кто-то из общественности подскажет, но факт такой имеет место быть.
Распределение доменов по зонам:
![](https://habrastorage.org/storage1/dd0c9f2d/00578c22/0e26abdf/1847acc0.jpg)
*Примечание: другие — fm, eu, lv, am, cx, uz, lt, cc, ws, in.
PR, тИЦ, вИЦ, Alexa LP, whois
С помощью сайта seop.ru определялся Google PR, Yandex тИЦ, Yandex вИЦ путем подставления 10-ти адресов. Результаты парсились через XPath.
Количество сайтов в каждом уровне Google PR:
![](https://habrastorage.org/storage1/449de114/1b686973/e8f92537/906beff3.jpg)
*Примечание: n/a – не определен.
Google PR 8 — laptopshop.ru;
Google PR 7 — ozon.ru, tehnotrade.com.ua, biblioclub.ru, shop.tut.by, s7.ru
Топ-20 сайтов Яндекс тИЦ:
![](https://habrastorage.org/storage1/c675da95/b8072079/d8016d81/0377c18e.jpg)
Примечательно то, что ТОП возглавляют хостинг-компании.
Доля сайтов, имеющих уровень Яндекс тИЦ от 0 до 100, составляет 13205 (94%) и распределяется так:
![](https://habrastorage.org/storage1/ed18e036/156576e6/a8d4d5c3/158d06a1.jpg)
Количество сайтов в каждом уровне Яндекс вИЦ:
![](https://habrastorage.org/storage1/92142177/530f4eab/b8e9e0f5/9621b86a.jpg)
*Примечание: n/a – не определен.
К удивлению, сайтов с уровнем 1 не оказалось. Вероятно это ошибка расчета сайта. Я лишь привожу данные, полученные из открытых источников.
вИЦ 6 — hw.ru, hosting.rbc.ru, sport.lgg.ru, hc.ru, ozon.ru, peterhost.ru, host.ru, 3206080.ru, all-hotels.ru, host.ru.
Топ-20 сайтов по уровню Alexa LP (меньше — лучше). Значения брались непосредственно с сайта:
![](https://habrastorage.org/storage1/19ccae66/0638d8e2/093a5c7e/78969f13.jpg)
Наличие IP адреса определялось с использованием php функции gethostbyname:
![](https://habrastorage.org/storage1/167399ca/de037a32/ea4db50f/6d9556ff.jpg)
Наличие created: и paid-till: полей из whois определялось с применением кода opensource проекта phpwhois:
![](https://habrastorage.org/storage1/9825995f/ccd42ee1/3fd8bbe9/7080bcd4.jpg)
Заключение
Вот такая получилась статистика. У истоков исследования стояло задание, полученное и выполненное на фрилансе и интерес, кто же зарегистрирован в Яндекс.Маркете. Хочу заметить, что с каждым днем появляются новые зарегистрированные продавцы и индекс id растет.
Надеюсь приведенная информация была Вам полезна или хотя бы интересна. Это мой первый топик и первый опыт написания ИТ статьи. Буду рад принять конструктивную критику и услышать Ваши мысли по этому поводу.
Спасибо за внимание!
P.S.
По просьбе пользователей даю ссылку на файл с собранной базой.