Здравствуйте хабражители!
Статистический анализ Вконтакте, приведенный в одном из недавних топиков, сподвиг меня выложить некоторые результаты своего исследования аккаунтов продавцов на Яндекс.Маркете.
В процессе сбора статистики было проанализировано 21052 аккаунта, зарегистрированных по состоянию на 4 июля 2011 года. И вот результаты проделанной работы.
Осторожно, трафик.
1. Получить опыт парсинга сайтов с использованием phpQuery, XPath;
2. Вычислить количество зарегистрированных аккаунтов на Яндекс.Маркете;
3. Достать адрес сайта продавца (если есть);
4. Узнать Google PR, Yandex тИЦ, Yandex вИЦ, Alexa LP, наличие IP адреса, из whois — created: и paid-till: параметры домена;
5. Проанализировать собранную информацию.
Столкнулся с проблемой ограничения доступа по IP от Яндекса. Попытки решить ее через прокси не удались. Поэтому собиралась информация по частям из-под разных IP. Использовались IP местных провайдеров, сервера друзей, интернет-трафик CDMA оператора Украины PEOPLEnet. Всего было «забанено» 7 IP.
Был написан бот, который обращался по ссылкам, типа market.yandex.ru/shop-info.xml?shop-id=ххх, и анализировал полученный контент. Id значение менялось от 0 до 68545 (на 04.07.11 это был крайний аккаунт. Вычислено по ходу парсинга).
Пример. Под id=155 находится ozon.ru и в названии указан сайт, а под id=156 ничего нет (невалидный id).
В результате получено 21052 (31%) валидных значений:
Из всей совокупности валидных id — 14220 (68%) имели в выдаче адрес сайта, остальные просто название магазина или фирмы:
Обнаружено 211 дубликатов сайтов под разными id из них:
17 дубликатов — test.yandex.ru (часть из них);
15 дубликатов — sotmarket.ru (часть из них);
6 дубликатов — techhome.ru, teramir.ru;
5 дубликатов — assistavto.ru, kubanpc.ru, ulmart.ru;
4 дубликатов — dostavka.ru, h2odesign.ru, kupitswimtraner.ru, originalam.net;
3 дубликатов — dsbw.ru, flamingo.ru, holodilnik.ru, kupithexbug.ru, superplayer.ru, techport.ru;
2 дубликатов — 15 сайтов;
1 дубликатов — 87 сайтов;
Возникает вопрос, зачем регистрироваться больше одного раза? Возможно, кто-то из общественности подскажет, но факт такой имеет место быть.
Распределение доменов по зонам:
*Примечание: другие — fm, eu, lv, am, cx, uz, lt, cc, ws, in.
С помощью сайта seop.ru определялся Google PR, Yandex тИЦ, Yandex вИЦ путем подставления 10-ти адресов. Результаты парсились через XPath.
Количество сайтов в каждом уровне Google PR:
*Примечание: n/a – не определен.
Google PR 8 — laptopshop.ru;
Google PR 7 — ozon.ru, tehnotrade.com.ua, biblioclub.ru, shop.tut.by, s7.ru
Топ-20 сайтов Яндекс тИЦ:
Примечательно то, что ТОП возглавляют хостинг-компании.
Доля сайтов, имеющих уровень Яндекс тИЦ от 0 до 100, составляет 13205 (94%) и распределяется так:
Количество сайтов в каждом уровне Яндекс вИЦ:
*Примечание: n/a – не определен.
К удивлению, сайтов с уровнем 1 не оказалось. Вероятно это ошибка расчета сайта. Я лишь привожу данные, полученные из открытых источников.
вИЦ 6 — hw.ru, hosting.rbc.ru, sport.lgg.ru, hc.ru, ozon.ru, peterhost.ru, host.ru, 3206080.ru, all-hotels.ru, host.ru.
Топ-20 сайтов по уровню Alexa LP (меньше — лучше). Значения брались непосредственно с сайта:
Наличие IP адреса определялось с использованием php функции gethostbyname:
Наличие created: и paid-till: полей из whois определялось с применением кода opensource проекта phpwhois:
Вот такая получилась статистика. У истоков исследования стояло задание, полученное и выполненное на фрилансе и интерес, кто же зарегистрирован в Яндекс.Маркете. Хочу заметить, что с каждым днем появляются новые зарегистрированные продавцы и индекс id растет.
Надеюсь приведенная информация была Вам полезна или хотя бы интересна. Это мой первый топик и первый опыт написания ИТ статьи. Буду рад принять конструктивную критику и услышать Ваши мысли по этому поводу.
Спасибо за внимание!
По просьбе пользователей даю ссылку на файл с собранной базой.
Статистический анализ Вконтакте, приведенный в одном из недавних топиков, сподвиг меня выложить некоторые результаты своего исследования аккаунтов продавцов на Яндекс.Маркете.
В процессе сбора статистики было проанализировано 21052 аккаунта, зарегистрированных по состоянию на 4 июля 2011 года. И вот результаты проделанной работы.
Осторожно, трафик.
Какие преследовались цели:
1. Получить опыт парсинга сайтов с использованием phpQuery, XPath;
2. Вычислить количество зарегистрированных аккаунтов на Яндекс.Маркете;
3. Достать адрес сайта продавца (если есть);
4. Узнать Google PR, Yandex тИЦ, Yandex вИЦ, Alexa LP, наличие IP адреса, из whois — created: и paid-till: параметры домена;
5. Проанализировать собранную информацию.
Препятствия:
Столкнулся с проблемой ограничения доступа по IP от Яндекса. Попытки решить ее через прокси не удались. Поэтому собиралась информация по частям из-под разных IP. Использовались IP местных провайдеров, сервера друзей, интернет-трафик CDMA оператора Украины PEOPLEnet. Всего было «забанено» 7 IP.
Ход выполнения:
Был написан бот, который обращался по ссылкам, типа market.yandex.ru/shop-info.xml?shop-id=ххх, и анализировал полученный контент. Id значение менялось от 0 до 68545 (на 04.07.11 это был крайний аккаунт. Вычислено по ходу парсинга).
Пример. Под id=155 находится ozon.ru и в названии указан сайт, а под id=156 ничего нет (невалидный id).
В результате получено 21052 (31%) валидных значений:
Из всей совокупности валидных id — 14220 (68%) имели в выдаче адрес сайта, остальные просто название магазина или фирмы:
Анализ доменных имен:
Обнаружено 211 дубликатов сайтов под разными id из них:
17 дубликатов — test.yandex.ru (часть из них);
15 дубликатов — sotmarket.ru (часть из них);
6 дубликатов — techhome.ru, teramir.ru;
5 дубликатов — assistavto.ru, kubanpc.ru, ulmart.ru;
4 дубликатов — dostavka.ru, h2odesign.ru, kupitswimtraner.ru, originalam.net;
3 дубликатов — dsbw.ru, flamingo.ru, holodilnik.ru, kupithexbug.ru, superplayer.ru, techport.ru;
2 дубликатов — 15 сайтов;
1 дубликатов — 87 сайтов;
Возникает вопрос, зачем регистрироваться больше одного раза? Возможно, кто-то из общественности подскажет, но факт такой имеет место быть.
Распределение доменов по зонам:
*Примечание: другие — fm, eu, lv, am, cx, uz, lt, cc, ws, in.
PR, тИЦ, вИЦ, Alexa LP, whois
С помощью сайта seop.ru определялся Google PR, Yandex тИЦ, Yandex вИЦ путем подставления 10-ти адресов. Результаты парсились через XPath.
Количество сайтов в каждом уровне Google PR:
*Примечание: n/a – не определен.
Google PR 8 — laptopshop.ru;
Google PR 7 — ozon.ru, tehnotrade.com.ua, biblioclub.ru, shop.tut.by, s7.ru
Топ-20 сайтов Яндекс тИЦ:
Примечательно то, что ТОП возглавляют хостинг-компании.
Доля сайтов, имеющих уровень Яндекс тИЦ от 0 до 100, составляет 13205 (94%) и распределяется так:
Количество сайтов в каждом уровне Яндекс вИЦ:
*Примечание: n/a – не определен.
К удивлению, сайтов с уровнем 1 не оказалось. Вероятно это ошибка расчета сайта. Я лишь привожу данные, полученные из открытых источников.
вИЦ 6 — hw.ru, hosting.rbc.ru, sport.lgg.ru, hc.ru, ozon.ru, peterhost.ru, host.ru, 3206080.ru, all-hotels.ru, host.ru.
Топ-20 сайтов по уровню Alexa LP (меньше — лучше). Значения брались непосредственно с сайта:
Наличие IP адреса определялось с использованием php функции gethostbyname:
Наличие created: и paid-till: полей из whois определялось с применением кода opensource проекта phpwhois:
Заключение
Вот такая получилась статистика. У истоков исследования стояло задание, полученное и выполненное на фрилансе и интерес, кто же зарегистрирован в Яндекс.Маркете. Хочу заметить, что с каждым днем появляются новые зарегистрированные продавцы и индекс id растет.
Надеюсь приведенная информация была Вам полезна или хотя бы интересна. Это мой первый топик и первый опыт написания ИТ статьи. Буду рад принять конструктивную критику и услышать Ваши мысли по этому поводу.
Спасибо за внимание!
P.S.
По просьбе пользователей даю ссылку на файл с собранной базой.