Статистика по продавцам Яндекс Маркет

Здравствуйте хабражители!

Статистический анализ Вконтакте, приведенный в одном из недавних топиков, сподвиг меня выложить некоторые результаты своего исследования аккаунтов продавцов на Яндекс.Маркете.

В процессе сбора статистики было проанализировано 21052 аккаунта, зарегистрированных по состоянию на 4 июля 2011 года. И вот результаты проделанной работы.
Осторожно, трафик.

Какие преследовались цели:

1. Получить опыт парсинга сайтов с использованием phpQuery, XPath;
2. Вычислить количество зарегистрированных аккаунтов на Яндекс.Маркете;
3. Достать адрес сайта продавца (если есть);
4. Узнать Google PR, Yandex тИЦ, Yandex вИЦ, Alexa LP, наличие IP адреса, из whois — created: и paid-till: параметры домена;
5. Проанализировать собранную информацию.

Препятствия:

Столкнулся с проблемой ограничения доступа по IP от Яндекса. Попытки решить ее через прокси не удались. Поэтому собиралась информация по частям из-под разных IP. Использовались IP местных провайдеров, сервера друзей, интернет-трафик CDMA оператора Украины PEOPLEnet. Всего было «забанено» 7 IP.

Ход выполнения:

Был написан бот, который обращался по ссылкам, типа market.yandex.ru/shop-info.xml?shop-id=ххх, и анализировал полученный контент. Id значение менялось от 0 до 68545 (на 04.07.11 это был крайний аккаунт. Вычислено по ходу парсинга).
Пример. Под id=155 находится ozon.ru и в названии указан сайт, а под id=156 ничего нет (невалидный id).

В результате получено 21052 (31%) валидных значений:
Из всей совокупности валидных id — 14220 (68%) имели в выдаче адрес сайта, остальные просто название магазина или фирмы:

Анализ доменных имен:

Обнаружено 211 дубликатов сайтов под разными id из них:
17 дубликатов — test.yandex.ru (часть из них);
15 дубликатов — sotmarket.ru (часть из них);
6 дубликатов — techhome.ru, teramir.ru;
5 дубликатов — assistavto.ru, kubanpc.ru, ulmart.ru;
4 дубликатов — dostavka.ru, h2odesign.ru, kupitswimtraner.ru, originalam.net;
3 дубликатов — dsbw.ru, flamingo.ru, holodilnik.ru, kupithexbug.ru, superplayer.ru, techport.ru;
2 дубликатов — 15 сайтов;
1 дубликатов — 87 сайтов;

Возникает вопрос, зачем регистрироваться больше одного раза? Возможно, кто-то из общественности подскажет, но факт такой имеет место быть.

Распределение доменов по зонам:

*Примечание: другие — fm, eu, lv, am, cx, uz, lt, cc, ws, in.

PR, тИЦ, вИЦ, Alexa LP, whois

С помощью сайта seop.ru определялся Google PR, Yandex тИЦ, Yandex вИЦ путем подставления 10-ти адресов. Результаты парсились через XPath.

Количество сайтов в каждом уровне Google PR:

*Примечание: n/a – не определен.
Google PR 8 — laptopshop.ru;
Google PR 7 — ozon.ru, tehnotrade.com.ua, biblioclub.ru, shop.tut.by, s7.ru


Топ-20 сайтов Яндекс тИЦ:

Примечательно то, что ТОП возглавляют хостинг-компании.

Доля сайтов, имеющих уровень Яндекс тИЦ от 0 до 100, составляет 13205 (94%) и распределяется так:


Количество сайтов в каждом уровне Яндекс вИЦ:

*Примечание: n/a – не определен.
К удивлению, сайтов с уровнем 1 не оказалось. Вероятно это ошибка расчета сайта. Я лишь привожу данные, полученные из открытых источников.
вИЦ 6 — hw.ru, hosting.rbc.ru, sport.lgg.ru, hc.ru, ozon.ru, peterhost.ru, host.ru, 3206080.ru, all-hotels.ru, host.ru.

Топ-20 сайтов по уровню Alexa LP (меньше — лучше). Значения брались непосредственно с сайта:


Наличие IP адреса определялось с использованием php функции gethostbyname:


Наличие created: и paid-till: полей из whois определялось с применением кода opensource проекта phpwhois:


Заключение

Вот такая получилась статистика. У истоков исследования стояло задание, полученное и выполненное на фрилансе и интерес, кто же зарегистрирован в Яндекс.Маркете. Хочу заметить, что с каждым днем появляются новые зарегистрированные продавцы и индекс id растет.

Надеюсь приведенная информация была Вам полезна или хотя бы интересна. Это мой первый топик и первый опыт написания ИТ статьи. Буду рад принять конструктивную критику и услышать Ваши мысли по этому поводу.
Спасибо за внимание!

P.S.

По просьбе пользователей даю ссылку на файл с собранной базой.
AdBlock has stolen the banner, but banners are not teeth — they will be back

More
Ads

Comments 41

    +5
    Google PR 8 — laptopshop.ru

    Очень странный результат… Посещалка никакая, а PR запредельный.
      +3
      Ссылка на него часто весит на морде liveinternet.ru (на сколько я помню). А у морды лайва PR 9. Так вота ))
        +4
        Сегодня у него будет посещалка запредельная, а PR по сравнению с посещалкой никакой :)
      • UFO just landed and posted this here
          0
          … и конкурировать не только с настоящими конкурентами, но и со своими клонами?

          Мне интереснее другое… Я.Маркет весь такой из себя правильный, ручной отбор магазинов и всё такое, зачастую с перегибами, о которых на Хабре часто пишут. Т.е. даже при малейшем подозрении, даже необоснованном, на аффилированность — отбой, а тут — у одних и тех же продавцов по несколько аккаунтов.
            0
            На семинарах по маркету рассказывают, что яндекс сайты-дубликаты «склеивает».
              0
              Вы сейчас про Я.Поиск иил Я.Маркет?
              Аффилированные сайты это уже не новость, но ведь на данный момент речь идет не о выдаче…
                0
                Я про Маркет. В маркете, со слов сотрудников Яндекса, дубликаты должны склеиваться.
            +3
            А что значит «Нет IP адреса»?
              0
              Функция gethostbyname() получает в параметрах доменное имя хоста и возвращает его IP-адрес. Если адрес определить не удалось, функция возвращает hostname. «Нет IP адреса» — означает, что сайт не отвечает (не проходит команда ping).
                0
                Команда ping может «не проходить» в случаях, когда icmp кем-то где-то режутся. Резолвить ip из хоста «правильнее» через dig или nslookup.
                  0
                  gethostbyname(), так же как inet_aton() — это функции, которые как раз и «резолвят» в порядке кеш, /etc/hosts, DNS. А про ping в статье и не говорилось ничего.
                    0
                    Я отвечал не на статью, а на комментарий
                    +1
                    ping может и не проходить, но IP адрес отобразить должна. DNS и ICMP разные протоколы.
                      0
                      Я это прекрасно понимаю. Если цель не пинговать, а просто получить адрес — тогда есть 2 прекрасные команды, которые я и показал. ping — overengineering в данной задаче.
                +2
                Неужели так сложно обойти бан по ip, что пришлось подвергать опасности сервера друзей?
                  +1
                  Я этих способов пока не нашел. Если пункт 1 лицензии распространяется и на Янд.Маркет, то количество запросов ограничено. «Бан» IP адреса только по адресу market.yandex.ru/shop-info.xml?shop-id=ххх (предлагается решить капчу), на market.yandex.ru доступ открыт.
                  +5
                  > 5. Проанализировать собранную информацию.

                  И где, собственно?
                    +1
                    b0dya, очень не хватает какого-то вывода (Вы же анализировали информацию).

                    Кто-же именно зарегистрирован в Яндекс.Маркете?
                    Возможно, это будет не «средневзвешенная по больнице», а какой-то прогноз.
                    Очень интересно!
                      +3
                      И какие выводы? Где анализ?
                        +6
                        Люблю рассматривать красивые бесполезные графики, медитативно.
                          +4
                          Ни о чем.

                          Ваша т.н. «статистика» бесполезна. В оригинальном задании — www.free-lance.ru/projects/?pid=761072 (поправьте, если ошибся) — от вас просили собирать email'ы, в этом смысл хоть был, спамить. А от тИЦ и PR большого пула сайтов, объединенных наличием аккаунта в Я.Маркете — толку ноль. Вы получили некие данные, смысла которых вряд ли понимаете, и делаете замечания («с каждым днем появляются новые зарегистрированные продавцы и индекс id растет»), глядя на которые, К.О. рыдает от зависти.

                          Зато теперь тысячи людей знают, что вы успешно попрактиковались в парсинге, поздравляю.

                          ЗЫ. Конструктивно — научитесь данные представлять; иначе это вернейший признак их непонимания. Например, projects.bodya.ru/habr_article/images/9.jpg — вот эту 28-килобайтную картинку можно перевести в 28-байтный текст без потери смысла.
                            0
                            С проектом не ошиблись. Ваши замечания учту на будущее. Спасибо.
                            +2
                            Вы хотели вывод?
                            Больше половины маркета — ГС. Следовательно, свою социальную функцию адекватного представления рынка покупателю он выполняет плохо. (Разумеется это не главная его функция для Яндекса).
                              0
                              >>Больше половины маркета — ГС.

                              Не соглашусь.
                              На цвет и вкус — товарищей нет, но совершенно точно, что интернет-магазины размещенные в Я.Маркете не ГС.
                              Для того чтобы попасть в Я.Маркет нужно соответствовать определенным строгим требованиям. Там все на самом деле очень дотошно. Обязательное условие наличие реквизитов и полной контактоной информации о продавце. Все претенденты проходят проверку. Под видом покупателей модераторы яндекса регистрируются в интернет-магазине, делают заказ, сверяют адреса, телефоны, стоимость доставки (не дай бог стоимость доставки заявленная при подачи сайта и тем что рассчитывается на сайте будет отличаться...) Звонят, распрашивают об наличии товара, стоимости и условиях доставки (не дай бог на сайте указано наличие товара, а они позвонили — а его уже нет)…

                              С первой, второй и даже третьей попытки в маркет сразу не попадешь — всегда что-нибудь найдется, что не так.

                              Так, что я б не сказал бы что ГС могут туда попасть…
                                0
                                проверки постоянные и периодически? а то сегодня они пушистые а завтра зайчиков жуют.
                                  0
                                  нет, проверки не периодические, а только при принятии. все должно быть по факту.

                                  сегодня такие, завтра другие — это «а бы, да кобы».

                                  с вашей логикой из дома выходить не следует, потому как может «а бы, да кобы» случится.
                                    0
                                    Проверки периодические, могут выкинуть если что то начало работать не так.
                                  0
                                  А как тогда вы можете объяснить, что у половины PR 0, 1 или n/a; тИЦ 0-10; и нет данных WHOIS?
                                    0
                                    Очень просто.
                                    Такие компании не занимаются SEO своего сайта, вот у них и низкий пейджранк.

                                    Оффлайн бизнес, у которого есть свои торговые точки и сети (и поток клиентов идет оффлайн) — ни всегда тратится на активное продвижение в сети. Просто делают сайт и этим довольствуются как дополнительной возможностью работой с клиентом.
                                    0
                                    Попал без проблем с первой попытки, хотя и сам косячил.
                                    Модераторов за версту видно и слышно. Начиная от адреса почты в заказе до «глупых» вопросв при звонке.
                                    Отказался от Я.М., когда посмотрел во сколько он мне обходится. Сугубо ИМХО, все эти «определенные строгие требования» пугалка для пионеров, дабы отпугнуть совсем уж школоту.
                                      0
                                      Очень похоже на похождение техосмотра. В момент прохождения все быстренько у друзей тырят огнетушители и аптечки, сдирают тонировку, получают талон, возвращают огнетушители и аптечки, обратно клеют тонировку. А всё, талончик уже есть, попробуй прикопайся!

                                      Это я к тому, что проверки яндексовые бесполезны, сколько раз сталкивалась с отсутствием товара, помеченного «в наличии», отличием в цене и т.д. Один раз даже заказывала покрышки, цена х рублей, при оформлении заказа на е-мейл приходит подтверждение на х рублей, на следующий день приезжает доставка, а в счёте цена х+10%, и грузчик машет руками: «это другая партия, если не будете брать — оплачивайте доставку, у нас так положено!».

                                        0
                                        Обратитесь в суд, но прежде напишите им письмо с намерением. Даже если прошел год. В письмо приложите переписку с ящика и счет. Думаю пройдет не много времени вам вернут больше.
                                          0
                                          Да не, тем наглым ребятам я ничего платить не стала, купила в другом месте. Но сам подход поразил наповал, иногда кажется, что такое возможно только в России :)
                                    +2
                                    Что, до сих пор никто не запостил ту самую картинку с xkcd про jpg?
                                      –1
                                      Прямо перепись рунета какая-то :) То Вконтакте, то теперь Яндекс.Маркет
                                        0
                                        По поводу Alexa LP информация неюзабельная получилась. Все сайты на домене *.prom.ua имеет рейтинг имеено prom.ua. Хотя на тот же 2girafa.prom.ua 10 человек в день ходит.
                                          +2
                                          Автору

                                          Очень занимательная тема — пузомерка, т.е. top 10, top-100, top-500 сайтов.
                                          Особенно интересно в разрезе, допустим, статистики за месяц когда заходишь и видишь в табличке кто поднялся с зелененькой стрелкой, а кто упал с красненькой.

                                          Практическая тема в том, что это инструмент контроля БЮДЖЕТА со стороны директора либо своего маркетолога, либо контроль маркетолога подрядчика по SEO.

                                          Из вашей работы может получиться очень вкусный сервис для самого же Яндекса. Советую сходить на одно из мероприятий, которое организует команда Яндекса и развить там идею. Как минимум, можно договориться о доступе по IP или даже получить вход в API

                                          clubs.ya.ru/company/replies.xml?item_no=25693

                                          Сервис может собрать аудиторию из нескольких сотен или тысяч гендиректоров, ключевых людей по маркетингу. Это очень узкая и вкусная аудитория.
                                            0
                                            Спасибо за совет.
                                            0
                                            >>Возникает вопрос, зачем регистрироваться больше одного раза? Возможно, кто-то из общественности подскажет, но факт такой имеет место быть.

                                            Несколько аккаунтов имеет смысл, когда продаешь в разных регионах. Один аккаунт для Москвы, один для Питера и так далее.
                                              0
                                              Сотмаркет в своем репертуаре…

                                              Only users with full accounts can post comments. Log in, please.