При открытии своего интернет магазина владелец обычно поступает следующим образом:
— У меня есть выход на поставщика трусов, техники … (тут каждый вставляет свое), почему бы мне не открыть интернет магазин, это ведь круто, я слышал в Интернете можно МНОГО заработать, дело перспективное и прибыльное.
Таким образом, возникают тысячи сайтов, продающих одни и те же товары, захламляя собой интернет пространство все больше и больше.
Оказывается, трусы продает еще 1001 магазин. Вместо денег, как правило, предприниматель получает головную боль в виде seo, шмео и несоизмеримой стоимости контекстной рекламы.
Интернет магазин загибается, не успев появиться.
Предлагаю пойти другим путем.
Цель (она же Теория):
Поиск незанятых ниш для торговли.
Идеальная ситуация Спрос – есть, Предложений – нет, Дешевая контекстная реклама.
Итак – ищем “золото”.
Поговорим о Web Data Mining – извлечении данных из сети интернет, и последующем анализе полученных данных.
Исходные данные:
В своем эксперименте по проверки теории, я буду отталкиваться от того ЧТО ищут пользователи интернет в поисковых системах.
На данный момент существуют несколько источников, для получения таких данных.
— Базы ключевых слов, собранные из различных источников (старые базы можно найти бесплатно).
— Подсказки поисковых систем Yandex и Google.
— Технология Яндекса “Прямой эфир” – показывает в реальном времени запросы пользователей.
Так как получение данных из поисковых систем довольно непростая задача, для начала обойдемся небольшой базой в 30 миллионов фраз, гуляющей по просторам интернет.
Подготовка начальных данных:
— Для последующего анализа переводим все фразы в нижний регистр
— Вычищаем фразы от ненужных символов (нас интересуют только [a..Z][а… Я][0..9])
— Удаляем мат и порно и другие “стоп” слова типа “бесплатно”, “скачать”, “torrent”.
После этого база режется примерно на 30%.
Требуемые данные:
Итак, нас интересуют параметры, характеризующие спрос и предложения.
Источники:
— Yandex.Direct API (Прогноз бюджета: CreateNewForecast, GetForecast)
(бесплатно, без органичений)
— Google Adwords API (Прогноз trafficEstimatorService)
(использование API за деньги)
— Yandex.Вордстат (http://wordstat.yandex.ru/)
(бесплатно, нестабильно, быстро банят IP при большом количестве запросов)
— *Yandex.Спрос (http://direct.yandex.ru/spros)
(новый сервис, банят не так быстро, работает стабильнее)
— *Поиск по Яндекс.Директ (http://direct.yandex.ru/search)
(от сюда можно вытащить количество объявлений по ключевой фразе, бана не замечено)
Звездочками отмечены те сервисы, которые я использовал для проверки своей теории.
Сбор данных:
Этап 1.
Так как процесс сбора через API долгий и ресурсоемкий, для начала используем поиск по Яндекс.Директ. Каждой фразе сопоставляется количество объявлений.
Здесь вылез первый подводный камень. Количество объявлений зависит от времени суток.
Поэтому по нашей базе придется пройтись 2 раза.
Первый раз – круглосуточный сбор.
Второй – по получившейся выборке (объявлений<1) с 9 утра до 18 вечера.
Этап 2.
Имея список фраз с количеством объявлений 0 и 1 получаем количество запросов фразы в поисковых системах. Количество фраз в начале 2 этапа – 10% от начального объема.
Распараллеливать сбор информации будем через списки прокси серверов, для чего была написана система поиска и ранжирования прокси с признаками скорости соединения и бана.
Результат:
Теория подтвердилась. Незанятые ниши ЕСТЬ, причем в совершенно разных областях! Эксперимент еще продолжается.
(Пруф: саперные лопатки)
Но:
— На выходе получил очень много мусора, который пришлось просматривать вручную, вычленяя из списка монетизируемые запросы.
— Список стоп слов значительно пополнился, я и представить себе не мог, какую гадость ищут пользователи сети.
— Для большей автоматизации процесса, требуется добавить дополнительные фильтры (пока не знаю какие), но минимум классификатор.
— Прикрутить анализ ставок Директа и Adwords.
— Собрать собственную базу через “Прямой эфир” Яндекса.
— Получить в конце концов PROFFIT :)
— У меня есть выход на поставщика трусов, техники … (тут каждый вставляет свое), почему бы мне не открыть интернет магазин, это ведь круто, я слышал в Интернете можно МНОГО заработать, дело перспективное и прибыльное.
Таким образом, возникают тысячи сайтов, продающих одни и те же товары, захламляя собой интернет пространство все больше и больше.
Оказывается, трусы продает еще 1001 магазин. Вместо денег, как правило, предприниматель получает головную боль в виде seo, шмео и несоизмеримой стоимости контекстной рекламы.
Интернет магазин загибается, не успев появиться.
Предлагаю пойти другим путем.
Цель (она же Теория):
Поиск незанятых ниш для торговли.
Идеальная ситуация Спрос – есть, Предложений – нет, Дешевая контекстная реклама.
Итак – ищем “золото”.
Поговорим о Web Data Mining – извлечении данных из сети интернет, и последующем анализе полученных данных.
Исходные данные:
В своем эксперименте по проверки теории, я буду отталкиваться от того ЧТО ищут пользователи интернет в поисковых системах.
На данный момент существуют несколько источников, для получения таких данных.
— Базы ключевых слов, собранные из различных источников (старые базы можно найти бесплатно).
— Подсказки поисковых систем Yandex и Google.
— Технология Яндекса “Прямой эфир” – показывает в реальном времени запросы пользователей.
Так как получение данных из поисковых систем довольно непростая задача, для начала обойдемся небольшой базой в 30 миллионов фраз, гуляющей по просторам интернет.
Подготовка начальных данных:
— Для последующего анализа переводим все фразы в нижний регистр
— Вычищаем фразы от ненужных символов (нас интересуют только [a..Z][а… Я][0..9])
— Удаляем мат и порно и другие “стоп” слова типа “бесплатно”, “скачать”, “torrent”.
После этого база режется примерно на 30%.
Требуемые данные:
Итак, нас интересуют параметры, характеризующие спрос и предложения.
Источники:
— Yandex.Direct API (Прогноз бюджета: CreateNewForecast, GetForecast)
(бесплатно, без органичений)
— Google Adwords API (Прогноз trafficEstimatorService)
(использование API за деньги)
— Yandex.Вордстат (http://wordstat.yandex.ru/)
(бесплатно, нестабильно, быстро банят IP при большом количестве запросов)
— *Yandex.Спрос (http://direct.yandex.ru/spros)
(новый сервис, банят не так быстро, работает стабильнее)
— *Поиск по Яндекс.Директ (http://direct.yandex.ru/search)
(от сюда можно вытащить количество объявлений по ключевой фразе, бана не замечено)
Звездочками отмечены те сервисы, которые я использовал для проверки своей теории.
Сбор данных:
Этап 1.
Так как процесс сбора через API долгий и ресурсоемкий, для начала используем поиск по Яндекс.Директ. Каждой фразе сопоставляется количество объявлений.
Здесь вылез первый подводный камень. Количество объявлений зависит от времени суток.
Поэтому по нашей базе придется пройтись 2 раза.
Первый раз – круглосуточный сбор.
Второй – по получившейся выборке (объявлений<1) с 9 утра до 18 вечера.
Этап 2.
Имея список фраз с количеством объявлений 0 и 1 получаем количество запросов фразы в поисковых системах. Количество фраз в начале 2 этапа – 10% от начального объема.
Распараллеливать сбор информации будем через списки прокси серверов, для чего была написана система поиска и ранжирования прокси с признаками скорости соединения и бана.
Результат:
Теория подтвердилась. Незанятые ниши ЕСТЬ, причем в совершенно разных областях! Эксперимент еще продолжается.
(Пруф: саперные лопатки)
Но:
— На выходе получил очень много мусора, который пришлось просматривать вручную, вычленяя из списка монетизируемые запросы.
— Список стоп слов значительно пополнился, я и представить себе не мог, какую гадость ищут пользователи сети.
— Для большей автоматизации процесса, требуется добавить дополнительные фильтры (пока не знаю какие), но минимум классификатор.
— Прикрутить анализ ставок Директа и Adwords.
— Собрать собственную базу через “Прямой эфир” Яндекса.
— Получить в конце концов PROFFIT :)