Pull to refresh
3
0
Send message
Кластеризацию пробовали и даже используем, для уменьшения размерности вектора в предикте клика, для составления look-alike и прочих подобных задач. Но продать что то конкретное абстрактному кластеру, представляется мне малореализуемым.
Да, вы всё верно написали, в aerospike хранятся записи вида {Visitor_id: [ audience_id ] }.
Так называемые «теги» это ключевые слова, которые искал или видел пользователь с определённой частотой, а аудитория создаётся не просто по подобию пользователей (так называемая кластеризация), а по заданным условиям. Эти условия задаются во время создания рекламной кампании.
Боюсь, что подробнее про Segment Bulder, кроме этой статьи, нигде не прочесть, я попробую ответить на ваши вопросы в комментариях
На самом деле оба вопроса риторические, но на оба я и отвечу =)
Для рекламных кампаний разных направленностей существуют различные точки эффективности. Когда то это долгосрочный интерес, когда то краткосрочный. Соответственно и пользователь с разными типами интересов по разному реагирует на рекламу.
Приведу один пример человек готовится к путешествию и бронирует себе отель, покупает билеты и прочее. Так вот в этом случае среднее время поиска человека 17 дней, в течении которых происходит 6 сессий поиска. Человек в среднем посещает 18 сайтов и делает 7 кликов по рекламе. Соответственно в других типах интересов, другие цифры. Мы ответственно подходим к исследованию основных шаблонов для различных типов интересов, и уже имеем достаточно информации чтобы обеспечить потребности большинства наших клиентов.
А на второй вопрос ответ проще. С сайтов устанавливающих наш код приходит информация о состоянии пользователя, на какой стадии необходимого действия он остановился. Если целевое действие продать, а пользователь остановился лишь на добавлении товара в корзину, мы используем один тип ремаркетинговых действий, если пользователь остановился на оформлении заказа — другой. А если вы уже купили лобзик и целевой действие совершено, мы вас оставляем в покое. Может только иногда будем показывать рекламу лобзика, чтобы вы были удовлетворенны покупкой ещё больше ( шутка =) )
1) Список синонимов можно задать в Solr. С омонимами никак не боремся.
2) Главные страницы, обкачиваются несколько раз в день, из-за частой смены контента. В остальном, наши исследования показали, что только 3% страниц меняют свой контент более чем на 20% в течении недели(не учитываем комментарии). По истечении недели, страница удаляется по TTL индексу, и если она всё ещё живая и с неё происходят показы, мы просто снова скачиваем её, как новую страницу.
3) Title, h1-h5, meta для всех страниц, если определяется что это статья или страница текстового содержания, то и его соответственно, если галереи то alt тег для картинок и т. д. То есть почти всё то есть на страницах, суть не столько в этих словах, сколько в весах, которые им задаются при составлении ключевого запроса (их мы раскрывать не будем).
Стоп-слова есть, опять же посредствам Solr, не очень большой список стандартные стоп слова русский + английский плюс 100-200 мусорных слов.
TF-IDF есть, но не в этой задаче, тут я что то и понять не могу, куда его прикрутить. Для увеличения веса страницы, пожалуй да, можно попробовать, но пока такое не внедрено.
Cloudera-Lily, автоматически реплицирует данные из HBase в Solr, необходимо лишь указать соответствие для типов и названий полей. Так же, при помощи этого сервиса можно делать запросы в Solr, а возвращать документы HBase. Руками писать не надо, но если очень хочется, то можно

Information

Rating
Does not participate
Registered
Activity