darikova 19 фев 2016 в 14:56

Как устроен Relap.io — сервис, который выдает 30 миллиардов рекомендаций в месяц

4 мин

35K

Блог компании SurfingbirdBig Data*Hadoop*Высокая производительность*Машинное обучение*

Recovery Mode

+18

Комментарии 40

drakmail 19 фев 2016 в 15:23

Здесь всё на самом деле стандартно, интересно как раз как и на основе чего формируются рекомендации и насколько они лучше обычной выдачи последних материалов, например

recompileme 19 фев 2016 в 15:46

А что больше интересует техническая сторона вопроса, как обсчитывать тысячи хитов в секунду и не загнуться или какая математика лежит в основе?

smileonl 19 фев 2016 в 15:57

Про математику :)

recompileme 19 фев 2016 в 16:08

Мы уже писали несколько статей ранее, пока можно ознакомиться с ними:
https://habrahabr.ru/company/surfingbird/blog/176461/
https://habrahabr.ru/company/surfingbird/blog/177889/
https://habrahabr.ru/company/surfingbird/blog/185622/
https://habrahabr.ru/company/surfingbird/blog/188812/
https://habrahabr.ru/company/surfingbird/blog/226677/
https://habrahabr.ru/company/surfingbird/blog/228249/
https://habrahabr.ru/company/surfingbird/blog/230103/

Heckfi 19 фев 2016 в 15:49

Рекомендации формируются персонально для каждого пользователя или на страницу?

Skaurus 19 фев 2016 в 18:27

Помножьте количество страниц на количество пользователей. Так жить невозможно. Генерировать рекомендации в таких объёмах на лету — тоже.
Но для каждого пользователя есть минимальная кастомизация — учитываются уже просмотренные статьи, например. Планируем продолжать такую аккуратную кастомизацию, которую ненакладно делать прямо в процессе выдачи рекомендаций.

chizh_andrey 19 фев 2016 в 15:58

Чем Servers.com лучше Hetzner.de в вашем случае?

Skaurus 19 фев 2016 в 18:23

Как минимум у Hetzner узкий канал между стойками, да и в интернет не фонтан. Нам нужно больше гигабита и там и там :) Так что когда выросли из стойки — стали искать, куда переехать.

ShadowsMind 19 фев 2016 в 17:08

*Тут должна быть картинка про то как рисовать сову*
Начало было хорошее, а потом все скатилось непонятно куда. Не думаю, что людям на хабре надо объяснять почему shared-хостинг не подходит для подобных проектов. Да и без сравнения PostgreSQL/MySQL и Nginx/Apache тоже можно было обойтись.(тем более без упоминания реальных юзкейсов, в духе «нам надо было хранить json и PostgreSQL нам подошел лучше» (с) ).
Надеюсь в следующих статьях объем будет побольше и поинтереснее, т.к. куча вопросов по поводу Вашей архитектуры:
1. Почему Perl?
2. Почему Redis для очередей?
3. Про то как Spark используете.

Skaurus 19 фев 2016 в 18:09

Выбор Perl обусловлен тем, что у нас уже была сильная команда перловиков. На самом деле, конечно, можно использовать любой популярный для веб-разработки язык (даже PHP).
В своё время для Surfingbird переписали Resque от твиттера на перл. Нам понравилось — работает хорошо, проблем нет. На новый проект взяли то же самое.

НЛО прилетело и опубликовало эту надпись здесь

Pink 19 фев 2016 в 22:04

Не воспринимайте так серьезно эту шутку)

Skaurus 20 фев 2016 в 01:52

Я слежу за трендами всей индустрии, и про развитие PHP в курсе :)

ealekseev 19 фев 2016 в 17:08

Что нужно, чтобы подключиться к Вам через jsonp api ?

Skaurus 19 фев 2016 в 18:12

Для начала объяснить, зачем :) Стараемся обходиться виджетами. И оказаться сайтом с высокой посещаемостью.

ealekseev 19 фев 2016 в 18:35

Ну как минимум потому, что виджеты не совсем вписываются в дизайн :) Они конечно настраиваемые, но пока недостаточно.
Высокая для Вас — это от скольки в сутки?

Skaurus 19 фев 2016 в 19:46

При посещаемости от 20к уников в сутки мы сделаем вам ваш собственный дизайн, и это тоже бесплатно.
Ну вот сейчас JSONP стоит на Adme и Coub-е ;)

ealekseev 20 фев 2016 в 10:59

А если 19900 в пиковый день недели договоримся? :)

-1

Pink 20 фев 2016 в 14:34

давайте попробуем. пишите в личку

vgray 19 фев 2016 в 17:45

Что нужно, чтобы подключиться к Вам через jsonp api ?

тоже интерисует этот вопрос, с кем связываться? чтобы получить стоимость этой услуги?

Вы можете давать рекомендации только по сайту в целом "Популярное сейчас..." или также можете давать рекомендации по каждой странице "Похожие статьи ...." ?

Skaurus 19 фев 2016 в 18:13

Это бесплатно, как и весь наш сервис. Рекомендации у каждой страницы свои.

negodnik 20 фев 2016 в 01:34

Как построена монетизация? :)

Skaurus 20 фев 2016 в 01:51

Площадки, разместившие наш виджет, при желании могут согласиться размещать в виджете помимо рекомендаций рекламу. Доходы от рекламы делятся между нами и площадкой, по умолчанию — пополам.
Мы ну вообще бесплатны и зарабатываем, только помогая зарабатывать другим :)

negodnik 20 фев 2016 в 01:57

Ещё вопрос назрел. У вас почти в чистом виде content based recommendation, за исключением учета прочитанных юзером. А как — в двух словах — вы тогда строите рекомендации? По ключевым словам плюс времени публикации, как-то так?

Skaurus 20 фев 2016 в 14:10

Алгоритмов много. Вплоть до того, что для каких-то сайтов могут быть модификации специально для них.
Вместе это работает примерно как на surfingbird — алгоритмы выстроены в цепочку, пытаемся взять из одного, не нашли достаточно — идём в следующий.
Основной — на самом деле item to item.

negodnik 20 фев 2016 в 15:46

Как реализовано исключение прочтенного юзером из рекомендаций? Где вы храните прочтенные юзером ссылки и в какой момент это условие срабатывает? И как вообще работает отслеживание уника, если отключен прием third party cookies?

Skaurus 20 фев 2016 в 15:57

Пока что — в куках, и, соответственно, без них никак не работает.

negodnik 20 фев 2016 в 16:12

В виджете ни чего не выводится при этом? Или какой-то запасной вариант?

Skaurus 20 фев 2016 в 16:14

Выводится. item to item же основной алгоритм, я писал выше.

negodnik 20 фев 2016 в 16:19

Это понятно, но ведь в случае item-item все равно нужна матрица user/item? Ведь нужно понять, что еще читали юзеры, которые читали эту страницу. А в случае если кука на домен сервиса не будет отправляться, по юзерам просмотры не сгруппировать?

Skaurus 20 фев 2016 в 16:33

Кука не будет отправляться у меньшинства, так что корреляцию между item-ами посчитать всё равно получится.
Показать посчитанную корреляцию можно кому угодно, хоть у него кук вообще нет.
Я ответил на ваш вопрос?

negodnik 20 фев 2016 в 17:09

Спасибо за ответы, я не подумал что большинство в данном случае спасает ситуацию.

negodnik 20 фев 2016 в 15:56

Поясню насчет отслеживания уника. Для создания матрицы item-user, где элемент это условно время, которое он провел на странице item, нужно идентифицировать уникального юзера, как вы это делаете с учетом third party cookies? По IP?

negodnik 20 фев 2016 в 02:08

Почитал на сайте «Мы собираем для каждого пользователя материалы на основе его поведения. На виджет Relap, кликают в 2 раза чаще, чем на блоки, собранные вручную.» Видимо, я не так понял коменты к этому посту :)

merk 20 фев 2016 в 12:44

Откровенно говоря, подозрительно выглядит позиция "Если хотите, то запускайте рекламу, а если не хотите рекламу — то пользуйтесь бесплатно". Это наводит на мысли, что вы можете использовать собранную информацию еще как-то в своих целях.

Честно слово, если бы вы предлагали схему с выбором между бесплатным использованием с рекламой или платным использованием без рекламы, то было бы больше доверия :)

В любом случае, у вас очень крутая идея!

Skaurus 20 фев 2016 в 14:42

Собирать информацию нам так и так нужно, чтобы делать рекомендации. Поэтому чисто логически, непонятно, почему описанная вами схема добавила бы доверия.
Сейчас — у идеи попробовать нас нет минусов, а если наш виджет в итоге нравится, то ещё и заработать на нём тоже нет резона отказываться. Сплошная вигода.

НЛО прилетело и опубликовало эту надпись здесь

Pink 20 фев 2016 в 18:32

нет, все ок, весь день все штатно

xorax 24 фев 2016 в 00:43

Вы не просчитывали AWS? Издержки получаются значительно выше?

ealekseev 24 мар 2016 в 18:01

Кстати, забавная статистика по нашему проекту, где стоят рекомендации Relap. Внезапно заметили, что CTR резко упал (вдвое), при этом среднее количество кликов осталось неизменным. С чем это может быть связано?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий