Surfingbird, Москва / Статьи / Хабр

Как стать автором

Компания Surfingbird временно не ведёт блог на Хабре

Статьи 101Посты

vleksin 15 мар 2013 в 15:09

Рекомендательная система: полезные задачи текстмайнинга

4 мин

14K

Блог компании SurfingbirdАлгоритмы*

Я продолжаю цикл статей по применению текстмайнинг-методов для решения различных задач, возникающих в рекомендательной системе веб-страниц. Сегодня я расскажу о двух задачах: автоматическое определение категорий для страниц из RSS-лент и поиск дубликатов и плагиата среди веб-страниц. Итак, по порядку.

Автоматическое определение категорий для веб-страниц из RSS-лент

Обычная схема добавления веб-страниц (вернее, ссылок на них) в Surfingbird такова: при добавлении новой ссылки пользователь должен указать до трёх категорий, к которым принадлежит эта ссылка. Понятно, что в такой ситуации задача автоматического определения категорий не стоит. Однако, кроме ручного добавления, ссылки попадают в базу и из RSS-потоков, которые предоставляют многие популярные сайты. Поскольку ссылок, поступающих через RSS-потоки, очень много, зачастую модераторы (а в этом случае именно они вынуждены проставлять категории) просто не справляются с таким объёмом. Возникает задача создания интеллектуальной системы автоматической классификации по категориям. Для ряда сайтов (например, lenta.ru или sueta.ru) категории можно вытащить непосредственно из rss-xml и вручную привязать к нашим внутренним категориям:

Читать дальше →

+34

Skaurus 6 мар 2013 в 14:48

Про Surfingbird, лежащие сайты и странности PostgreSQL

5 мин

13K

Блог компании SurfingbirdВеб-разработка*PostgreSQL*

Я обещал одному пользователю написать этот пост ещё 8 февраля, а обещания надо выполнять.

Сподвигло меня дать это обещание, конечно, не просто желание рассказать, почему же на нашем сайте серфинг (процесс получения рекомендаций) вечером того дня отдавал пятисотки, а более общие соображения.

А именно — юзернейм настойчиво нам советовал поднять мощности, а то ну вот невозможно же уже.
Мощностей у нас хватает. Безаппеляционность и самоуверенность юзернейма меня… огорчили, и вот поэтому я и решил написать про то, почему на самом деле зачастую ложатся сайты.

Дисклеймер: да, сайты могут лежать по банальным причинам вроде мощности, или физического отказа серверов, проблем в дата-центре, выложенном плохом коде, ошибки администратора. Я хочу рассказать про чуть более тонкие причины, про которые могут не знать или не задумываться даже программисты, если им не приходилось разрабатывать веб-проекты.

Читать дальше →

+27

snikolenko 4 мар 2013 в 16:32

Дискретная математика для первокурсников: опыт преподавателя

12 мин

123K

Блог компании SurfingbirdC++*

Туториал

Сегодня у меня необычный текст, совершенно не связанный с машинным обучением (для новых читателей: этот текст – часть блога компании Surfingbird, в котором я в течение последнего года рассказывал о разных аппаратах машинного обучения в приложении к рекомендательным системам). В этом посте математической части практически не будет, а будет описание очень простой программки, которую я написал для своих студентов. Вряд ли кто-то узнает для себя из этого поста много содержательно нового, но мне кажется, что некоторую ценность представляет сама идея – многие люди просто не задумываются о том, что «и так можно». Итак…

Читать дальше →

+50

Pink 1 мар 2013 в 21:11

Пятничный датамайнинг

2 мин

71K

Блог компании Surfingbird

Каждую пятницу мы заботливо собираем для наших пользователей рассылку. Эта рассылка не обычная, а только для тех, кто отметил в интересах эротику. Называется она “Пятничные сиськи”.

Каждую пятницу мы выбираем 15 лучших девушек, заворачиваем и отправляем нашим серферам. Работа всего офиса останавливается, чтобы оценить каждую по достоинству. Конечно же, у нас часто случается срач на тему “жопа у неё толстая vs жопа нормальная”, “большие сиськи vs маленькие сиськи” и т.д. Чтобы решать все наши споры, мы время от времени делаем внутреннюю аналитику. В сегодняшней статье мы расскажем тебе, хабраюзер, о нашем последнем исследовании и выводах из него.

Читать дальше →

+45

vleksin 27 фев 2013 в 14:46

Рекомендательная система: text mining как средство борьбы с холодным стартом

5 мин

18K

Блог компании SurfingbirdАлгоритмы*

В предыдущей статье я уже обозначил основные направления решения задачи холодного старта в рекомендательной системе веб-страниц. Напомню, что проблема холодного старта делится на холодный старт для пользователей (что показывать новым пользователям) и холодный старт для сайтов (кому рекомендовать вновь добавленные сайты). Сегодня я более подробно остановлюсь на методе семантического анализа текстов (text mining) как основном подходе к решению проблемы холодного старта для новых сайтов.

Читать дальше →

+26

Pink 25 фев 2013 в 16:37

Surfingbird как инструмент привлечения новых пользователей

2 мин

6.1K

Блог компании Surfingbird

Сегодня мы анонсировали программу для паблишеров.
С ее помощью можно увеличить посещаемость сайта и привлечь новых пользователей.

Мы в Surfingbird считаем, что если вы делаете что-то, что по вашему мнению интересно, то об этом должен узнать кто-то еще :) Вы не должны писать в стол, вас должны читать, вашим сервисом должны пользоваться, и о вашем проекте должны узнавать все больше и больше людей. Так вы можете получать фидбек и корректировать свое развитие, а все остальные таким образом смогут открыть что-то новое для себя. Но многие площадки, блоги или сервисы очень часто испытывают трудности с поиском аудитории, особенно на начальном этапе. Своей партнерской программой и самой концепцией нашего рекомендательного сервиса мы стараемся решить эту проблему. Стараемся пробить этот барьер и взять на себе заботы по поиску аудитории для ваших проектов.

Читать дальше →

+3

snikolenko 15 фев 2013 в 20:11

Многорукие бандиты: модель dynamic Gamma-Poisson

5 мин

14K

Блог компании SurfingbirdАлгоритмы*

Туториал

В прошлый раз мы рассмотрели общую постановку задачи о многоруких бандитах, обсудили, зачем это может быть нужно, и привели один очень простой, но эффективный алгоритм. Сегодня я расскажу о ещё одной модели, которая эффективна в ситуациях, когда ожидаемые доходы от бандитов меняются со временем, да и само число и состав «ручек» может меняться – о динамической гамма-пуассоновской модели.

Читать дальше →

+21

vleksin 10 фев 2013 в 00:05

Рекомендательная система: введение в проблему холодного старта

5 мин

22K

Блог компании SurfingbirdАлгоритмы*

Из песочницы

Recovery Mode

Меня зовут Василий, уже более трех месяцев, как я работаю математиком в компании Surfingbird.

Первая серьезная задача, с которой я столкнулся, работая в компании — это решение проблемы холодного старта. В этой статье я опишу суть проблемы и основные направления ее решения.

Постановка задачи рекомендательной системы уже описана Сергеем Николенко в статье Рекомендательные системы: постановка задачи.
В основе большинства рекомендательных систем лежат так называемые методы коллаборативной фильтрации. Наша рекомендательная система не исключение. Все алгоритмы коллаборативной фильтрации опираются только на информацию о рейтингах, проставляемых пользователями, и не анализируют контент ресурсов (в нашем случае веб-страниц). Поэтому, эти алгоритмы работают при достаточно большом количестве рейтингов, как правило это 10-20 рейтингов. Задача выдачи релевантных рекомендаций для новых пользователей и для новых сайтов называется проблемой холодного старта.

Читать дальше →

+4

snikolenko 7 фев 2013 в 13:57

Многорукие бандиты: введение и алгоритм UCB1

5 мин

53K

Блог компании SurfingbirdАлгоритмы*

Туториал

Это первый пост из блога Surfingbird, который я выношу в общие хабы алгоритмов и искусственного интеллекта; честно говоря, раньше просто не догадался. Если интересно, заходите к нам, чтобы прочесть предыдущие тексты, – я не знаю, что произойдёт, если просто добавить новые хабы к постам несколькомесячной давности.

Краткое содержание предыдущих серий о рекомендательных системах:

В этот раз начинаем новую тему – о многоруких бандитах. Бандиты – это самая простая, но от этого только более важная постановка задачи в так называемом обучении с подкреплением…

Читать дальше →

+31

Skaurus 27 сен 2012 в 21:35

Мобильные приложения от Surfingbird

2 мин

8.1K

Блог компании Surfingbird

Недавно мы наконец зарелизили приложение под Android, а ещё раньше приложение для iPad-а (а ещё раньше для iPhone, но мы про него не будем, оно страшное).
И вот, в принципе, просто хочется немного похвастаться.

iPad-приложение использует интерфейс, который нам кажется инновационным :-) Навигация по логически вложенным понятиям выглядит как слои интерфейса, накладывающиеся один на другой. Слайд вправо убирает текущий верхний слой, тап по нужному слою скрывает все верхние (иногда верхние слои закрывают нижние не целиком).

Навигация получается удобная, нам нравится. Выглядит примерно так (примерно 500КБ трафика):

Читать дальше →

0

Skaurus 10 сен 2012 в 21:28

Улучшение субъективной скорости работы сайта при помощи подсказок браузеру

4 мин

39K

Блог компании SurfingbirdВеб-разработка*

Recovery Mode

Я удивлен, что эта техника упоминалась на Хабре только один раз и вскользь — если верить поиску, конечно.
Меня не покидает ощущение, что на самом деле все про это знают, но я всё же расскажу.

Суть в том, что браузеру можно подсказать, какую страницу пользователь откроет следующей — и он начнет её загружать заранее.

Делается это несложно — нужно всего-то добавить пару мета-тегов в head:

<link rel="prefetch" href="NEXT PAGE URI" />
<link rel="prerender" href="NEXT PAGE URI" />

Теперь подробнее про ограничения и нюансы.

Читать дальше →

+114

snikolenko 31 авг 2012 в 18:45

Рекомендательные системы: LDA

3 мин

31K

Блог компании Surfingbird

Туториал

В прошлый раз я рассказывал о теореме Байеса и приводил простой пример – наивный байесовский классификатор. В этот раз мы перейдём к более сложной теме, которая развивает и продолжает дело наивного байеса: мы научимся выделять темы при помощи модели LDA (latent Dirichlet allocation), а также применим это к рекомендательным системам.

Читать дальше →

+12

snikolenko 26 авг 2012 в 17:45

Рекомендательные системы: теорема Байеса и наивный байесовский классификатор

4 мин

61K

Блог компании Surfingbird

В этой части мы не будем говорить о рекомендательных системах как таковых. Вместо этого мы отдельно сконцентрируемся на главном инструменте машинного обучения — теореме Байеса — и рассмотрим один простой пример её применения — наивный байесовский классификатор. Disclaimer: знакомому с предметом читателю я вряд ли тут сообщу что-то новое, поговорим в основном о базовой философии машинного обучения.

Читать дальше →

+19

snikolenko 10 мая 2012 в 16:54

Рекомендательные системы: оверфиттинг и регуляризация

3 мин

13K

Блог компании Surfingbird

Постоянно падающая популярность предыдущих публикаций побуждает предпринимать поступки, помогающие популярность поддержать. Приметил – популярность первых публикаций порядочно превышает последующие; поэтому попробую перезагрузиться.

На протяжении предыдущих серий мы тщательно рассмотрели метод SVD и даже довели его до программного кода; начиная с этого текста, я буду рассматривать более общие вещи. Вещи эти, конечно, всегда будут тесно связаны с рекомендательными системами, и я буду рассказывать о том, как они в рекомендательных системах возникают, но постараюсь делать упор на более общих концепциях машинного обучения. Сегодня – об оверфиттинге и регуляризации.

Читать дальше →

+15

snikolenko 12 апр 2012 в 19:29

Рекомендательные системы: SVD на perl

3 мин

14K

Блог компании Surfingbird

В предыдущих сериях мы обсудили, что такое сингулярное разложение (SVD), и сформулировали модель сингулярного разложения с базовыми предикторами. В прошлый раз мы уже довели дело до конкретных формул апдейта. Сегодня я продемонстрирую очень простую реализацию очень простой модели, мы применим её к уже знакомой матрице рейтингов, а потом обсудим, какие получились результаты.

Читать дальше →

+7

snikolenko 29 мар 2012 в 18:06

Рекомендательные системы: SVD и базовые предикторы

3 мин

30K

Блог компании Surfingbird

В прошлый раз я рассказал, пока в самых общих чертах, о сингулярном разложении – главном инструменте современной коллаборативной фильтрации. Однако в прошлый раз мы в основном говорили только об общих математических фактах: о том, что SVD – это очень крутая штука, которая даёт хорошие низкоранговые приближения. Сегодня мы продолжим разговор об SVD и обсудим, как же, собственно, использовать всю эту математику на практике.

Читать дальше →

+8

snikolenko 15 мар 2012 в 20:38

Рекомендательные системы: SVD, часть I

3 мин

64K

Блог компании Surfingbird

Продолжаем разговор о рекомендательных системах. В прошлый раз мы сделали первую попытку определить схожесть между пользователями и схожесть между продуктами. Сегодня мы подойдём к той же задаче с другой стороны – попытаемся обучить факторы, характеризующие пользователей и продукты. Если Васе из предыдущего поста нравятся фильмы о тракторах и не нравятся фильмы о поросятах, а Петру – наоборот, было бы просто замечательно научиться понимать, какие фильмы «о поросятах», и рекомендовать их Петру, а какие фильмы – «о тракторах», и рекомендовать их Васе.

Читать дальше →

+13

Pink 12 мар 2012 в 16:10

Новый тулбар

1 мин

2K

Блог компании Surfingbird

Алоха, юзернейм!

Меня зовут Сергей Шалаев, я руководитель Surfingbird. В нашем проекте я выполняю роль разнорабочего и занимаюсь тем, что не хотят делать остальные. Например, уборкой крыши или написанием текстов о новых штуках на нашем проекте.

Итак, я расскажу тебе, юзернейм, об одном небольшом, но очень важном обновлении Surfingbird, над которым мы работали последний месяц.

Мы зарелизили новый тулбар!
Вот он, тулбар нашей мечты — http://surfingbird.ru/surf

Читать дальше →

-19

snikolenko 6 мар 2012 в 19:29

Рекомендательные системы: user-based и item-based

5 мин

40K

Блог компании Surfingbird

Итак, в прошлый раз мы немного поговорили о том, что такое вообще рекомендательные системы и какие перед ними стоят проблемы, а также о том, как выглядит постановка задачи коллаборативной фильтрации. Сегодня я расскажу об одном из самых простых и естественных методов коллаборативной фильтрации, с которого в 90-х годах и начались исследования в этой области. Базовая идея очень проста: как понять, понравится ли Васе фильм «Трактористы»? Нужно просто найти других пользователей, похожих на Васю, и посмотреть, какие рейтинги они ставили «Трактористам». Или с другой стороны: как понять, понравится ли фильм «Трактористы» Васе? Нужно просто найти другие фильмы, похожие на «Трактористов», и посмотреть, как Вася их оценивал.

Читать дальше →

+25

snikolenko 28 фев 2012 в 14:34

Рекомендательные системы: постановка задачи

5 мин

31K

Блог компании Surfingbird

Всем привет! Меня зовут Сергей, я математик, и я определяю развитие рекомендательной системы Surfingbird. Этой статьёй мы открываем цикл, посвящённый машинному обучению и рекомендательным системам в частности – пока не знаю, сколько в цикле будет инсталляций, но постараюсь писать их регулярно. Сегодня я расскажу вам, что такое рекомендательные системы вообще, и поставлю задачу чуть более формально, а в следующих сериях мы начнём говорить о том, как её решать и как учится наша рекомендательная система Tachikoma.

Читать дальше →

+22

5