Как стать автором
Обновить

Роман Иванов: «Поиск по блогам устроен довольно непросто»

Время на прочтение10 мин
Количество просмотров1.2K
Роман Иванов, руководитель отдела коммуникационных сервисов «Яндекса», в интервью «Хабрахабру» рассказывает об особенностях поиска по блогам и сообщает, какие тренды видны в блогосфере рунета.

Как ты оказался в «Яндексе»?

До «Яндекса» я работал в екатеринбуржской компании JetStyle. Работал там разработчиком, сисадмином и менеджером, в том числе участвовал в создании wiki-движка WackoWiki и инновационного, но непонятного простому человеку блого-вики-хостинга НПЖ.

Собственно, из-за них меня и заметили в «Яндексе»: позвали нас с Колей Яремко (соавтором WackoWiki и главным автором НПЖ) поговорить, а потом и поработать.

С JetStyle, мы, кстати, регулярно сотрудничаем.

Зачем вы создали НПЖ? Это был эксперимент такой?

Да, это был такой эксперимент, попытка создать сервис исходя из концепций, а не из желаний пользователя. НПЖ создавался группой людей с разными целями, у которых оказался один общий интерес, вернее даже, потребность в инструменте, помогающем группе (или группам) людей работать друг с другом и с разными текстами. Одной из целей проекта была научная работа Коли Яремко, другая цель – создать среду общения для ролевых игр, ещё – создать корпоративный инструмент для организации работы со знаниями и уведомлениями, в конце концов — занять интересную, инновационную нишу синтеза блог-хостинга и вики.

Сейчас этот проект потихоньку дрейфует без чёткого управления. Разработчики-идеологи заняты своей интересной работой, сообщество живёт своей жизнью. Основным мозгом НПЖ является Коля Яремко, впрочем, сейчас у него не очень много времени на этот проект.

Кто-нибудь пытался купить НПЖ?

Проект, сайт или лицензию? Лицензию покупали несколько раз. Сайт и проект купить никто не пытался.

Ты можешь назвать покупателей?
Могу назвать две компании – «Электронный город» и Абак-Пресс.

На твоей визитке написано «руководитель отдела коммуникационных сервисов». Можешь пояснить, какие это сервисы?

Это все сервисы, связанные с общением в Сети. Кроме того — так получилось – руковожу также разработкой софта для конечного пользователя. Из открытых на данный момент сервисов можно назвать «Яндекс.Почту» (и её новую версию), поиск по блогам (мы его называем сокращенно «ППБ»), «Народ», «Яндекс.Лента», «Закладки». Из программ — «Бар», «Персональный поиск Яндекса» и «Спамооборону».

Как давно руководишь отделом?

Полтора года, с января 2005-го.

Большой отдел?

Сейчас, кроме меня, в отделе четыре человека — это всё менеджеры. У разработчиков есть аналогичный отдел «разработки коммуникационных сервисов», их там гораздо больше. У нас, к слову, разработчики не подчинены менеджерам, а вместе делают общее дело.

Вероятно, «Закладки» в скором времени выйдут в новой версии? Среди всех перечисленных выше, этот сервис, пожалуй, самый «древний». В том смысле, что не отвечает духу времени.

Мы традиционно не говорим о планах, так что выйдут или нет — не комментирую. А насчёт древности — это не вполне так. Сервис появился одним из самых первых, в 2000-м году, сразу имел социальную часть, публичные закладки и т.п., не имел только разве что тегов.
В 2004 году он был совершенно переделан, став персональной частью «Яндекс.Каталога» и утратив все свои социальные функции.

Когда «Яндекс.Почта» будет переведена на ajax-интерфейс, который доступен на mail.ya.ru?

Сейчас любой пользователь может включить себе в настройках этот интерфейс в качестве интерфейса по умолчанию.
Насильно всем включать новый интерфейс мы в ближайшее время не планируем, переход будет постепенный.

Почему?

Потому что насильно менять привычный пользователю интерфейс на что-то совсем новое нельзя. Можно рассказывать о новом, советовать новое, но не заставлять пользователей.
Вряд ли кто-то из пользователей Windows XP обрадуется, если завтра включит компьютер, а там вместо XP — Vista, без всякого предупреждения.

Каков размер русскоязычной блогосферы сейчас, на конец июля 2006-го? Сколько новых блогов на русском языке появляется каждый месяц? У вас есть такая статистика?

Размер блогосферы трудно оценить в точности. Нам известно почти 900 тыс блогов, но есть ещё заметное количество не обновляющихся, неактивных блогов в тех системах, которые мы начали индексировать не с момента их появления, а позже — таких, как Liveinternet, «Дамочка», Diary.Ru.

Также есть несколько блог-хостингов, в которых до сих пор нет RSS — типа darkdiary и gothicjournal.

То есть можно с уверенностью говорить, что больше миллиона — но вот насколько больше, не очень-то понятно.

Как быстро растут LiveInternet и Diary? Когда, по твоим прикидкам, они потеснят Livejournal с первой строчки хитпарада популярных блог-хостингов?

За июнь мы узнали 85 тысяч новых блогов, из них 21 тыс — Livejournal, 25.5 тыс — Liveinternet, 16.5 тыс — Блоги@Mail.Ru, 6 тыс — Diary.Ru, 5 тыс – «Рамблер-Планета».

Когда обгонят — не берусь прогнозировать.

«Рамблер-Планета» и Блоги@Mail.Ru появились одновременно, но первый, судя по статистике, во много раз «меньше» второго. Как ты думаешь, почему блогосфера на «Рамблере» растет медленнее блогосферы Mail.Ru?

На самом деле «Планета» начала рекламироваться заметно позже, кажется, на полгода. Но это не единственная причина — мне представляется, что у Mail.Ru больше аудитория тех сервисов, с которых люди без проблем переходят в блоги. Это знакомства и фотохостинг. Кроме того, Mail.Ru больше, насколько я видел, рекламировала свои блоги на этих сервисах.

Ну и, наконец, позиционирование сервиса у Блогов@Mail.Ru более понятное. Метафору «Планеты» ещё надо «осилить», а в «Блогах» достаточно выучить новое слово.

Как ты думаешь, зачем «Рамблеру» «Дамочка»?
«Рамблер» — компания, стратегию которой я комментировать не возьмусь.

Я не знаю, зачем «Рамблеру» одновременно нужны love.rambler.ru, planeta.rambler.ru, mama.ru и damochka.ru. Возможно, в этом есть какая-то стратегия.

Расскажи, как устроен поиск по блогам? Как происходит индексация? Как зовут паука, который ходит по блогам?

Поиск по блогам устроен довольно непросто. Дело в том, что он принципиально отличается от веб-поиска: для веб-поиска размер накопленного за предыдущие годы материала почти не важен — база полностью обновляется за не очень большой срок. Для поиска по блогам, с другой стороны, исчезновение архивов приведёт к катастрофе, потому что поиск по блогам индексирует только новые записи — в RSS-потоках (единственном источнике для индексации) обычно присутствует только 10-20 последних записей; и старые записи взять будет негде.

Из чего состоит поиск по блогам?

1. Робот, который называется blogindexd. Робот скачивает RSS-потоки (его user-agentYandexBlog/0.99.101 (compatible; DOS3.30; Mozilla/5.0; B; robot;) NN readers, где NN readers — количество подписчиков на этот поток в «Яндекс.Ленте» — эта информация может оказаться интересной для автора потока) и складывает их в хранилище.
2. Хранилище для текста записей, называется bulca. Это основанное на файловой системе хранилище, разработка «Яндекса».
3. Хранилище для метаинформации (дата записи, id потока записи и т.п.). Для него используется mysql.
4. Полнотекстовый индекс и поисковая программа над этим индексом. Это, фактически, обычный «Яндекс.Сервер». Вообще говоря, индекс не один, он разбит на несколько — постоянные индексы, которые содержат архивы; статичные индексы, которые содержат записи последних недель и обновляются довольно редко, примерно раз в сутки, и динамические индексы, которые обновляются гораздо чаще, вплоть до раза в пять минут.
5. Планировщик, который, на основании истории потока, определяет, когда его нужно скачать в очередной раз. Это довольно интеллектуальная программа, цель которой состоит в том, чтобы качать потоки как можно чаще, но при этом не перегрузить сервера, с которых мы скачиваем потоки. В первые месяцы работы поиска по блогам бывало, что слишком активно качая RSS с Livejournal.com, мы «роняли» им сервера.
6. Большое количество дополнительных скриптов, которые отвечают за борьбу со спамом (а спам в блогах есть), отключение новостных потоков (в поиске по блогам мы стараемся оставлять только потоки, содержащие мнения — блоги, форумы, группы и т.п.) и многое другое.

Сколько серверов обслуживают поиск по блогам?

Много. Точную цифру, во-первых, не знаю, а во-вторых, сказать не могу. Начиналось всё примерно с десяти серверов, сейчас их больше.

Насколько я знаю, каждый сервер вы называете каким-то именем, иногда смешным. Как называются «блоггерские» серверы?

Не все серверы поиска по блогам называются затейливо. Вот серверы с «постоянными» индексами зовутся puzzle1 и т.п, а остальные имеют названия в виде обычных аббревиатур (db, m1a, s1…).
Зато на серверах-фронтендах (общих у поиска по блогам, с кучей других сервисов) традиционно «отрываются»: plague, earthshake, shout, steemroll, soulcry, flamestrike и т.п. Насколько я понимаю, это всё названия заклинаний из ADnD).

Как много спама в блогах? Как быстро растут его объемы? Есть такая статистика?

Сейчас нам известно более тысячи спамовых RSS-потоков, в основном, размещённых на крупных блог-хостингах.

До марта 2006 года, когда поиск по блогам вышел из беты, спама практически не было совсем, но уже на следующий день после «запуска» нам пришлось вручную разгребать первые робкие попытки. С тех пор мы сделали автоматические инструменты, которые позволяют нам говорить, что спама в поиске по блогам почти нет. Конечно, не существует предела совершенству, и я могу составить поисковый запрос, который покажет не менее десятка спам-блогов, но больше спама в видимой части поиска не становится, только меньше. Новых спам-потоков мы распознаем примерно десятка полтора в день.

Ещё стоит заметить, что поисковый спам в блогах почти всегда рассчитан не на посетителей, пришедших с поиска по блогам «Яндекса», а на роботов веб-поиска — как «Яндекса», так, вероятно, и других поисковых систем — это попытки познакомить роботов с новыми дорвеями или накрутить ссылочную релевантность других дорвеев.

Есть ещё непоисковый спам, когда в сообщества пишут сообщения не по теме, но он не имеет отношения к поиску по блогам.

Как изменилась блогосфера в России за последний год? Какие тренды видны? Что можешь отметить?

Самое главное изменение — появление и проявление других столпов блогосферы, кроме Livejournal. Ещё год назад не было блогов на Mail.Ru и планеты «Рамблера», не был понятен размер diary.ru и liveinternet.ru. За этот же год в Liveinternet больше поняли про социальные сервисы и прочий Веб 2:0, стали многое менять.
За этот же год к блогам потянулись и сотовые операторы (МТС и Мегафон).

Видно, что в блогосферу пришло много новых людей, многие из них не умеют хорошо писать — они не журналисты, не литераторы и не «гики», а обычные люди с обычными заботами.

За счёт поиска по блогам сильно повысилась связность блогосферы: раньше были такие обособленные друг от друга большие блог-хостинги и единицы (ну, сотни) standalone-блоггеров, а теперь за два клика можно найти ссылки на себя в любом блоге, собрать мнения про то или иное событие со всей блогосферы.

Я уверен, что во многих интернет-продвинутых компаниях мнения блоггеров тщательно мониторятся — во всяком случае, лично я мониторю мнения и отзывы про наиболее интересные и важные мне сервисы «Яндекса».

«Яндекс.Новости» теперь транслируют мнения из блогов рядом с сюжетами новостей. Когда вы признали силу блогов?

Силу блогов в «Яндексе» признали тогда, когда придумали сделать поиск по блогам. То есть ещё до моего появления в компании, вероятно, в первой половине 2004 года. Признали её публично и всесторонне с выходом поиска по блогам из «беты», когда он встал в линейку поисковых «табов» под строкой поиска — в начале 2006 года.

Дальнейшая интеграция в разные сервисы — дело времени. Интегрировать с новостями — идея, лежащая на самой поверхности, её за время существования поиска по блогам придумали многие. Другое дело, что довести идею до конкретной реализации не всегда просто. В данном случае получилось, хоть и не всегда «чисто». Над этим мы работаем.

А когда ты сам лично почувствовал силу блогосферы? Ты запомнил этот момент?

По отношению лично ко мне, наверное, практически сразу, то есть в 2001 году, в ЖЖ.
Вопрос, заданный в своём блоге, часто получал быстрый и хороший ответ, при этом вопрос мог быть почти на любую тему — от лекарства для сына до выбора сканера.

Силу в каком-то более широком смысле? Да тогда же. 11 сентября 2001 года больше информации о происходящем было во френдленте и ленте fif-а (сводной ленте всех русскоязычных пользователей ЖЖ, действовашей в то время), чем в любом отдельном СМИ.

Тема блогов меня увлекла, я участвовал в разработке движка Reg][ster в 2003 году, НПЖ — в 2003-2005. А потом был «Яндекс».

Почему Reg][ster «заглох»? У движка были все шансы развиться в большую платформу, но не срослось?

По двум основным причинам. Во-первых, код, написанный Димой Смирновым, был довольно неаккуратным и слаборасширяемым (почти полное отсутствие модульности, процедурный подход и т.п.). Во-вторых, не нашлось энтузиаста, который взялся бы развивать «Регистр» после того, как у создателей кончился энтузиазм. У меня, в частности, он кончился, потому что нашлись более интересные проекты — WackoWiki и впоследствии НПЖ.

В России корпоративный блоггинг не очень-то популярная штука, как ты думаешь, почему?

По двум причинам. Во-первых, у нас пока не так велика аудитория блогов, как на западе. Хотя рост количества людей, осведомленных о том, что такое блог, конечно, впечатляющий — см. данные РОМИР о том, что известность блогов выросла вдвое за последние девять месяцев. Во-вторых, не все руководители и пиар-службы готовы к той открытости, которую подразумевает корпоративный блог.

Кто читает комментарии к записям в корпоративном блоге?

Много кто: они попадают в общую почтовую папку, которую вправе читать любой сотрудник. Судя по ответам, постоянно читают Елена Колмановская и Илья Сегалович, а также сотрудники техподдержки. Ну, и я тоже постоянно читаю.

Что люди пишут чаще всего? Попробуешь вспомнить самый странный фидбек?

Долгое время чаще всего писали «аффтар жжот» — в ответ на постинг про query-based speller. Регулярно встречаются комментарии вида «Я новенький прошу Вас помощи», на них, по мере возможности, стараются отвечать работники службы поддержки пользователей.

Самый странный?
Пожалуй, этот, но он длинный для интервью.

Почему некоторые хосты яндекса в ICMP Echo-reply отвечают с тем же TTL, с которым получили запрос

Просто любопытно, пример:
# traceroute -P ya.ru 

ix2-m9.yandex.net (193.232.244.93) 55.974 ms  37.562 ms  40.819 ms 
c3-vlan3.yandex.net (213.180.192.171) 63.987 ms  41.410 ms  80.810 ms 
9  * * *
10  * * *
11  * * *
12  * * *
13  * * *
14  * * *
15  * * *
16  ya.ru (213.180.204.8) 61.545 ms ! 48.058 ms ! 49.508 ms !
хопы с 9-го по 15-ый — как я понимаю ложные, т.е. хост 213.180.204.8 (возможно до него есть что-то ещё) отвечает на ICMP с тем же самым TTL, с которым до него доходят пакеты, в связи с чем обратно ответы не доходят, пока TTL не будет увеличен в два раза.
Для чего это? Если не сложно, дайте ответ… Сделано это из соображений безопасности или это какое-то хитрое железо, какой-нибудь балансировщик нагрузки так себя ведёт?


А, вот покороче:

мне приходят сообщения на эл.почту на английском языке.нельзя ли чтобы письма приходили на русском?

Антон Антич хочет сделать «Блогус» центральным местом для изучения русскоязычной блогосферы, что думаешь об этом?

Про «Блогус» знаю давно, мы встречались с Антоном, обсуждали, как лучше отдавать им количество ссылок по данным поиска по блогам.

Думаю, что пусть расцветает сто цветов. Любой осмысленный ресурс вокруг блогосферы — благо для неё.

Что в твоем понимании центральное место для изучения блогосферы? Вот поиск «Яндекса по блогам» — это центральное место?

Я думаю, во многом наш поиск по блогам является таким местом. Конечно, идеал недостижим, но к нему следует стремиться. Мы много думаем о том, какие ещё сервисы надо сделать, чтобы стать таким центром изучения блогосферы; делаем эти сервисы.

Когда их стоит ожидать?

Я не могу говорить о сроках, сам понимаешь. Но, судя по тому, как живо все внедрялось и улучшалось на сервисе за последние полгода, можно предположить, что довольно скоро. Вот, скажем, возможность искать только в блогах или только в форумах одним щелчком, прямо со страницы поисковой выдачи, появилась где-то месяц назад, без всякого анонса. Надеюсь, она полезна нашим пользователям.
Теги:
Хабы:
Всего голосов 11: ↑10 и ↓1+9
Комментарии12

Публикации