Обновить
  • по релевантности
  • по времени
  • по рейтингу

Google согласилась платить французским новостным сайтам за трафик

Поисковые технологии *Законодательство в IT Поисковая оптимизация

Google подтвердила заключение соглашения с французской новостной индустрией. Оно «устанавливает правила, в рамках которых будет заключать индивидуальные лицензионные соглашения» со СМИ. В рамках этих соглашений статьи будут индексировать в News Showcase от Google, а компания будет платить издателям за трафик.

Переговоры велись после утверждения директивы ЕС об авторском праве в 2019 году. Она касается так называемых «смежных прав» на контент. Google выступала против подобных соглашений.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 2.2K
Комментарии 6

Google отказалась повышать жалованье сотрудников для компенсации инфляции

Управление персоналом *IT-компании

На общем собрании Google, которое посвящено стратегии на 2022 год, руководство компании заявило, что не будет проводить индексацию заработной платы исходя из показателей инфляции. Глава компании Сундар Пичаи заявил, что уровень инфляции в США достигает 7%, и поднял вопрос перерасчета жалования с учетом экономической ситуации, однако вице-президент Google Фрэнк Вагнер отметил, что поправки на инфляцию при вознаграждении сотрудников у компании не будет. 

Читать далее
Всего голосов 10: ↑10 и ↓0 +10
Просмотры 4.7K
Комментарии 58

Принят стандарт Sitemaps Auto-Discovery

Поисковые технологии *
Крупнейшие поисковые сайты Google, Yahoo, Ask и MSN объявили о принятии единого стандарта для хранения файла Sitemap XML. Веб-мастерам рекомендуется добавить такую строчку в robots.txt:

Sitemap: www.example.com/sitemap.xml

Функция Auto-Discovery позволяет сэкономить время: поисковый робот теперь будет сам находить файл Sitemap на сайте, так что теперь не нужно его вручную закачивать в каждый поисковик.

Как объясняется на сайте Sitemaps.org, единый стандарт должен облегчить процесс индексации сайта поисковыми системами. С помощью этого XML-файла веб-мастер прямо указывает поисковику, какие страницы на сайте нужно индексировать. Таким образом можно существенно сэкономить исходящий трафик, а часто обновляемые страницы индексируются чаще.
Читать дальше →
Всего голосов 67: ↑67 и ↓0 +67
Просмотры 407
Комментарии 12

Google пытается проиндексировать Невидимую Сеть

IT-компании
Разработчики из подразделения краулинга и индексации (Crawling and Indexing Team) сообщили о важном эксперименте, который начался совсем недавно. Они осуществили апгрейд краулера и начали испытывать технологию интеллектуальной обработки HTML-форм. После апгрейда робот-краулер должен научиться получать скрытые URL’ы и веб-страницы, которые генерируются в ответ на обработку форм на различных сайтах и которые невозможно получить иным путём.

На практике технология работает так: при встрече с элементом обработчик форм осуществляет ряд пробных запросов. Для текстовых полей в качестве запросов автоматически выбираются слова с этого самого сайта, на котором находится форма. Значения чекбоксов и выпадающих меню берутся непосредственно из кода страницы. После этого программа пытается обработать полученный URL. Если страница действительно содержит некий контент, то её отправляют на индексирование в общий поисковый индекс.

Несмотря на кажущуюся простоту и очевидность, обработка HTML-форм является очень важным шагом по вытаскиванию на свет так называемой «Невидимой Сети» (Deep Web) — огромных массивов информации, которые скрываются в больших базах данных, открытых миру через интерфейсы HTML-форм. Это юридические БД, разнообразные справочники (телефоны, адреса, цены) и прочие массивы данных. По некоторым оценкам, Невидимая Сеть содержит сотни миллиардов страниц и охватывает 90% всего содержимого интернета. Нужно заметить, что именно там скрывается самый ценный контент, который до сих пор не доступен через стандартные поисковики.
Читать дальше →
Всего голосов 46: ↑44 и ↓2 +42
Просмотры 1.4K
Комментарии 75

Я.RSS

IT-компании
Яндекс выпустил специальный плагин для популярных форумных систем (PHPBB 3.x, vBulletin® 3.x, IP.Board 2.x), который позволяет добиться индексации ВСЕХ страниц вашего форума Яндексом.

Я.RSS стал первым opensource-проектом из серии Яндекс.Нано.

Всем форумным администраторам быстро скачивать и тестировать :)
Всего голосов 60: ↑56 и ↓4 +52
Просмотры 246
Комментарии 27

24 способа, увеличивающих вероятность индексации сайта

Чулан
Далеко не все поисковые сервисы быстро и эффективно индексируют новый ресурс в Интернете. «Зубры» типа google или yahoo все схватывают на лету, надо просто немого подождать. При этом объем проиндексированного контента у них достаточно высокий. Множество поисковиков рунета (rambler, aport, altavista), а также майкрософтовские livesearch и msn тоже сами индексируют новый сайт.
Проблемы иногда возникают с индексацией в mail.ru, и его детище gogo, а также с Яндексом. Из индекса Яндекса сайты иногда пропадают, число проиндексированных поисковиком также часто меняется.
Cледует также отметить, что индексировать то может и индексируют поисковики, но если проиндексированная страница будет находиться на 10ой странице поиска, то вряд ли на нее кто-то перейдет. Разве что самый упорный. Поэтому особенно актуален вопрос именно эффективной индексации. О ней и вообще об индексации пойдет речь. Так как ориентация статьи сделана в основном на русскоязычный сегмент Интернета, то акцент слегка смещен в сторону Яндекса.
Читать дальше →
Всего голосов 36: ↑28 и ↓8 +20
Просмотры 4.2K
Комментарии 18

Алгоритмы поиска, обратный индекс — Часть 1

Чулан
image
C этой статьи я начинаю цикл статей по SEO, в которых будет теория, практика и советы. Начнем естественно с азов. В материале вкратце описываются алгоритмы, по которым современные поисковые системы осуществляют поиск, как проходит индексация, какие математические модели используются при поиске документов.


Что вы узнаете?


Алгоритмы поиска. Что представляет из себя индексация, инвертированный индекс. Математические модели, используемые современными поисковыми системами.
Узнать больше
Всего голосов 81: ↑45 и ↓36 +9
Просмотры 6.7K
Комментарии 48

Fly AJAX — пишите меньше, имейте больше. Нестандартный AJAX и индексация поисковиками.

Ajax *

Обсуждение предыдущей статьи было бурным. Самые ярые любители jQuery, Mootools кричали зачем мол нужен другой велосипед.
В данной статье мы рассмотрим использование техники Fly AJAX. Это одна из нескольких функциональных возможностей, которые не реализованы в ранее указанных больших (и мною уважаемых) фреймворках. Также, в данной статье, мы рассмотрим принципы правильного проектирования и построения сайтов для хорошей индексации с применением AJAX технологии.
Читать дальше →
Всего голосов 91: ↑80 и ↓11 +69
Просмотры 4.9K
Комментарии 207

Сайт требует регистрацию? Используйте Google

IT-компании
Перевод
Это немного сокращенный перевод статьи из блога Google Operating System о том, как работает индексация закрытого контента. Возможно, данная вещь давно известна, тогда считайте эту заметку ненужной.

Некоторые сайты выдают различный контент в зависимости от того, с какой страницы посетитель осуществил переход. Новостные сайты, такие как New York Times, открывают многие статьи только своим подписчикам, но делают исключение, если посетитель перешел со страницы поиска Google и других популярных поисковиков.

У Google есть фича, которая называется first click free для сайтов, требующих подписку. Она разработана для защиты вашего контента и одновременно предоставления возможности индексации. Чтобы реализовать First Click Free, веб-мастер должен позволить всем пользователям, кто нашел вашу страничку через Google, видеть полный текст документа без необходимости регистрации или подписки.

Однако, несмотря на то, что первичный вход на сайт свободный, когда пользователь переходит по внутренним ссылкам, сайт потребует регистрацию. Это особенно неудобно для ресурсов вроде nytimes.com, которые разбивают большую статью на страницы для увеличения числа просмотров.

Обойти это можно очень просто – скопировать ссылку на страницу, к которой у вас нет доступа, в поисковую строку Google и затем перейти по первому результату поиска. Если Google не проиндексировал эту страницу можно использовать SearchWiki для добавления страницы в список результатов поиска: убедитесь, что вы залогинены в свой Google-аккаунт и щелкните «Add a result» внизу страницы с результатами поиска:

image

В комментариях к оригинальной статье указывается более простое решение — использовать расширения RefSpoof или RefControl для Firefox и указывать в качестве реферера www.google.com
Всего голосов 39: ↑35 и ↓4 +31
Просмотры 1.8K
Комментарии 19

multi_get — качаем сайты оптом

Чулан
Топик будет интересен тем, кто хочет индексировать Интернет-сайты на предельных скоростях (самодельные поисковики, анализы частоты слов, сервисы по анализу html'я и т.п.) Threading тут не дает предельных скоростей, urllib — тем более… Решение здесь в использовании асинхронных запросов из libcurl.

Скорость?
На 500MHZ (очень-очень слабенький VPS) — около 100 URLов в секунду (100 соединений, 2 процесса).
На Amazon EC2 «High-CPU Medium Instance» (.2$/час) ~ 1200 URLов в секунду (300 соединений, 5 одновременных процессов). В один процесс до 660 URLов в секунду.

Для выкачивания множества сайтов и дальнейшей обработки, хочу поделиться одной своей полезной функцией — multi_get — по сути она — удобный wrapper для CurlMulti (libcurl), модифицированный из их примера CurlMulti.

>>> urls = ['http://google.com/', 'http://statcounter.com/']
>>> res = {}
>>> multi_get(res, urls, num_conn = 30, timeout = 5, percentile = 95)
>>> res['http://google.com/']
'<html><title>Google....
# тут обрабатываем res, который содержит HTML всех для URL'ок
Читать дальше →
Всего голосов 16: ↑14 и ↓2 +12
Просмотры 874
Комментарии 11

Индексация Ajax сайтов

Чулан
Может кто-нибудь подсказать, каким образом проиндексировался inthecity.ru?
С отключенным javascript он не работает. Он отдает Яндексу, что-то отличное, от того, что получают пользователи?

Кто что вообще делает в таких случаях?

Решение писать сайт так, чтобы он работал с отключенным js только для поисковиков, не айс, но как я понимаю другого решения нет?
Всего голосов 27: ↑17 и ↓10 +7
Просмотры 265
Комментарии 44

Обратная связь? Без надобности

IT-компании
Сначала небольшое вступление.

Один из моих личных творческих проектов представляет собой сайт с набором коротких и часто внешне бессюжетных фраз, появившихся как побочные эффекты мыслительной деятельности (бывает так, когда напряжённо думаешь, ещё что-нибудь в голову приходит). Там есть ещё игра слов, услышанные или увиденные где-то смешные словесные конструкции, самодельные афоризмы, выплеск эмоций ну и прочее. Проект явно не для широкой аудитории, но тем, не менее, давний (более 4-х лет) и заботливо поддерживаемый. Работает на стандартном движке и собственноручно написанной теме. Никаких рекламных ссылок там нет, не было и никогда не будет.

И вот, на днях совершенно случайно выяснилось, что сайт перестал индексироваться Яндексом.

Нельзя сказать, что у этого проекта был, есть или предполагается какой-то ощутимый приток посетителей из поисковых систем, но пропажа из индекса удивила.

В ходе переписки со службой поддержки я получила два письма по стандартным шаблонам, которыми они, судя по всему, отвечают владельцам спамовых и мусорных сайтов. Со ссылками на правила (про сео-ссылки, поисковый спам, рекламу, нечестные приёмы, поп-ап баннеры и прочее), которые мною, конечно же, никогда не нарушались.
Читать дальше →
Всего голосов 103: ↑80 и ↓23 +57
Просмотры 462
Комментарии 230

Видео с пользовательской конференции по Sphinx (~8часов)

Высокая производительность *
Поскольку новость не пробежала на Хабре, но однозначно (с) будет интересна многим:

«Видео с пользовательской конференции по Sphinx (~8часов)
http://devconf.tv/user/sphinx».
Всего голосов 26: ↑23 и ↓3 +20
Просмотры 916
Комментарии 9

Ссылки на домены РФ

Хостинг
Прошу прощения, если для вас это не новость, но для меня стало сюрпризом. Сегодня получил ответ от «Платона» (службы техподдержки Яндекса) на вопрос, почему у одного моего сайта не засчитываются внешние ссылки, когда они есть. Ответ — Яндекс не понимает ссылки вида

<a href="http://мой-замечательный-сайт.рф">мой замечательный сайт</a>

Нужно писать

<a href="http://xn--5--6kefc8eacisehw44fjon5aig7i.xn--p1ai">мой замечательный сайт</a>

Что-то как-то долго наш поисковик номер один реагирует (это, впрочем, точно ни для кого не новость). Боюсь, переходу рунета на русские домены это весьма и весьма мешает.

UPDATE
Только что получил ещё одно письмо от какого-то другого «Платона». Цитирую:
«Приношу свои извинения за некорректный ответ в предыдущем письме. Проблем с индексированием кириллических ссылок доменов в зоне.рф возникать не должно. Мы проверим, по какой причине внешние ссылки не учитываются для Вашего сайта, и сделаем все возможное, чтобы ее устранить.»
Всего голосов 19: ↑9 и ↓10 -1
Просмотры 2.4K
Комментарии 11

Почему находится всё: ответ Яндексу от разработчиков Shop-Script

Блог компании Webasyst
Мы являемся разработчиками скрипта интернет-магазина Shop-Script, который волей-неволей стал замешан во вчерашней истории о том, что Яндекс проиндексировал приватные данные покупателей многих интернет-магазинов. В статье шла речь о магазинах, работающих на основе движка Shop-Script. Я понимаю, что могу получить много гневной критики от тех, кто считает, что вина полностью на разработчике движка, однако, считаю необходимым отразить нашу позицию и постараюсь объективно описать, что произошло, обсудить возможные решения.

Вчера, конечно, было неожиданностью узнать о сложившейся ситуации. Первое, что мы сделали — это проверили, все ли магазины подвержены такой проблеме. Оказалось, что далеко не все. Было преподложение, что проблема может быть в магазинах, которые установили какой-нибудь плагин или сторонний серверный модуль. Но оказалось, что дело и не в этом. Все магазины, у которых страницы с приватными данными клиентов появились в результатах поиска Яндекса, объединяло одно — установленный код Яндекс.Метрики. В точности, как и в недавнем случае с «Мегафоном».

Далее — о том, откуда взялись ссылки на приватные страницы, и как они могли попасть в индекс Яндекса, масштабности проблемы и возможных решениях.
Читать дальше →
Всего голосов 211: ↑155 и ↓56 +99
Просмотры 46K
Комментарии 520

Яндекс добавил опцию запрета индексации для Метрики

Чулан
Теперь можно запретить передачу URLов, которые проходят через Метрику.
У меня сложилось ощущение, что сделано это совсем недавно.
Или я ошибаюсь?

Подробнее тут
Всего голосов 47: ↑42 и ↓5 +37
Просмотры 600
Комментарии 66

Парадигма секретной ссылки

Блог компании NetCat
Последние несколько дней Рунет захлестнула новая забава: комментирование утечек конфиденциальных данных. Конспирологи уже придумали массу теорий. Тут и вредоносная деятельность Яндекса, ничем не чурающегося в расширении поискового индекса. И целенаправленная подготовка общества к сбору больших денег при помощи закона 152-ФЗ. И происки злобных конкурентов (особенно актуально в контексте РЖД). Ну и конечно же хакеры, переключившиеся с американского Минобороны и Мастеркарда на более серьезного противника — российские секс-шопы. Реальность же с вероятностью 99% гораздо более прозаична. Но это не так интересно, как выводы, которые сделают для себя заинтересованные стороны: поисковые системы, разработчики CMS и сайтов и сами владельцы этих сайтов.
Читать дальше →
Всего голосов 98: ↑52 и ↓46 +6
Просмотры 23K
Комментарии 55

Googlebot начал делать POST-запросы через Ajax

Поисковые технологии *
Поисковый краулер Google постоянно улучшается, чтобы получить доступ к относительно закрытым частям сайтов. В 2008 году Googlebot начал сабмиттить GET-формы, а нынешним летом — исполнять JavaScript. Сейчас дошло дело и до передачи данных серверу методом POST.

Веб-мастер сайта thumbtack.com демонстрирует примеры таких запросов в логах Apache за сентябрь-октябрь 2011 года.
Читать дальше →
Всего голосов 53: ↑45 и ↓8 +37
Просмотры 2.7K
Комментарии 58

Система поисковой индексации в Evernote

Блог компании Evernote
Система индексации в Evernote разработана для расширения поисковых возможностей Evernote и обеспечения поиска по медиафайлам. Ее задача — исследовать содержимое этих файлов и сделать любую обнаруженную в них текстовую информацию доступной для поиска. В настоящее время она обрабатывает изображения и файлы PDF, а также «цифровые чернила» (digital ink), но в планах у нас есть поддержка индексирования и других типов медиафайлов. Полученный индекс выводится в виде документа XML или PDF и содержит распознанные слова, альтернативные варианты распознавания, а также координаты найденных слов в документе (для последующей подсветки).
Читать дальше →
Всего голосов 15: ↑13 и ↓2 +11
Просмотры 4.8K
Комментарии 4