1. Постараемся сегодня-завтра собрать список лучших сайтов и тут отпишемся.
2. Окончания срезаются.
3. Строка будет токенизирована на слова, поиск будет происходить по словам. Поддержку поиска по фразе в кавычках улучшим чуть позже.
Если подразумевается ajax-сайт, то индексация suggest.io работает по этой спеке гугла путем конверсии ajax-ссылок типа http://host.ru/rsc#!a=b в http://host.ru/rsc?_escaped_fragment_=a=b.
Обычно на таких сайтах главная страница тоже аякснутая (т.е. неиндексируемая «в лоб»), поэтому админу нужно ещё sitemap.xml для таких ссылок создать и прописать его в robots.txt. В общем, всё тоже самое, что и для гугла.
2. Окончания срезаются.
3. Строка будет токенизирована на слова, поиск будет происходить по словам. Поддержку поиска по фразе в кавычках улучшим чуть позже.
http://host.ru/rsc#!a=b
вhttp://host.ru/rsc?_escaped_fragment_=a=b
.Обычно на таких сайтах главная страница тоже аякснутая (т.е. неиндексируемая «в лоб»), поэтому админу нужно ещё
sitemap.xml
для таких ссылок создать и прописать его вrobots.txt
. В общем, всё тоже самое, что и для гугла.Лимита на количество страниц пока нет.
#!
? Или что имеется в виду под генерацией страниц?Можно через robots.txt
Crawl-Delay
дляUser-Agent: suggest.io/crawler
илиUser-agent: *
В robots.txt так же поддерживаются стандартные директивы и яндексовский Clean-Param.