Сравнение сервисов автоматической кластеризации ключевых слов для SEO / Хабр

В небольшом SEO-отделе большого контентного проекта, где я работаю, решили увеличить штат. Набирать планировалось людей с небольшим опытом или совсем без опыта. По этой причине было решено создать некий гайд, который бы служил исчерпывающим руководством по написанию новых статей. Руководство получилось действительно подробным и полным, один из его важных блоков – это кластеризация запросов.

Зачем нужны сервисы кластеризации?

В один кластер должны быть объединены только такие запросы, которые имеют хорошие шансы выйти в топ-10 поисковых систем с общей релевантной страницей. То есть, если по двум запросам в выдаче все страницы сайтов разные и нет пересечений, то следует относить их к разным кластерам. Также и наоборот: если два запроса возможно продвинуть на одной статье, то не следует разносить их на разные кластеры, чтобы не писать лишнего – бюджет на контент не резиновый.

Общая схема составления ТЗ на написание SEO-статьи следующая:

Сбор семантики – статистика поисковых систем, базы семантики, внутренняя статистика проекта;
Кластеризация автоматическая – сервис или программа для кластеризации по подобию топов;
«Посткластеризация» ручная – обработка того что не удалось кластеризовать автоматически;
Приоритезация – определение важности полученных запросов в каждом кластере;
Оформление ТЗ для копирайтера – лемматизация, LSI и различные указания для написания статей, по статье на каждый кластер.

Вот именно для второго пункта нужно было выбрать самый подходящий сервис автоматической кластеризации. Для этой цели я провел сравнительный анализ самых известных, на мой взгляд, сервисов.

Способы кластеризации

Из способов, которые автоматизированы в каких-то известных сервисах или программах, можно выделить два:

По подобию топов (по поисковой выдаче);
По похожести слов.

Исходя из задачи – написание SEO-статей, был выбран метод по подобию топов. Поисковая система на трафик с которой мы ориентируемся – Яндекс, поэтому для кластеризации использовался топ-10 Яндекса. У данного метода есть два вида:

Soft – когда все запросы кластера связаны хотя бы с одним общим (маркерным) запросом;
Hard – когда каждый запрос связан со всеми запросами в своем кластере;

а также такой параметр как «сила связи» – количество общих URL в поисковой выдаче по запросам.

По рекомендациям создателей сервисов кластеризации для нашего случая был выбран вариант Soft с силой связи 4. Это важный момент, потому что для интернет-магазина, например, следовало бы выбирать другие опции.

Методика сравнения

Суть сравнения сервисов в следующем: выбрать идеально кластеризованный список запросов – эталонное ядро. Сравнить результаты кластеризации каждого сервиса с эталонным.

Важно было хорошо составить такое эталонное ядро. Поскольку у нас контентный проект и большая часть контента – это вопросы и ответы пользователей, то материала для сбора статистики по проекту предостаточно.

Было взято ядро на 2500+ ключевых фраз, которое отслеживается уже много месяцев. Из него выбраны только запросы вышедшие в топ-5 Яндекса. И из них взяты только те которые имеют релевантной страницу одного из широких разделов (категория вопроса, тема вопроса, категория документа, страница с формой «задать вопрос»), а не узкую страницу вопроса с ответами. Запросы были сгруппированы по релевантной странице. Оставлены только группы в которых более чем 4 запроса. В итоге получилось 292 запроса разбитых на 22 кластера.

Забегая вперед скажу, что сравнивались результаты кластеризации по Московской выдаче Яндекса и без геопривязки. Региональная московская выдача показала себя лучше, поэтому далее будем говорить про нее.

Сравнение сервисов

В поиске самых популярных сервисов очень помог доклад Александра Ожгибесова на BDD-2017, к тем, что у него было добавлено еще несколько сервисов, получился такой список:

Топвизор
Pixelplus
Serpstat
Rush Analytics
Just Magic
Key Collector
MindSerp
Semparser
KeyAssort
coolakov.ru

Первое на что проверялись полученные в результате кластеризации эталонного ядра по этим сервисам группы – это не делает ли сервис слишком широкие группы. А именно не попали ли запросы из разных групп эталонного ядра в один кластер по версии сервиса.

Но только такого сравнения не достаточно. Сервисы делятся на два подхода к некластеризованному остатку фраз:

сделать для них общую группу «Некластеризованные»;
сделать для каждой некластеризованной фразы группу из нее одной.

По причине п.2 появилась необходимость смотреть на количество фраз, которые находятся в одной группе эталонного ядра и попали в разные по сервисам.

В сравнении я использовал оба этих параметра в виде соотношения – какой процент фраз от общего количества попал не в свою группу.

Результаты сравнения:

Топвизор
- разные группы эталона в одной по сервису – 4%
- одна группа эталона в разных по сервису – 7%
Pixelplus
- разные группы эталона в одной по сервису – 0%
- одна группа эталона в разных по сервису – 7%
Serpstat
- разные группы эталона в одной по сервису – 0%
- одна группа эталона в разных по сервису – 3%
Rush Analytics (132 фразы, demo)
- разные группы эталона в одной по сервису – 11%
- одна группа эталона в разных по сервису – 8%
Just Magic
- разные группы эталона в одной по сервису – 0%
- одна группа эталона в разных по сервису – 9%
Key Collector
- разные группы эталона в одной по сервису – 12%
- одна группа эталона в разных по сервису – 16%
MindSerp – не удалось получить демо, не выходят на связь
Semparser
- разные группы эталона в одной по сервису – 1%
- одна группа эталона в разных по сервису – 3%
KeyAssort
- разные группы эталона в одной по сервису – 1%
- одна группа эталона в разных по сервису – 1%
coolakov.ru
- разные группы эталона в одной по сервису – 0%
- одна группа эталона в разных по сервису – 18%

Итоги

В качестве оптимального решения для нашего проекта была выбрана программа KeyAssort – это именно программа, а не онлайн-сервис, лицензия покупается однократно, привязывается к железу.

Неплохие результаты показал популярный онлайн сервис Serpstat, но для нашего случая чуть хуже, а также значительно дороже. Если брать большие объемы запросов в месяц и использовать его только для кластеризации – он не рентабелен. Возможно, если использовать кластеризатор вместе с другими его инструментами, то он и окажется приемлемым по цене.

Самые худшие показатели у программы Key Collector, что все равно не отменяет необходимость ее иметь в своем арсенале для любого сеошника.

Очень удивил сервис MindSerp, через сайт которого я так и не смог получить никакой обратной связи по поводу демо. Если представители этого сервиса прочитают статью, может быть я добавлю в сравнение и его)