Как в Нью-Йорк таймс тестируют заголовки статей / Хабр

Нью-Йорк таймс – дело нешуточное. Как они сами заявляют своим рекламодателям, Нью-Йорк таймс – это новостной ресурс номер один для богатых молодых идейных лидеров.

Вместе с тем, это издание редко привлекает пристальное внимание в отличие от, скажем, Fox News. И на то есть основания! Fox News – это театр абсурда с клоунами, и они полностью заслуживают всей критики, которой подвергаются.

Но меня всё-таки разбирает любопытство по отношению к Нью-Йорк таймс. Они представляют окружающий мир в определённом свете, и их видение (по крайнее мере, в моих кругах), хотя с ним можно соглашаться или не соглашаться, воспринимается как нечто принятое по умолчанию.

Мне захотелось подробнее изучить это видение. Поэтому в течение следующих нескольких недель я опубликую серию статей, посвященных Нью-Йорк таймс, с анализом данных, собранных с главной страницы их сайта при помощи веб-скрейпинга, а также из официального API. В первой статье речь пойдёт только и исключительно о A/B тестировании: как Нью-Йорк таймс тестирует заголовки статей и как они меняются с течением времени.

A/B тестирование и Нью-Йорк таймс

Слушайте, ну на дворе 2021 год, я скорее бы был в шоке, если бы выяснилось, что Нью-Йорк таймс никак не тестирует заголовки. Да они и сами об этом прямым текстом говорят:

«Кроме того, Таймс практикует то, что называют A/B тестированием в отношении цифровых версий заголовков для материалов на главной странице: в течение приблизительно получаса для половины читателей отображается один заголовок, а для второй половины – другой, альтернативный. По завершению теста Таймс оставляет тот заголовок, который привлёк больше читателей».

Но у меня всё-таки оставались вопросы:

Какое количество статей проходит через A/B тестирование?
Сколько заголовков перебирается для каждой?
Есть ли от этого толк?
Насколько сильно различаются заголовки?

Методология

Я написал скрипт, который выполняет следующие действия:

Проводит скрейпинг на главной странице сайта Нью-Йорк таймс.
Вытягивает из набора данных все заголовки.
Связывает их с метаданными статей, представленными в официальном API Таймс
Запихивает всё в таблицу

Скрипт запускается каждые пять минут. Я начал наблюдение 13 февраля, так что ниже представлены выводы, основанные на данных, которые были собраны за три недели.

Результаты

В полном соответствии со своим заявлением Нью-Йорк таймс действительно проводит A/B тестирование заголовков статей. Где-то у 29% материалов зафиксировано по несколько заголовков. Максимальное количество заголовков, отмеченное у одной статьи, на текущий момент – восемь штук.

Во многих случаях изменения сводятся к незначительным исправлениям: на сайте Нью-Йорк таймс нередко случается, что ошибку в пунктуации или правописании устраняют уже после публикации. А бывает и такое, что копирайтеры будто не могут определиться – с большой буквы писать предлог или с маленькой?

В других случаях Нью-Йорк таймс меняет заголовок по мере того, как поступает свежая информация. Вот вам целая захватывающая история, которая складывается из цепочки заголовков:

SpaceX в тестовом режиме запустит очередной прототип ракеты на Марс (10%)

SpaceX приостановила тестирование прототипа ракеты для полёта на Марс (1%)

SpaceX предпримет новую попытку запустить прототип ракеты на Марс (13%)

Прототип ракеты от SpaceX отправился на Марс, приземлился и взорвался (14%)

Прототип ракеты от SpaceX на этот раз успел приземлиться на Марс до взрыва (24%)

Прототип ракеты от SpaceX на этот раз успевает приземлиться на Марс до взрыва (10%)

Прототип ракеты от SpaceX взорвался, но уже после приземления на Марс (27%)

Но в основной массе изменение заголовков – явно результат A/B тестирования, предпринятого, чтобы собрать больше кликов. Вот, допустим, статья о Байдене и его управленческой политике – у неё заголовок поменялся радикально.

Спокойная речь и масштабная программа (7%)

Байден выступает против Трампа, и это действует (93%)

Единственная цель, которую могут преследовать подобные замены – повысить вовлеченность. И ведь работает! Эта статья вышла в «горячее» уже спустя несколько часов после замены заголовка (и это подтверждает мою гипотезу о том, что либералы обожают почитать что-нибудь про Трампа).

Но не все A/B тесты заканчиваются подобным успехом. Вот пример A/B теста, который явно провалился – возможно, вам придётся напрячь зрение, чтобы различить крохотную синюю точку на красном фоне.

А вы видели, сколько израильтян только что наведались в ОАЭ? (100%)

Иосафат прыгучий! Вы видели, сколько израильтян только что наведались в ОАЭ? (0%)

Надеюсь, эта неудача не расхолодила редактора-чудика, который додумался до Иосафата прыгучего. Чего Нью-Йорк таймс остро не хватает, так это отсылок к мультику про Багза Банни.

Но в целом, в изменениях прослеживается закономерность: с течением временем заголовки, как правило, начинают звучать драматичнее. Взять хотя бы статью о Куомо и скандале, связанном с его сексуальной жизнью:

Куомо подвергается нападкам за свой план по расследованию обвинений в домогательствах (6%)

Осаждаемый нападками, Куомо меняет план по расследованию обвинений в домогательствах (25%)

Осаждаемый обвинениями в домогательствах, Куомо приносит извинения (69%)

После первой замены выясняется, что Куомо не просто терпит нападки, а буквально оказался в осаде, а после второй он резко переходит от простого пересмотра планов к извинениям. Причём тактика сработала: на графиках можно наблюдать, как по мере корректировки заголовка статья поднимается всё выше и выше в рейтинге просмотров.

В статье про выступление Трампа на конференции консерваторов всё оказывается ещё зажигательнее:

Трамп выступает с обращением к консерваторам и планирует возглавить партию республиканцев (3%)

На консервативной конференции Трамп раскрывает планы возглавить партию республиканцев (7%)

Трамп объявляет себя лидером республиканцев в выступлении на консервативной конференции(2%)

На конференции консерваторов Трамп намекает на третий срок и обязуется привести республиканцев к единству (4%)

Трамп обязуется привести республиканцев к единству, затем обвиняет тех, кто поддерживал импичмент (6%)

На консервативной конференции Трамп огласил список жертв из числа республиканцев, и это предупредительный выстрел для всей партии (79%)

Начинается всё с того, что Трамп выступает перед консерваторам и объявляет себя лидером республиканской партии, но к последнему заголовку доходит уже до списков жертв и предупредительных выстрелов. И – кто бы сомневался – за счёт всего этого пафоса статья взлетает и попадает в число «самых читаемых».

Ну и последний пример – нашумевшая статья на основе интервью, которое Меган Маркл дала Опре:

Меган Маркл утверждает, что её жизнь – не сказка, рассказывая о жёстком подавлении свободы и индивидуальности (3%)

Меган утверждает, что её жизнь – не сказка, рассказывая о жёстком подавлении свободы и индивидуальности (1%)

Меган утверждает, что жизнь в королевской семье едва не довела её до самоубийства (80%)

«Мне жить больше не хотелось»: Меган утверждает, что хотела покончить с собой от жизни в роли члена королевской семьи (16%)

Я даже не поленился посмотреть это двухчасовое интервью и могу вам сказать, что первые два заголовка отражают его содержание в разы лучше. Да, Меган действительно признаётся, что у неё возникали мысли о самоубийстве, но это пятиминутная интерлюдия в интервью, где говорилось много чего другого. Например, ни один заголовок не упоминает о том, какое влияние на душевное состояние Меган оказал расизм – а этой теме уделяется намного больше времени, чем суицидальным мыслям.

Есть ли эффект?

Статьи, на которых я останавливался выше, привлекли к себе массу дополнительного внимания благодаря A/B тестам. Но как обстоят дела у других материалов?

Я произвёл подсчёты и установил, что для статей, которые проходят процедуру тестирования, вероятность оказаться в «горячем» возрастает на 80%. Также, что неудивительно, общее число опробованных заголовков коррелирует с повышенной вовлеченностью.

Оговорка: между числом заголовков и вовлеченностью прослеживается корреляция, но что из этого причина, а что следствие – определить затруднительно. На мой взгляд, логично предположить, что чем усиленнее тестируются разные варианты заголовков, тем больше вероятность, что люди будут читать, лайкать или делиться в соцсетях. С другой стороны, вполне возможно, что Нью-Йорк таймс больше времени тратит на доведение до ума статей, которые уже вызвали у публики интерес. Хотя в рамках частных наблюдений должен сказать, что многие статьи, которые я просматривал, прошли через череду заголовков ещё до того, как вышли в лидеры.

Итак, что я узнал?

Нью-Йорк таймс проводит A/B тестирование заголовков, чтобы повысить вовлеченность читателей

Да ты что.

В целом и общем, тестирование применяется не слишком широко

На самом деле, я немного удивлён, что тесты охватывают такое небольшое количество заголовков. Для большей части статей тестирование вообще не применяется, а там, где применяется, как правило, используются только два варианта заголовка.

Я смутно предполагал, что редакторы Нью-Йорк таймс требуют от сотрудников, чтобы все статьи подавались с, ну там, шестью вариантами заголовка, а какая-нибудь автоматизированная система за первый час прогоняет всю эту шестёрку. Но, очевидно, дела обстоят совсем не так, хотя данные указывают на то, что более активное A/B тестирование дало бы больше вовлеченности.

Одно из возможных объяснений: 62% прибыли Нью-Йорк таймс получает от подписок и только 27% — от рекламы (и эта цифра падает с каждым годом). Это значит, что просмотры не так важны, как подписки – а если на главной странице один сплошной кликбейт, потенциальных подписчиков это может отпугнуть.

И всё же в результате появляются заголовки, бьющие по эмоциям

Нью-Йорк таймс, конечно, не опускается до уровня BuzzFeed, но, тем не менее, следует иметь в виду, что и нейтральным их взгляд на вещи назвать нельзя. Как показывают приведённые выше примеры, после A/B тестирования заголовки придают событиям намного более драматичную окраску, чем на самом деле. У тех, кто постоянно читает этот ресурс, может сложиться впечатление, что мир страшнее и непредсказуемее, чем в действительности.

В следующей статье я буду изучать главную страницу сайта Нью-Йорк таймс, а именно:

Сколько времени там висят статьи
Какие из статей там задерживаются, а какие уходят быстро
Какой тип контента чаще всего появляется на главной странице, а какой – реже всего
Как время, проведённое на главной странице, коррелирует с общей вовлеченностью
И прочие занятные вещи.

Данные

Если мой бесплатный EC2 инстанс ещё живой, вы можете сами отслеживать данные по заголовкам в режиме реального времени. Только имейте в виду две вещи: данные представлены начиная с 13 февраля 2021 года и поступают с небольшим отставанием, так как кэш обновляется раз в тридцать минут.

Как в Нью-Йорк таймс тестируют заголовки статей

A/B тестирование и Нью-Йорк таймс

Методология

Результаты

Есть ли эффект?

Итак, что я узнал?

Далее

Данные

Публикации

Информация