Если вы хоть раз имели дело с заказом текстов для сайта, то знаете, как это может быть мучительно больно. И нет, мы даже не про долгие часы написания ТЗ (что делает любой нормальный контент-менеджер или SEO-специалист) и не про упоминание в них важной дополнительной информации, которую нужно отразить в текстах (что делают крутые специалисты).
Мы про результаты, которые присылают копирайтеры, особенно если это недорогие копирайтеры с биржи. В лучшем случае вы получаете рерайт первого же текста из выдачи, а в худшем – фактические и грамматические ошибки и столько воды, что позавидовал бы Ниагарский водопад.
Конечно, бывают исключения как среди копирайтеров, которые пишут хорошо и недорого, так и среди контент-менеджеров, которые, скажем так, не принимают близко к сердцу качество текстов. Если вы понимаете, о чём мы. Но это всё компромиссы, которые в конечном счёте могут стоить больших затрат, потому что пользователь ошибок не прощает. А в условиях роста онлайн-торговли требуется всё больше товарных описаний.
Мы подумали, что было бы здорово создать универсального умного «сотрудника», пишущего на любые темы за считанные секунды и желательно бесплатно. И поскольку в Сбере всё активнее используются сервисы на основе ИИ и машинного обучения, мы решили применить их и для этой задачи.
В сентябре вышел совместный проект Sber AI и CopyMonkey.ai – AI-копирайтер на основе искусственного интеллекта, который за секунды генерирует уникальные товарные описания для интернет-магазинов и маркетплейсов. В основе лежит языковая модель ruGPT-3.
В этой статье мы представим нашего нового «коллегу» (а может, и вашего, кто знает?) и расскажем, чем он может быть лучше копирайтеров с биржи.
Hard и soft skills
AI-копирайтер умеет генерировать короткие тексты, подходящие для наполнения товарных страниц, на основании наименования товара и параметров, которые нужно упомянуть в тексте.
Анализируя введённые параметры и «вспоминая» примеры текстов, на которых она обучена, генеративная модель использует их в подходящем контексте.
Параметрами могут быть как точные технические характеристики товара (например, разрешение, мощность, максимальная скорость, операционная система и пр.), так и просто эпитеты, важные для понимания того, как товар выглядит или используется (например, увлажняющий, антивозрастной, быстрый, мощный и др.).
Специалисту, который будет работать с AI-копирайтером, нужно иметь под рукой всего 3 вещи:
список товаров, для которых требуются описания;
перечень значимых параметров, упоминание которых он хочет видеть в текстах;
немного здравого смысла и насмотренности, чтобы проверить итоги генерации.

На частичную и полную занятость
AI-копирайтера можно привлекать и для единичных задач, и для постоянного наполнения товарных страниц.
В первом случае подойдёт стандартная бесплатная версия, доступная тут. Она умеет создавать три варианта текста на основе наименования товара и ввода его параметров, которые заказчик хочет отобразить в тексте.
Если же текстов требуется много, то можно приобрести расширенную версию от CopyMonkey.ai. Она имеет больше возможностей:
интеграция с CMS;
массовая загрузка товаров файлами для экономии времени;
поддержка разных языков для магазинов, работающих на иностранную аудиторию.
Активность, коммуникабельность, быстрая обучаемость
Наш универсальный специалист имеет надёжный бэкграунд и широкий профиль.
В основе системы лежит модель ruGPT-3, созданная командами Sber AI, SberDevices и SberCloud. Мы дообучили её на сотнях тысяч товарных описаний с крупных российских маркетплейсов, поскольку на них собрано множество товаров из разных категорий, а сами описания достаточно качественные. Одной из наших целей было покрыть как можно больше тематик, чтобы практически любой интернет-магазин в России мог обратиться за помощью к AI-копирайтеру.
Собранные описания мы очистили от повторов, привели к единому формату и добавили токены.
Затем команда Sber AI дообучила на этих данных три генеративные модели:
ruGPT3-medium (356 млн параметров);
ruGPT3-large (760 млн параметров);
ruGPT3-XL (1,3 млрд параметров).
«Зачем столько?» – спросите вы. Грубо говоря, каждая из моделей имеет свою специфику и развивается по собственному пути: одна лучше работает с большим спектром тем, а другая больше подходит под узкоспециализированное обучение под конкретную тематику. В следующем блоке мы расскажем, какой из моделей в итоге мы отдали предпочтение, поэтому читайте до конца.
Также во время тестирования мы меняли ключевые параметры авторегрессионных генеративных моделей и смотрели, что получится. Например, можно ограничивать длину текстов или штрафовать модель за повторы.
Для генерации можно использовать несколько алгоритмов:
обычный жадный алгоритм (greedy algorithm);
сэмплинги top-k, top-p;
beam search.
При использовании каждого из них сгенерированные тексты отличаются. Наши эксперименты показали, что при варианте с Nucleus sampling (top-p) тексты описания в среднем получаются более красочными, в них встречается больше маркетинговых оборотов и описательных конструкций. Однако модель так увлекается, что может придумывать несуществующие характеристики.
Результаты Beam search получались менее красивыми и разнообразными, но в большей степени держались в русле заданной темы и выглядели более связными и целостными.
Ниже представлен пример генерации маркетингового описания для одного и того же товара – патчей для глаз.
Beam search | Nucleus sampling |
Патчи для глаз с 24-каратным золотом и гиалуроновой кислотой обеспечивают антивозрастной уход за кожей вокруг глаз. Золото — это биологически активный ингредиент, обладающий омолаживающими свойствами. Оно стимулирует выработку коллагена и эластина, повышает упругость и эластичность кожи, разглаживает морщинки и осветляет пигментацию. Гиалуроновая кислота глубоко увлажняет и питает кожу, устраняет сухость и шелушения, возвращает коже тонус и упругость. Патчи пропитаны высококонцентрированной эссенцией, которая легко наносится и быстро впитывается в кожу. Тонкий фарфоровый аппликатор обеспечивает точную дозировку средства, что позволяет добиться выраженного омолаживающего эффекта. Патчи подходят для всех типов кожи, но особенно рекомендуются для тонкой, увядающей и усталой кожи. В упаковке 60 патчей, упакованных в индивидуальные коробочки. | Инновационная технология производства с точностью повторяет биологические процессы, происходящие в процессе производства драгоценного фарфора. Благодаря этому патчи эффективно увлажняют и разглаживают кожу, способствуют её восстановлению и антивозрастному уходу. Патчи HOUMAI 24К Gold Essence с 24-каратным золотом мгновенно подтягивают кожу, делают её более гладкой, упругой и увлажнённой. Патчи HOUMAI 24К Gold Essence с частицами золота интенсивно питают, увлажняют, тонизируют, устраняют следы усталости, освежают и подтягивают кожу. Тонкая фарфоровая оболочка патчей не даёт им сползать с кожи, обеспечивая эффект усталой кожи. Эффект от использования патчей HOUMAI 24К Gold Essence сравним с эффектом от применения омолаживающих масок. Патчи HOUMAI 24К Gold Essence с частицами золота можно использовать в качестве основы под макияж, наносить на зоны вокруг глаз. Золото, входящее в состав, повышает упругость и эластичность кожи, омолаживает и разглаживает морщины. Золото проникает глубоко в кожу и восстанавливает биологические функции клеток, обладает отбеливающим эффектом, борется с пигментацией. В состав патчей также входят частицы серебра, которые улучшают цвет кожи, препятствуя её старению. Для достижения максимального результата рекомендуется использовать каждую патч пару отдельно. |
Думаем, вы заметили, что описание во второй колонке намного более художественное, чем в первой.
Молодой и дружный коллектив
Перед допуском к рабочим задачам мы, конечно, жёстко аттестовали «новичка». На помощь пришли коллеги – профессиональные копирайтеры. Они входили в асессорскую группу и оценивали результаты работы AI-копирайтера.
Для проверки им предоставили несколько вариантов генерации для различных групп товаров. А именно по три текста на каждую комбинацию «модель + параметры». Среди этих вариантов они выбрали лучшие с точки зрения смысловой нагрузки, стиля, грамматики и присутствия ключевых характеристик. Модели, отвечающие за лучшие генерации, сейчас и используются в сервисе.
По результатам асессорской оценки лучше всего показала себя модель ruGPT-3-large. Это не самая «тяжеловесная» модель из семейства ruGPT-3, но именно она оказалась оптимальной для создания товарных описаний внутри заданной тематики: как с точки зрения семантики текста и способности не отходить от темы, так и с точки зрения деплоя и real-time генерации.
Если нет возможности дообучить модель на данных конкретной тематики, то для широкого спектра тем хорошо проявляет себя модель ruGPT-3-XL. Она училась на самом большом количестве текстов, её перплексия самая низкая.
Всё ли так гладко?
Новичок он для того и новичок, чтобы сделать все возможные ошибки на испытательном сроке, а не на рабочих задачах.
В сгенерированных с помощью ИИ товарных описаниях людям обычно бросаются в глаза следующие неточности:
фактические ошибки и отклонение от темы. Например, упоминание платья в тексте про шампунь или информация одновременно и о длинном, и о коротком рукаве в тексте про одно и то же худи;
опечатки, орфографические и пунктуационные ошибки. Неправильно написанные слова и не там поставленные знаки препинания;
стилистические ошибки. Употребление в текстах одного стиля слов из другого, повторы слов, тавтология, нарушение лексической сочетаемости слов.
Совершал ли AI-копирайтер эти ошибки на своём испытательном сроке? А то! И мы, как мудрые тимлиды, радовались каждой из них, чтобы на них научить нашего «новичка» работать правильно.
Мы целенаправленно снижали количество возможных ошибок всех этих типов:
брали в качестве исходных данных авторитетные крупные маркетплейсы, текстам на которых можно доверять;
по итогам десятков тысяч генераций выбирали наилучшие результаты и дорабатывали модели;
привлекали к оценке профессиональных копирайтеров.
Ошибается ли он сейчас? Такое изредка случается. Но доля генераций с ошибками стала значительно меньше общего количества генераций. И серьёзность этих ошибок сильно снизилась по сравнению с тестами.
Итак, чем же наш боец отличается от аналогичных систем:
Сгенерированные тексты корректны с точки зрения русского языка и фактов;
система непрерывно обучается, повышая качество выдаваемых текстов;
в редких случаях встречаются неожиданные смешные генерации, которыми можно поделиться с друзьями. Скорее всего, при повторном запросе неточность пропадёт.
Ниже мы привели примеры генераций из разных тематик.



Варианты карьерного роста
Конечно, наш AI-сотрудник не всегда будет работать в одной и той же должности. Он прокачает скиллы и, возможно, захочет проявить себя в других сферах.
Например, на его основе можно кастомизировать чат-боты, обучая их грамотно и полно отвечать на запросы, связанные со спецификой конкретной компании. Он может помогать писать скрипты для колл-центров. В будущем подразделение Sber AI планирует обучать мультимодальные и мультитасковые модели для генерации не только текстов, но и изображений, видео, аудио и других форматов.
Мы были рады познакомить вас с нашим AI-копирайтером и даже на минутку сами представили, что он живой. Спасибо, что прочитали!