Всем привет! Я занимаюсь NLP в сфере Data Science и хочу поделиться результатами разработки Telegram-бота, у которого под капотом уже 15 нейросетей. Речь идёт о TurboText_bot. Он будет полезен всем, кто причастен к созданию контента. К таким можно отнести блогеров, журналистов, копирайтеров и многих других специалистов.. Даже бабушек у подъезда, ведь бот способен генерировать и обрабатывать новости.

Что удалось реализовать?

  • Генерация (рерайт текста, создание заголовков, текстов, отзывов и описаний к товарам);

  • классификация (определение стиля речи, кликбейта, позитивности); 

  • регрессия (прогноз % привлекательности заголовка, кликбейта статьи);

  • кластеризация (группировка новостей по жанрам, семантической близости для вывода трендов).

Ещё внутри есть антиплагиат для проверки уникальности текстов, SEO-анализ и анализ трендов в поисковиках (Яндекс, Google).

Ох, сколько же сайтов в СМИ мы спасли от блокировок и понижения рейтингов в поисковиках Яндекс и Google за не уникальный контент. Со временем каждый ощущал “выгорание”, а нейросети давали глоток новых идей для креативных заголовков, текстов, отзывов и описаний к товарам в маркетплейсах и прочее.

На обучение всех нейросетей для бота ушло больше года. На разработку самого бота - около 4 месяцев. И всё для того, чтобы вы за пару секунд могли создать тексты, которые будут залетать в ТОП-ы.

Нейросеть в боте создает заголовки такого же уровня как Lenta.ru

С чего всё началось?

6 лет назад, будучи студентом, я пришёл на подработку копирайтером. Затем это переросло в журналистику и редактуру. Так в сфере контент-менеджмента я провёл 4 года. Со временем в компании возник спрос на специалистов в сфере Data Science, чтобы помочь авторам текстов делать кликабельнее заголовки, а статьи писать без кликбейта. Имея за плечами как технический бэкграунд инженера, так и гуманитарный журналиста, согласился и понеслось.

Почему возник спрос для СМИ? С 2019 года Google в свои алгоритмы внедряет BERT, а Яндекс начинает обучать “трансформеры”. Новые разработки стали массово банить авторов некачественного контента и возник спрос на понимание, как это работает и как нейросетям существовать в тандеме с авторами. Так я и начал обучаться в Яндекс.Практикум на курсе Data Science и погружался в направление Natural Language Processing (NLP).

Достаточно отправить фото боту и он пришлет 2 варианта описания к товару всего за 3-10 секунд. Незаменимый помощник для тех, кто работает в маркетплейсах

Первыми задачами на пути стало прогнозирование % дочитываемости текстов (т.е. какой % читателей долистают статью до конца) и прогноз % привлекательности заголовка (предсказание CTR, чтобы повысить долю кликов среди просмотров статьи в ленте). Затем мы решили помочь избавиться от кликбейта в статьях, получив модель, определяющую кликбейты в СМИ с точностью 93%.

Когда в компании увидели спрос на такие нейросети, то взялись за генеративные модели. Так появились создатели заголовков, текстов, рерайтов, отзывов и описаний к товару.

Кому поможет бот?

Журналистам, блогерам, фрилансерам, SEO-специалистам, работникам маркетплейсов. Пользователям достаточно выбрать задачу в боте и следовать инструкциям. Для удобства меню поделено на 3 части - создатели, проверки и аналитика.

За 3 секунды бот сгенерировал рерайт с уникальностью 69%. Осталось подправить фамилию, пару слов и копирайтер может уже заработать от 30 рублей за текст, не прикладывая усилий

Базово доступно 3 попытки в каждом режиме бесплатно (45 всего) и после можно купить PRO-аккаунт, где будет по 30 попыток (450 всего) за 100 рублей или $2. Для сравнения: даже если будете пользоваться только антиплагиатом, то использование выйдет более чем в 5 раз дешевле, чем на Текст.Ру или Адвего.

У нас есть контент-биржа TurboText c 10-летней историей работы с заказчиками текстов и исполнителями. Мы на одной волне с каждым из них и идем в ногу с трендами в мире искусственного интеллекта, поэтому Telegram-бот и стал новым шагом в развитии проекта.

Технические особенности

Бот написан на aiogram, чтобы запросы обрабатывались асинхронно, подключена база данных PostgreSQL и платежные системы, чтобы всё было по-взрослому.

Под капотом бота лежат нейросети на базе ruGPT-3, ruT5, BERT, ROBERT, CLIP. Для решения задачи генерации отзывов и описаний к товару по фото используются ансамбли из нескольких моделей.

Пример, как с помощью ансамбля нейросетей получили генерацию отзыва по фото

Для обучения использовалась своя база данных со статьями на более чем 1 млн пар текстов разного стиля (в основном художественный и публицистический) и свыше 1 млн изображений товаров для обучения нейросетей генерации отзывов и описаний. 

Бот продолжает совершенствоваться и в будущем сможет создавать не только рерайты, но и гуглить новую информацию в интернете для написания аналитических статей. Человек способен на большее, чем просто перефразировать тексты и проводить анализ трендов в СМИ. Эту задачу мы оставляем за помощником авторов - нейросетями. Авторы с помощью бота могут довериться новым технологиям, продолжить совершенствоваться и писать ещё круче тексты без кликбейта и фейков.

Всем спасибо за внимание! Жду вопросы и фидбэк :-)