Обновить

Комментарии 6

Хорошая статья. У меня тоже была задача классификация отзывов. По сути f-1 score TF-IDF&LogReg и BERT было одинаковой.

Особенно понравился «наивный классификатор»
А так здорово! Это можно много где применять

В такой статье должно быть много примеров. У вас один пример, про арбуз.

Добрый день!

Отвечу: специально не стали вставлять в статью много примеров, так как каждый может придумать для себя их сколько угодно. В статье упоминается один пример — про «не суй свое рыло» vs «продам свиное рыло». Про арбуз — это просто картинка про то, как верхнеуровнево работает BERT.

Приведу здесь еще несколько примеров:

  • «Засорять почву» vs «Засирать урожай»
  • «Продаю козла» vs «Ах ты козел»
  • «Имею в наличии отличный хрен» vs «Ну и хрень этот товар»

и еще много-много других :)

А "наивный классификатор" — просто поиск по словарю точных вхождений, или что-то более сложное?

Да, просто поиск по словарю точных вхождений, все верно. Технически, просто CountVectorizer. Более сложные вещи оставили на разбор нейросетке.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
www.rshbdigital.ru
Дата регистрации
Дата основания
Численность
свыше 10 000 человек
Местоположение
Россия