Pull to refresh

Comments 13

Хорошее замечание! Тональность действительно может меняться при переводе. В статье я рассматривала общий принцип, но комментарий отлично дополняет тему, в сложных случаях действительно надо учитывать такие нюансы)

Вот кстати да.

Вот у нас комментарий вида - It will be interesting when China congratulates London on following in China's(and Russia's) footsteps and using China's advanced experience in creating a managed democracy. :) - у него какая тональность? А если смайлик убрать? А если знать что в /r/StallmanWasRight комментарий?

А если пост на банки ру - благодарит банк за поддержку трансгендеров в это непростое время не смотря на законы России в этом плане (и в тексте - пользователь благодарит банк за совершенно нормальное отншение к ситуации когда их клиент о котором банк знает что это Василиса Прекрасная и по голосу - женщина внезапно говорит что оно - Павел Гераскин с мужским голосом)?

где респонденты ставят оценку от 0 до 10.

Это слишком длинный диапазон, поэтому будут большие скачки влево-вправо при оценивании.

Максимум 5 пунктов, оптимально 3-4.

Да, шкала конечно влияет на оценки. В статье я скорее о том, как анализировать уже полученные данные, а не о выборе идеального формата. Но да, согласна - если шкала слишком длинная, это действительно может добавить шума

А не проще ли, работать с отзывами на языке оригинала, а потом уже делать манипуляции. Заодно и срез по языковой группе, что в некоторых случаях может быть даже интересно.

Теоретически да, просто ответ LLMки на языке оригинала тяжелее проверять. Например вот такой отзыв если ты не знаешь испанского – он какой тональности?
"¡Tienen una comida brutal, de chuparse los dedos! Por las noches caemos seguido en su restaurante."

В целом ни как. Но, мы можем вначале заставить его оценить отзыв на языке оригинала, а потом уже на другом шаге сделать перевод. И постепенно файтюнить модель, показывая где он прав а где ошибся.

Интересно, вы фильтруете фейковые отзывы? При большом количестве, возможно, есть какие то особенности в них.

ух, фильтрация фейков – это отдельная задача, там надо не только на текст смотреть, но и на время публикации, мб IP отправителя, возраст аккаунта и кучу еще всего. У нас было пару таких подходов, но это отдельная большая тема

Связываемся с недовольными пользователями, чтобы устранить их проблемы.

Примерно как Ростелеком на все посты с просьбой написать в ВК им? Или как большинство банков на банки ру/vc и прочих пикабу у кого "а это не мы были а с чего вы решили что мы - нам пофиг"(притом что записи даже есть что таки они)/"у нас все по закону"(а то что получается бред, часто еще и игнорирующий законы - ну и что).

Хуже только типа-интеллектуальные чатботы которые сначала доведут человека ответами НЕ по теме, а потом или оператор удивляется почему его только что не матом или уже этому удивляется сотрудник в офисе.

Sign up to leave a comment.

Articles