Pull to refresh

Comments 4

Из подхода, в частности, Яндекса к NLP явно просматривается тенденция на качественный учет языковой токсичности, каверканности, ошибок и новых словообразований - типа сленга, региональных и культурных особенностей социальных или иных групп.

Насколько я понимаю, динамика роста токсичного, неточного и сленгового контента кратно превышает объем качественного, классического, издательского и литературного. Более того, цифровые данные из точек возникновения кислотного, неточного и сленгового контента более интересны коммерческим структурам, чем классические.

Поэтому, как мне кажется, заявленная в статье направленность на исправление ситуации, через генерацию более качественного контента на основе обучения на классических текстах, не имеет перспектив. Это уже сейчас понятно на том, чему так быстро учатся популяные голосовые помощники в реальной жизни - мат, сленг, перемешка русских и английских слов, каверкание фраз и т.д.

Идея дополнительной предварительной разметки, на мой взгляд, очень сильно удорожит и замедлит процесс получения и обновления обучающих выборок, что так же не сильно соответствует трендам крупных игроков на рынке.

Скажем так, многие ждут качественных переводчиков на другие языки в режиме разговора, т.е. не on-line, а real-time. Я не представляю живучести такой системы в условиях, когда каждая новая тематика будет появляться не чаще, чем раз в 6-8 месяцев, обновляться для совершенствования не чаще раза в 1-2 месяца и стоить при этом более 100 баксов в мес по подписке (все цифры просто из головы - как границы личного раздражения).

Но затраты на создание и сопровождение графа знаний намекают на то, что туда это примерно и будет двигаться...

цифровые данные из точек возникновения кислотного, неточного и сленгового контента более интересны коммерческим структурам, чем классические.

зачем им этот мусор? дай бог научится с правильным текстом работать норм, а потом уже, бесясь с жиру, можно хоть на пингвиний.

Это не вопрос - зачем, это вопрос, как верно обрабатывать, потому что именно из постов и профилей в тех самых кислотных, матных, мусорных и сленговых социальных сетях максимум информации о потенциальных потребителях и их интересах.

Яндекс уже ощутил разницу между классикой и реальностью https://habr.com/ru/company/yandex/blog/568672/

Литературно генерить по набору слов гугловский T5 действительно умеет неплохо. Я использовал русскоязычную версию: https://huggingface.co/cointegrated/rut5-small-normalizer

Правда на отдельную значимую работу такой корпус ИМХО не особо тянет)

Sign up to leave a comment.

Articles