KELM — внедряя графы знаний в корпус для предварительного обучения языковой модели / Comments / Habr

@avl33 Aug 19 2021 at 06:56

Из подхода, в частности, Яндекса к NLP явно просматривается тенденция на качественный учет языковой токсичности, каверканности, ошибок и новых словообразований - типа сленга, региональных и культурных особенностей социальных или иных групп.

Насколько я понимаю, динамика роста токсичного, неточного и сленгового контента кратно превышает объем качественного, классического, издательского и литературного. Более того, цифровые данные из точек возникновения кислотного, неточного и сленгового контента более интересны коммерческим структурам, чем классические.

Поэтому, как мне кажется, заявленная в статье направленность на исправление ситуации, через генерацию более качественного контента на основе обучения на классических текстах, не имеет перспектив. Это уже сейчас понятно на том, чему так быстро учатся популяные голосовые помощники в реальной жизни - мат, сленг, перемешка русских и английских слов, каверкание фраз и т.д.

Идея дополнительной предварительной разметки, на мой взгляд, очень сильно удорожит и замедлит процесс получения и обновления обучающих выборок, что так же не сильно соответствует трендам крупных игроков на рынке.

Скажем так, многие ждут качественных переводчиков на другие языки в режиме разговора, т.е. не on-line, а real-time. Я не представляю живучести такой системы в условиях, когда каждая новая тематика будет появляться не чаще, чем раз в 6-8 месяцев, обновляться для совершенствования не чаще раза в 1-2 месяца и стоить при этом более 100 баксов в мес по подписке (все цифры просто из головы - как границы личного раздражения).

Но затраты на создание и сопровождение графа знаний намекают на то, что туда это примерно и будет двигаться...

@george3 Aug 19 2021 at 12:00

цифровые данные из точек возникновения кислотного, неточного и сленгового контента более интересны коммерческим структурам, чем классические.

зачем им этот мусор? дай бог научится с правильным текстом работать норм, а потом уже, бесясь с жиру, можно хоть на пингвиний.

@avl33 Aug 19 2021 at 17:12

Это не вопрос - зачем, это вопрос, как верно обрабатывать, потому что именно из постов и профилей в тех самых кислотных, матных, мусорных и сленговых социальных сетях максимум информации о потенциальных потребителях и их интересах.

Яндекс уже ощутил разницу между классикой и реальностью https://habr.com/ru/company/yandex/blog/568672/

@kitaisky Aug 19 2021 at 13:49

Литературно генерить по набору слов гугловский T5 действительно умеет неплохо. Я использовал русскоязычную версию: https://huggingface.co/cointegrated/rut5-small-normalizer

Правда на отдельную значимую работу такой корпус ИМХО не особо тянет)

KELM — внедряя графы знаний в корпус для предварительного обучения языковой модели

Comments 4

Articles