Комментарии 20
Не могу не напомнить старинное:
По рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемт
занчнеия, в кокам пряокде рсапожолены бкувы в солве. Галвоне, чотбы
преавя и пслоендяя бквуы блыи на мсете. Осатьлыне бкувы мгоут селдовтаь
в плоонм бсепордяке, все-рвано ткест чтаитсея без побрелм.
Пичрионй эгото ялвятеся то, что мы не чиатем кдаужю бкуву по
отдльенотси, а все солво цликеом.
Так что, может, всё нормально с этими моделями – на каких данных обучили, так и работают?
Исследователи выяснили, что системы ИИ не различают предложения с перемешанными словами
— Да ну.
— Ну да.
Расходимся, реал скайнета пока не предвидится.
Шок контент! Модель, натренированная на задачах, которые можно решить не используя порядок слов, не использует порядок слов!
Если серьёзно, то существующим моделям не хватает человеческих индуктивных тенденций (inductive bias), чтобы они искали способы решения задач в направлении, которое скорее всего понадобится для решения других задач.
Из статьи:
Encouraging classifiers to capture word order information improves the performance on most GLUE tasks, SQuAD 2.0 and out-of-samples. Our work suggests that many GLUE tasks are not challenging machines to understand the meaning of a sentence.
"Если подтолкнуть классификаторы к использованию информации о порядке слов, то это улучшает производительность на большинстве задач из наборов GLUE, SQuAD 2.0 и out-of-sample задач. Наша работа позволяет предположить, что многие задачи из набора GLUE не требуют от машины понимания смысла высказываний".
Кто вообще из дата саентистов говорил что трансформеры понимают смысл? Задачи такой не ставилось. Перевод и поиск улучшился.
А эти исследователи ваши предложили хоть чтото, какой то свой адкватный тест или у них только критика glue ?
Никто вам не обещал генерализацию на уровне экстраполяции с таким алгоритмами обучения. Но легко можно изменить эти алгоритмы обучения, чтобы некорректные предложения тоже правильно обрабатывались.
это нормально для нейросети заниматься классификацией без отделения сигнала от фона.
эмбеддинги тогда обладают указанном в топике недостатком.
и придуманы специальные лоссы, чтобы эту проблему починить. если в этих нейросетях они не использовались, проблема будет. ну и что?
от ученого же никто не требует, чтобы он хорошо играл на трубе и читал на ходу придуманный рэп?
так объясните, почему они брали модели для одной задачи (предсказание MLM) и тестировали их на другой задаче: выдавать эмбеддинги и сравнивать их близость?
а тут по сути изнасилованный журналист выдал: «учёные плохо играют на трубе и из рук вон плохо читают рэп»
Во-первых, они не противоположны по смыслу, а вот «Маша завтра будет красить стену в фиолетовый цвет» — противоположно по смыслу фразе «Вася убил Петю». Тематически оба предложения про убийство очень похожи, а кто такой «Вася» и «Петя» мы не знаем, значит, вполне можем их не различать. Или мы должны запоминать конкретные имена?
Во-вторых, даже если мы будем запоминать имена, информация, сообщаемая обеими формулировками предложений, очень похожа.
Я бы счёл оба предложения весьма похожими, хоть и разными.
Какой был threshold по похожести в данной работе?
В-третьих, если уж быть серьёзным.
Вообще в задаче paraphrase detection насколько я помню SOTA была порядка 0.8-0.85, paperswithcode.com/task/paraphrase-identification, на QQP чуть повыше, 0.89: paperswithcode.com/sota/paraphrase-identification-on-quora-question, у них указано 0.91 для исследованной RoBERTa, ну, ок.
Как исследователи поняли, что в данной фразе модель ошиблась не потому, что иногда ошибается, а именно потому, что не различает такие фразы?
Но вообще, я ставлю на пункт «во-первых»:
Q 1 Does marijuana cause cancer?
Q 2 How can smoking marijuana give you lung cancer?
Prediction: “duplicate” 0.96
Q 1 Does marijuana cause cancer?
Q 1 0 Does cancer cause marijuana?
(d) Prediction: “duplicate” 0.77
Я не считаю, что 0.77 — это «duplicate», это скорее «эти фразы похожи», и я объяснил, почему они действительно похожи.
Ну а про некорректность исследования вероятностей на некорректных фразах в случаях 1b-1c я объяснял в прошлых комментариях. Экстраполяция не обязана хорошо работать. Не работает? Ну ок, это нормально. Попробуйте хотя бы доучить на конкретную задачу.
Как минимум, можно попробовать научиться менять noun chunks местами и помечать такие фразы как «not duplicate», аналогично — случайно менять слова местами и метить их как «not duplicate». Тогда это будет hard negative mining (в данном случае не принципиально — брать только ошибки модели или все такие примеры, т.к. класса всего 2). Потом померить скор на той же QQP. Интересно, получится ли улучшить скор? Или это всё же не влияет на качество модели?
"Исследователи из Обернского университета пришли к выводу, что многие ИИ, предназначенные для обработки естественного языка (Natural Language Processing, NLP), не замечают, когда слова в предложении перемешиваются"
Я окончательно разочаровался. Меня можно навсегда забанить на хабре
Исследователи выяснили, что системы ИИ не различают предложения с перемешанными словами