Комментарии 13
Сакразм определяется по наличию таблички "сарказм".
Отличное решение.
Размеченный датасет с данными публичным сделать не хотите? а то студенты работали, а общественным достоянием это не сделали, нехорошо.
Интересно было бы исследовать высказывания пациентов с депрессией для выявления у них риска суицидного поведения.
От подобных исследований захватывает дух! Вот она, настоящая новизна современности!
В голосовой форме иронию распознать действительно довольно просто. Так или иначе, она почти всегда выделяется интонационно, почти всегда отлична по тем или иным признакам от обычной "типовой" речи индивидуума.
Но вот гораздо более дерзкий (и на порядки более сложный) вызов — научиться определять иронию/сарказм в текстовой форме. Вот там даже не все люди сразу справляются.
Не знаю, выделяю я как-то шутку в речи или нет, но те, кто меня знают, сразу понимают, что это юмор (даже если тонко), а вот незнакомые люди далеко не всегда. Так что самый верный способ - по смыслу
Ну вот именно, что выделяют лишь те, кто Вас знают (довольно узкий круг друзей). А те, кто не знают — вполне могут и не понять.
И даже по смыслу — ну как тут?
Заявление: "Земля плоская!".
Ответ: "Да, конечно, любой настоящий исследователь это знает!".
Выделите смысл и иронию в тексте. Сможете отделить без интонаций? ))
P.S. Минус вам не мой.
Исследование производилось за счет бюджета? И какая расчетная прибыль исследования?
Т.е. нейросети будут определять сарказм лучше Шелдона Купера?
Discussion:)
Спасибо всем за интерес к нашему исследованию и лонгриду!
Постараюсь ответить сразу на все вопросы и комментарии еще одним лонгридом.
Студенты, которые привлекались к созданию корпуса, были полноценными участниками проекта и выполняли оплачиваемую работу. Кроме того, часть информации, представленная в нашей публикации, касается результатов, полученных нами уже по окончании проекта, т.е. абсолютно на инициативной основе.
Решение о доступе будет приниматься после регистрации корпуса. Возможно, он будет предоставляться по запросу для использования в исследовательских целях. Все, кто интересуется речевыми корпусами, наверняка знакомы с тем, что корпусы с подробной фонетической или паралингвистической разметкой, как правило, отсутствуют в открытом доступе или представлены частично. Очень часто они открыты для исследований сотрудников и студентов/ аспирантов того института или ВУЗа, который разработал корпус. Это касается как отечественных, так и зарубежных корпусов. Наиболее яркий и известный пример – НКРЯ, Национальный корпус русского языка. Вы можете с легкостью найти в нем примеры исследуемых явлений (в разном объеме, в зависимости от изучаемой темы). Однако Вы не можете использовать тот объем подробно размеченных данных, который необходим для обучения НС.
Проект не являлся коммерческим, наш исследовательский коллектив не является отдельным юрлицом, у нас нет валовой прибыли, нет и расчетной. Само понятие прибыль здесь неприменимо.
Автоматизация оценки населения -- мысль интересная:), но, похоже, есть гораздо более эффективные способы оценки настроений различных социальных групп.
Спасибо специалисту из области психиатрии Ярославу Богданову за вопрос. На данный момент частотность употребления в речи иронии-отрицания вроде бы не присутствует ни в одной метрике оценки суицидальных рисков. Наверное, потому что использование данной эмоционально-оценочной коннотации в речи может быть как свойством личности, так и временным явлением (я не психолог и не психиатр, возможно, термины недостаточно точные). Если ирония и будет одним из показателей, то только в сложной связи с другими явлениями. Нужен многофакторный анализ.
Определение сарказма в тексте – это действительно трудная задача. Но степень ее решаемости зависит от того, какой тип иронии/ сарказма Вы будете искать. Если все варианты, включая так называемый английский юмор, то да – соглашусь с Вами. Да и вообще юмор. С другой стороны, если взять ту же иронию-отрицание, в тексте ей часто сопутствуют лексико-семантические и грамматические маркеры. Их нам и пришлось убирать из сигнала для того, чтобы разобраться, а можем ли мы обойтись без них при восприятии на слух.
Жаль, что незамеченным (и даже с минусом) остался комментарий по поводу различий в понимании юмора знакомыми и незнакомыми людьми. Очень важное замечание. Здесь затрагиваются сразу две актуальные темы. С одной стороны, есть наиболее яркие и наиболее часто используемые звуковые (и не только звуковые) клише. А есть индивидуальные. Мы все представляем собой слепки, отпечатки окружающего нас языкового пространства. И чем больше мы с кем-то контактируем, тем вероятней, что в данной группе устанавливается свой «код», понятный представителям этой группы. Если посмотреть в сторону ИИ и приложений, то это имеет выход во всё user-oriented. С другой стороны, сейчас активно исследуется то, как собеседники подстраиваются друг под друга в ходе диалога. В зависимости от социального статуса/ роли, от степени знакомства, родства и тд. Такое исследование тоже проводилось у нас на кафедре, вышла даже отдельная монография.
Пример «Земля плоская. – Да, конечно, любой настоящий исследователь это знает.» не такой уж и простой. Вторая часть будет отличаться от нейтрального варианта такого же высказывания. Но как: если человек захочет выразить иронию, тогда интонационно; если захочет серьезно произнести заведомо ложное высказывание, тогда его больше выдадут жесты и мимика. У нас сейчас магистранты изучают это в своих ВКР.
НС vs. Шелдон Купер: об этом в следующей публикации. Если не угаснет интерес:)
До новых встреч на просторах Хабра!)
Прекрасно!
Учительница в школе предлагает детям придумать предложение, в котором слово "прекрасно" употребляется дважды.
Маша: - Вчера папа купил маме прекрасное платье, в котором мама прекрасно выглядела.
Петя: - Моя бабушка готовит прекрасное печенье, которое я прекрасно кушаю.....
Вовочка: - Вчера за ужином моя сестра объявила, что беременна, а отец сказал: "Прекрасно, б№;%ь, просто прекрасно!"
Можно ли научить нейросеть определять иронию