Об экспресс-свиданиях (speed-dates) на Хабре уже писали. Вкратце, собирается группа участников, они беседуют в парах примерно по 5 минут, затем меняются собеседниками. Каждый участник про каждого из своих партнёров отмечает, насколько сильно он ему понравился; если симпатия окажется взаимной, организаторы передают обоим контакты друг друга.
Группа исследователей из Стэнфордского университета занимается анализом человеческих диалогов, пытаясь распознать как намерения говорящего, так и восприятие речи слушателем. Несоответствие между подразумеваемым и воспринимаемым — закономерное свойство естественной речи. Для анализа использовались стенограммы с экспресс-свиданий, на которых каждая сторона оценивала «заигрывающесть» партнёра, и отмечала свою. Построенной системе автоматического распознавания флирта удалось верно определять намерения говорящего в 71.5% случаев; это превзошло точность оценок самих участников экспресс-свиданий. Как выяснилось, люди в большей степени проециируют на собеседника собственные ощущения, чем анализируют его речь.
В 2005 г. студенты-добровольцы провели три сеанса экспресс-свиданий, на которых каждый участник держал включённый диктофон. Были собраны записи около 1100 четырёхминутных свиданий. Поскольку свидания проходили в естественной обстановке, записи включали сильный фоновый шум, сделавший невозможным автоматическое распознавание говоримого текста. Текст был распознан вручную, и для каждого предложения было отмечено время его начала и конца на аудиозаписи, чтобы можно было автоматически определять темп и тембр речи.
Кроме звукозаписей, каждый участник оценивал по 10-балльной шкале (1=ни разу, 10=постоянно): «Как часто собеседник вёл себя таким-то образом?» (заигрывающе, неловко, забавно, напористо и т.п.) и «Как часто вы сами вели себя таким-то образом?» В работе, опубликованной в прошлом году, исследователи анализировали лишь оценки заигрывающести. Отдельно рассматривалось выражение своего флирта участниками и участницами, и отдельно — восприятие участниками и участницами флирта своего собеседника. Таким образом было построено четыре анализатора речи, использовавшие и звукозапись беседы, и её стенограмму.
Анализаторы определяли несколько десятков численных параметров, характеризующих интонацию речи, ведение диалога, и используемую лексику. К интонационным параметрам относятся высота (основная частота, F0) речи, её громкость (RMS) и темп (слов/мин). Параметры ведения диалога были получены из стенограммы специально составленными регулярными выражениями. Подсчитывались следующие события:
Выбранные параметры могут быть недостаточно выражены за короткое время беседы. Авторы построили статистическую модель, связывающую использованные в беседе слова с каждым из параметров, и выполнили «сглаживание» наблюдаемых значений каждого параметра, учитывая его статистически наиболее вероятное значение для использованных в беседе слов.
Точность распознавания:
Интересно, что предложенная система одинаково точно распознаёт заигрывание молодых людей и девушек, при этом заметно лучше распознаёт реакцию девушек, чем молодых людей, на заигрывание собеседника. Другой интересный результат — что статистически значимыми для молодых людей оказались только 23 параметра, по сравнению с 31 у девушек. Таким образом, девушки оказались предсказуемее, зато богаче в выразительных средствах.
Как выяснилось, заигрывающие студенты задают больше вопросов, чаще используют ты и мы, больше смеются, используют больше слов из категории «злость», «недовольство», «секс». Их речь быстрее и выше тоном, но тише. Реакции собеседницы, свидетельствующие о заигрывании её партнёра: смех, брань, сексуальная лексика, повышенные темп и тон.
Студентки, когда заигрывают, используют более широкий диапазон высоты голоса; смеются; чаще говорят я и но; чаще переспрашивают, но не задают других вопросов; используют больше сексуальной лексики, меньше одобрений и поддакиваний; их предложения становятся длиннее и реже. Собеседник при этом чаще использует ты, задаёт больше вопросов, говорит тише и быстрее.
Кроме того, удалось выяснить, в каких случаях человек считает, что его собеседник заигрывает. Непонимание между людьми часто вызывается тем, что говорящий использует одни выразительные средства, а слушатель обращает внимание на другие. Так, хотя параметры, указывающие «он/а заигрывает» и «про него/неё решат, что он/а заигрывает», во многом совпадают, — есть важные отличия. Девушки считают, что их собеседник заигрывает, когда он реже использует одобрения и реже перебивает, — хотя статистически эти параметры не свидетельствуют о намерениях молодого человека. Кроме того, девушки преувеличивают значение задаваемых молодым человеком вопросов, и его ускоренной речи. Молодые люди, напротив, не придают достаточного значения смеху собеседницы, её переспрашиванию, и длинным предложениям.
Интересно сравнить поведение заигрывающих студентов и студенток. Общая характеристика — то, что они больше смеются, говорят быстрее, и повышают тон голоса. Есть и различия: когда заигрывают молодые люди, они задают больше вопросов, чем обычно; когда девушки — меньше, чем обычно; но девушки начинают чаще переспрашивать, а молодые люди — нет. Девушки чаще говорят я и реже мы; молодые люди — чаще мы и ты. Девушки уменьшают использование одобрений, а молодые люди — нет.
Как же так получилось, что автоматический распознаватель флирта существенно превзошёл в точности живых участников эксперимента? Чтобы проиллюстрировать суть проблемы, исследователи приводят анкеты участника №101 и участницы №127:
Впечатления этой пары об их свидании совершенно противоположные; но при этом, каждый оценил намерения своего партнёра практически так же, как свои собственные. Это не единичный пример: оказалось, что корреляция («я заигрываю», «я считаю, что мой собеседник заигрывает») составляет 0.73, тогда как корреляция («я заигрываю», «мой собеседник на самом деле заигрывает») — лишь 0.15. Похожие результаты получились и для других критериев оценки прошедшего свидания:
Хотя точность распознавания людьми намерений партнёра во всех случаях низкая, флирт распознавался лучше, чем прочие характеристики. Исследователи связывают это с тем, что в условиях экспресс-свидания участники больше сосредоточены на флирте партнёра, и меньше анализируют остальные элементы его поведения. Другое важное наблюдение — что для «притягивающих» черт поведения (флирт, доброжелательность) участники теснее связывали самооценку с оценкой собеседника, чем для «отталкивающих» (неловкость, напор).
Конечно, распознать намерения партнёра за четыре коротких минуты непросто. Но несомненно, что каждый участник оценивал не столько поведение собеседника, сколько собственные впечатления и намерения, предполагая «по умолчанию» наличие взаимности. Автоматическая система лишена подобного «слепого оптимизма», и звукозаписи четырёхминутного свидания ей достаточно, чтобы сделать более точную оценку, чем сами участники свидания, — даже при том, что в распоряжении участников были также мимимка и жесты, а системе они недоступны.
В качестве приложений данной работы видятся как обнаружение ключевых данных в массиве текста (например, эффективная индексация переписки, диалогов в социальных сетях, протоколов заседаний и собеседований), так и реализация более совершенных автоматических собеседников, в том числе для дейтинг-сайтов.
Группа исследователей из Стэнфордского университета занимается анализом человеческих диалогов, пытаясь распознать как намерения говорящего, так и восприятие речи слушателем. Несоответствие между подразумеваемым и воспринимаемым — закономерное свойство естественной речи. Для анализа использовались стенограммы с экспресс-свиданий, на которых каждая сторона оценивала «заигрывающесть» партнёра, и отмечала свою. Построенной системе автоматического распознавания флирта удалось верно определять намерения говорящего в 71.5% случаев; это превзошло точность оценок самих участников экспресс-свиданий. Как выяснилось, люди в большей степени проециируют на собеседника собственные ощущения, чем анализируют его речь.
Эксперимент
В 2005 г. студенты-добровольцы провели три сеанса экспресс-свиданий, на которых каждый участник держал включённый диктофон. Были собраны записи около 1100 четырёхминутных свиданий. Поскольку свидания проходили в естественной обстановке, записи включали сильный фоновый шум, сделавший невозможным автоматическое распознавание говоримого текста. Текст был распознан вручную, и для каждого предложения было отмечено время его начала и конца на аудиозаписи, чтобы можно было автоматически определять темп и тембр речи.
Кроме звукозаписей, каждый участник оценивал по 10-балльной шкале (1=ни разу, 10=постоянно): «Как часто собеседник вёл себя таким-то образом?» (заигрывающе, неловко, забавно, напористо и т.п.) и «Как часто вы сами вели себя таким-то образом?» В работе, опубликованной в прошлом году, исследователи анализировали лишь оценки заигрывающести. Отдельно рассматривалось выражение своего флирта участниками и участницами, и отдельно — восприятие участниками и участницами флирта своего собеседника. Таким образом было построено четыре анализатора речи, использовавшие и звукозапись беседы, и её стенограмму.
Анализаторы определяли несколько десятков численных параметров, характеризующих интонацию речи, ведение диалога, и используемую лексику. К интонационным параметрам относятся высота (основная частота, F0) речи, её громкость (RMS) и темп (слов/мин). Параметры ведения диалога были получены из стенограммы специально составленными регулярными выражениями. Подсчитывались следующие события:
- Поддакивания: Ага; Ладно; Ну...
- Одобрения: Ух ты; Ага, точно; Здорово
- Вопросы
- Переспрашивания: Подожди? В смысле?
- Завершения фраз за собеседника
- Смех
- Несогласные ответы, начинающиеся с Ну,
- Заполнения пауз: Ээ...
- Обрывы незаконченной фразы
- Перебивания одним говорящим другого
- Ты: твой; тебя; тебе
- Мы: наш; нас; нам; давай
- Я: мой; меня; мне
- Одобрение: да; ладно; круто; отлично; согласен
- Брань: чёрт; хрен; блин; дерьмо; нафиг
- Предположение: думать; чувствать; полагать; понимать; представлять
- Злость: ненавидеть; смехотворный; тупой; убить; долбаный; чёкнутый
- Недовольство: плохой; проблема; тяжёлый; странный; скучный; грустный
- Секс: любить; обожать; трахать; девственница
- Еда: кушать; пить; вода; вино; кофе; бар; ужин; блюдо
Выбранные параметры могут быть недостаточно выражены за короткое время беседы. Авторы построили статистическую модель, связывающую использованные в беседе слова с каждым из параметров, и выполнили «сглаживание» наблюдаемых значений каждого параметра, учитывая его статистически наиболее вероятное значение для использованных в беседе слов.
Результаты
Точность распознавания:
Заигрывание | Восприятие заигрывания | |||
М | Ж | М | Ж | |
с явными параметрами | 61.5% | 70.0% | 77.0% | 59.5% |
со сглаживанием | 69.0% | 71.5% | 79.5% | 68.0% |
человеком | 62.2% | 56.2% |
Как выяснилось, заигрывающие студенты задают больше вопросов, чаще используют ты и мы, больше смеются, используют больше слов из категории «злость», «недовольство», «секс». Их речь быстрее и выше тоном, но тише. Реакции собеседницы, свидетельствующие о заигрывании её партнёра: смех, брань, сексуальная лексика, повышенные темп и тон.
Студентки, когда заигрывают, используют более широкий диапазон высоты голоса; смеются; чаще говорят я и но; чаще переспрашивают, но не задают других вопросов; используют больше сексуальной лексики, меньше одобрений и поддакиваний; их предложения становятся длиннее и реже. Собеседник при этом чаще использует ты, задаёт больше вопросов, говорит тише и быстрее.
Кроме того, удалось выяснить, в каких случаях человек считает, что его собеседник заигрывает. Непонимание между людьми часто вызывается тем, что говорящий использует одни выразительные средства, а слушатель обращает внимание на другие. Так, хотя параметры, указывающие «он/а заигрывает» и «про него/неё решат, что он/а заигрывает», во многом совпадают, — есть важные отличия. Девушки считают, что их собеседник заигрывает, когда он реже использует одобрения и реже перебивает, — хотя статистически эти параметры не свидетельствуют о намерениях молодого человека. Кроме того, девушки преувеличивают значение задаваемых молодым человеком вопросов, и его ускоренной речи. Молодые люди, напротив, не придают достаточного значения смеху собеседницы, её переспрашиванию, и длинным предложениям.
Интересно сравнить поведение заигрывающих студентов и студенток. Общая характеристика — то, что они больше смеются, говорят быстрее, и повышают тон голоса. Есть и различия: когда заигрывают молодые люди, они задают больше вопросов, чем обычно; когда девушки — меньше, чем обычно; но девушки начинают чаще переспрашивать, а молодые люди — нет. Девушки чаще говорят я и реже мы; молодые люди — чаще мы и ты. Девушки уменьшают использование одобрений, а молодые люди — нет.
«Дело не в тебе, а во мне»
Как же так получилось, что автоматический распознаватель флирта существенно превзошёл в точности живых участников эксперимента? Чтобы проиллюстрировать суть проблемы, исследователи приводят анкеты участника №101 и участницы №127:
Я заигрываю | Собеседник заигрывает | |
Участник №101 | 8 | 7 |
Участница №127 | 1 | 1 |
(самооценка, оценка собеседника) | (самооценка, оценка собеседником себя) | |
Флирт | 0.73 | 0.15 |
Доброжелательность | 0.77 | 0.05 |
Неловкость | 0.58 | 0.07 |
Напор | 0.58 | 0.09 |
Конечно, распознать намерения партнёра за четыре коротких минуты непросто. Но несомненно, что каждый участник оценивал не столько поведение собеседника, сколько собственные впечатления и намерения, предполагая «по умолчанию» наличие взаимности. Автоматическая система лишена подобного «слепого оптимизма», и звукозаписи четырёхминутного свидания ей достаточно, чтобы сделать более точную оценку, чем сами участники свидания, — даже при том, что в распоряжении участников были также мимимка и жесты, а системе они недоступны.
В качестве приложений данной работы видятся как обнаружение ключевых данных в массиве текста (например, эффективная индексация переписки, диалогов в социальных сетях, протоколов заседаний и собеседований), так и реализация более совершенных автоматических собеседников, в том числе для дейтинг-сайтов.