olegas5 13 мар 2017 в 13:14

Робот-собеседник на основе ИНС: рекуррентные сети

4 мин

4.3K

Ранее в статье «Робот-собеседник на основе нейронной сети» я рассматривал вопрос применения нейронных сетей прямого распространения для создания робота-собеседника. В результате экспериментов стало понятно, что применять такие сети для генерации текстов ― идея плохая. Спасибо Roman_Kh, daiver19, vladshow, что показали, как необходимо изменить сеть и в каком направлении двигаться.

Следующий этап тестирования ― рекуррентные LSTM-сети.

Как и ранее, в последних экспериментах с сетями прямого распространения, словарь создаётся инструментом Word2Vec с равномерным распределением слов в векторном пространстве. Каждое слово представляется вектором длины $inline$ .

Подготовка для генерации последовательностей

Кодирование предложений

Рекуррентные сети могут генерировать последовательности, поэтому применим соответствующий способ кодирования. Попросим сеть по предложению-вопросу пословно генерировать предложение-ответ.
В текстовом виде база обучения хранится как набор предложений «Вопрос = Ответ», например:

1	ПРИВЕТ = ПРИВЕТ						(2 слова)
2	ДАВНО НЕ ВИДЕЛИСЬ = ЗДРАВСТВУЙ ДРУГ			(5 слов)
3	ХОРОШИЙ ДЕНЬ = ОТЛИЧНЫЙ ДЕНЬ				(4 слова)
4	КАКОЙ СЕГОДНЯ ДЕНЬ = СЕГОДНЯ ОТЛИЧНЫЙ ДЕНЬ		(6 слов)
5	ДАВАЙ ДРУЖИТЬ = ДАВАЙ БУДЕМ ДРУЗЬЯМИ			(5 слов)
6	БУДЕШЬ МОИМ ДРУГОМ = ХОРОШО КОГДА МНОГО ДРУЗЕЙ		(7 слов)
7	ДО ВСТРЕЧИ = ДО СВИДАНИЯ				(4 слова)

Для управления генерацией последовательностей используются следующие служебные теги, которые закодированы с помощью Word2Vec вместе с другими словами:

#GEN# ― конец предложения-вопроса, можно начинать генерировать ответ;
#BOS# ― начало генерации ответа;
#EOS# ― остановить генерацию ответа.

Для обучения нейронной сети формируются две матрицы TrainX и TrainY следующим образом. Каждая матрица имеет размер $N\times T\times D$ , где $inline$ ― число предложений в базе ( $inline$ в этом примере); $inline$ ― наибольшее количество слов в предложении + 3 (для #GEN#, #BOS#, #EOS#), в данном примере $inline$ ; $inline$ ― длина вектора слова (50).

Все последовательности приводятся к самой длинной по числу слов. В данном примере самой длинной является последовательность №6, значит все предложения дополняются до семи слов, пустые места в конце заполняются #EOS#:

		t=0	t=1	t=2	t=3	t=4	t=5	t=6	t=7	t=8	t=9				
TrainX[0][t] = ПРИВЕТ	#GEN#	#BOS#	ПРИВЕТ	#EOS#	#EOS#	#EOS#	#EOS#	#EOS#	#EOS#
TrainY[0][t] = NULL		#BOS#	ПРИВЕТ	#EOS#	#EOS#	#EOS#	#EOS#	#EOS#	#EOS#	#EOS#

		t=0	t=1	t=2		t=3		t=4		t=5	t=6	t=7	t=8	t=9	t=10
TrainX[1][t] = ДАВНО	НЕ	ВИДЕЛИСЬ	#BOS#		ЗДРАВСТВУЙ	ДРУГ	#EOS#	#EOS#	#EOS#	#EOS#	#EOS#
TrainY[1][t] = NULL	NULL	NULL		ЗДРАВСТВУЙ	ДРУГ		#EOS#	#EOS#	#EOS#	#EOS#	#EOS#	#EOS#

NULL ― ответ сети значения не имеет, при кодировании слов заполняется нулями.

Генерирование ответа сетью

После обучения на вход нейронной сети пословно подаются все слова вопроса и тег #GEN#. После этого просим сеть предсказывать следующее слово по переданным ранее предыдущим, пока не встретится тег #EOS#. Исключая из ответа служебные теги, получаем ответ.

Тестирование архитектур

Теперь для экспериментов использую язык Python и библиотеку Keras.

Вариант 1. Одна ячейка LSTM, 65 450 параметров

В эксперименте участвуют:

Слой 1: LSTM с D нейронами на входе и 2D на выходе;
Слой 2: Слой прямого распространения с D нейронами.

После обучения и запоминания 109 предложений можно получить вот такие ответы.

― ПРИВЕТ
― ПРИВЕТ

― ТЕБЯ КАК ЗОВУТ?
― МЕНЯ ЗОВУТ СЕТЬ

― ПРИВЕТ СЕТЬ
― ПРИВЕТ

― ПРИВЕТ, ТЫ МЕНЯ ЗНАЕШЬ?
― Я ТОЛЬКО УЧУСЬ

― ТЕБЯ ЗОВУТ ОЛЕГ?
― ПРИЯТНО ПОЗНАКОМИТЬСЯ

― ТЕБЯ ЗОВУТ СЕТЬ?
― МЕНЯ ЗОВУТ СЕТЬ

― ТЫ ХОРОШАЯ?
― Я ДУМАЮ ТЕБЕ

― ТЕБЕ ЧТО-НИБУДЬ НРАВИТСЯ?
― МНЕ НРАВИТСЯ СЛУШАТЬ

― ХОЧЕШЬ ПОГОВОРИТЬ?
― БУДУ РАДА ИНТЕРЕСНОЙ БЕСЕДЕ

― О ЧЁМ?
― ДАВАЙ ПОГОВОРИМ О

Вариант 2. Две ячейки LSTM, 93 150 параметров

В эксперименте участвуют:

Слой 1: LSTM с D нейронами на входе и 2D на выходе;
Слой 2: LSTM с 2D нейронами на входе и D на выходе;

Задаём те же самые вопросы:

― ПРИВЕТ
― ПРИВЕТ

― КАК ТЕБЯ ЗОВУТ?
― МЕНЯ ЗОВУТ СЕТЬ

― ПРИВЕТ, СЕТЬ
― ЭТО ДРУГ

― ПРИВЕТ, ТЫ МЕНЯ ЗНАЕШЬ?
― Я ТОЛЬКО УЧУСЬ

― ТЕБЯ ЗОВУТ ОЛЕГ?
― МЕНЯ ЗОВУТ

― ТЕБЯ ЗОВУТ СЕТЬ?
― МЕНЯ ЗОВУТ СЕТЬ

― ТЫ ХОРОШАЯ?
― Я ДУМАЮ УЧУСЬ

― ТЕБЕ ЧТО-НИБУДЬ НРАВИТСЯ?
― МНЕ НРАВИТСЯ СЛУШАТЬ МУЗЫКУ

― ХОЧЕШЬ ПОГОВОРИТЬ?
― БУДУ РАДА ИНТЕРЕСНОЙ БЕСЕДЕ

― О ЧЁМ?
― ДАВАЙ ПОГОВОРИМ О

Вариант 3. Три ячейки LSTM, 63 150 параметров

В эксперименте участвуют:

Слой 1: LSTM с D нейронами на входе и D на выходе;
Слой 2: LSTM с D нейронами на входе и D на выходе;
Слой 3: LSTM с D нейронами на входе и D на выходе.

И такой диалог:

― привет
― ПРИВЕТ

― ТЕБЯ КАК ЗОВУТ?
― МЕНЯ ЗОВУТ СЕТЬ

― ПРИВЕТ, СЕТЬ
― ЭТО ТЕБЕ

― ПРИВЕТ, ТЫ МЕНЯ ЗНАЕШЬ?
― Я ТОЛЬКО УЧУСЬ

― ТЕБЯ ЗОВУТ ОЛЕГ?
― МЕНЯ ПОЗНАКОМИТЬСЯ

― ТЕБЯ ЗОВУТ CЕТЬ?
― МЕНЯ ЗОВУТ СЕТЬ

― ТЫ ХОРОШАЯ?
― Я ДУМАЮ В

― ТЕБЕ ЧТО-НИБУДЬ НРАВИТСЯ?
― МНЕ НРАВИТСЯ СЛУШАТЬ МУЗЫКУ

― ХОЧЕШЬ ПОГОВОРИТЬ?
― БУДУ РАДА ИНТЕРЕСНОЙ БЕСЕДЕ

― О ЧЁМ?
― ДАВАЙ БУДЕМ ДРУЗЬЯМИ

Итог

Для тестирования специально выбирались вопросы, которых нет в обучающей базе (кроме первого), чтобы проверить «разумность» построенных моделей. Как мне показалось, рекуррентные сети работают гораздо лучше, на них сильно не сказывается отсутствие некоторых слов в вопросе или порядок слов в предложении (ответ на «Как тебя зовут?», «Как зовут тебя?» одинаков). Конечно, и этот результат всё ещё далёк от «хорошего».

Интересно, что первая модель из трёх наиболее адекватно отвечает на приветствие, её не сбивает собственное имя в предложении. Вместе с тем, она всё же точно не знает, как её зовут. Вторая модель, напротив, на приветствие, отличное от обучаемого, отвечает как угодно ужасно. Но, в отличие от первой модели, попыталась правильно ответить на вопрос о своём имени («Тебя зовут Олег?» ― «Меня зовут»). Хоть в данной реализации не предполагается запоминание контекста диалога и предыдущих ответов, выбор темы разговора в первых двух моделях выглядит адекватнее.

Вывод: Из всей тестовой базы первые модели отвечают адекватно на одну часть вопросов, великолепно проваливая тест на остальной. Другие модели отвечают на вторую часть вопросов и блестяще не справляются с первой. Жаль, что нельзя создать совокупность нейронных сетей, которые бы смогли ответить на все вопросы тестового набора правильно…

Поэтому дальнейшая задача ― исследование влияния типов и количества слоёв ИНС на качество её ответов при неизменных обучающем и тестовом наборах, чтобы сконструировать такую модель нейронной сети, которая пройдёт мой тест.

Теги:

Хабы:

Машинное обучение

Робот-собеседник на основе ИНС: рекуррентные сети

Подготовка для генерации последовательностей

Кодирование предложений

Генерирование ответа сетью

Тестирование архитектур

Вариант 1. Одна ячейка LSTM, 65 450 параметров

Вариант 2. Две ячейки LSTM, 93 150 параметров

Вариант 3. Три ячейки LSTM, 63 150 параметров

Итог

Публикации

Истории

Работа

Ближайшие события