perevalov_a Nov 19 2017 at 20:35

Чатбот, который «как Siri, только круче» на наивном Байесовском классификаторе

4 min

17K

Java*Google API*Mathematics*Machine learning*

From sandbox

+21

Comments 13

tmnhy Nov 19 2017 at 21:45

Где можно оценить чат-бота?

perevalov_a Nov 19 2017 at 21:56

В ближайшее время постараюсь сделать онлайн-версию для тестирования

samodum Nov 20 2017 at 01:47

У меня для проверки есть фраза, на которой ломаются 100% чат-ботов:
«Не говори мне на завтра погоду в Питере»

+10

UFO just landed and posted this here

savostin Nov 19 2017 at 22:25

Что-то мне подсказывает, что «не» не стоит заносить в стоп-слова…

perevalov_a Nov 19 2017 at 22:33

Да, действительно. Приведенный выше список не окончательный и требует редактирования

alex4321 Nov 20 2017 at 00:37

А мне — что стоит даже склеивать с прошлым и последующим токеном (впрочем, если данных достаточно — можно заюзать биграммы, а не делать это явно) — или, возможно, инвертировать значение соответсвующей им фичи.

Hardcoin Nov 20 2017 at 01:20

Это все (склеивать или инвертировать) — явное прописывание правил. До определенного момента работает, а потом упирается в предел. Причем упирается очень быстро, намного раньше, чем будет достигнут уровень Сири.

alex4321 Nov 20 2017 at 01:23

Ну, ясное дело. Но думаю, тут мы раньше упрёмся в невозможность обучить таким правилам неявно на доступной выборке. Или ошибаюсь? (пока не вглядывался в датасет, да).

Hardcoin Nov 20 2017 at 01:33

Я так понял, датасет был сделан самостоятельно. На таком, конечно, можно писать правила самому, для неявного обучения он слишком маленький. Но можно взять чужой корпус текстов и на нем построить лингвистическую модель.

erwins22 Nov 20 2017 at 08:12

А прогонять через нейронку.
текст будет более связный.

-4

programania Nov 20 2017 at 11:19

При создании программы преобразования текста на ЕЯ при возникновении проблемы
есть возможность использовать эту же программу для ее решения, т.к. на ЕЯ можно описать что угодно.
При таком подходе проблемы будут все более узкими и поэтому когда-нибудь закончатся.
Например, автор начал с РВ, но возникла проблема их ручного ввода.
Так может вместо бесполезных разговоров сначала научить программу создавать эти РВ
из диалога на ЕЯ, хотя бы даже введя нужные для этого РВ вручную.
А «именованные сущности» в РВ уже есть: (?<name> ...)
Еще в РВ привлекает то, что они служат для обработки текста, сами являясь текстом.
Т.е. предполагают самоприменимость, однородность, бутстрапность.
Я сильно подозреваю, что при наличии достаточной ловкости ума, используя РВ,
ИИ можно написать вообще в сотню строк кода.

Ogoun Nov 20 2017 at 15:57

Лучше вместо Стеммера Портера использовать Snowball, а еще лучше лемматизатор. Точность намного выше. У себя для .NET использую вот этот, обернутый в WebAPI, развернутые в оперативной памяти словари занимают примерно 300Мб.
Когда требуется оффлайн вычисления, понижаю точность, используя эту реализацию Snowball.

Show the best of all time