serhit Oct 23 2019 at 18:13

«Вроде такое уже было?» Поиск похожих инцидентов и заявок

7 min

4.2K

Python*Service Desk*Machine learning*

Comments 16

sbnur Oct 23 2019 at 18:29

поправьте — правильно déjà vu

serhit Oct 23 2019 at 18:49

Спасибо, поправил :)

UFO landed and left these words here

serhit Oct 24 2019 at 05:59

Я читаю их блог. Система "Антиплагиат" — это монстр, по сравнению с нашей задачей :)
Кроме того, я боюсь, что такие методы, как там используются используются, на коротких текстах обращениях (длиной до 50 слов) могут не сработать...

UFO landed and left these words here

amarao Oct 24 2019 at 05:47

Я бы добавил отдельное обнаружение характерных паттернов.

Трейсы ядра
Трейсы питона
Трейсы джавы
Трейсы С++

(всех их человек умеет обнаруживать безошибочно и может замечать за время порядка 20мс, когда простыня пролетает по экрану)

Случай "файл/номер строки".
Стандартные тексты для errno

serhit Oct 24 2019 at 06:09

Это интересно… Я посмотрю, как часто у нас в текстах встречаются формальные сообщения об ошибках. Их действительно можно включить в предобработку.

Но, боюсь, такой информации будет немного. У нас, к сожалению, пользователи могут только приложить скриншот экрана с ошибкой. В текст обращения такие детали никто не переносит. Да и трейсы мы конечным пользователям стараемся не показывать — в логи пишем.

amarao Oct 24 2019 at 07:39

А, у вас специальный кейс. У нас в саппорте (хостера) показать трейс — как нефиг делать.

CrazyElf Oct 24 2019 at 10:23

Лучше наверное всё же эмбеддинги какие-нибудь сделать, натренировать их на большом словаре подходящих текстов. И не стемминг, а лемматизацию взять. Мешок слов скорее всего не даст модели понять, что одни и те же вещи можно сказать совсем разными словами (если не использовать разметку данных), а вот эмбеддинги возможно смогут выделить одинаковый контекст при достаточном наборе примеров.

serhit Oct 24 2019 at 15:08

Целевой эмбеддинг можно натренировать при условии достаточного количества размеченных данных: "инцидент 1 похож на инцидент 2" / "инцидент 3 не похож на инцидент 4". Мы собрали немного размеченных данных — но этого не хватает для значимого обучения.

Я, кстати, пытался найти где-нибудь численные оценки минимально необходимого количества размеченных данных для тренировки сетей заданной архитектуры. Общий ответ — чем больше, тем лучше ( "спасибо, Кэп" ).
Может у кого-нибудь есть статейка в закладках почитать по этой теме?

CrazyElf Oct 24 2019 at 16:12

Не-не-не. Вы почитайте про эмбеддинги. Там смысл в окружении слов. Примерно того же можно добиться, используя n-граммы для мешка слов, но не совсем. Эмбеддинги лучше — они занимают меньше места чем n-граммы и вообще лучше работают.
Грубо говоря, если у вас есть набор обучающих примеров:
— Что за фигня творится с моим десктопом при включении?
— Что за хрень творится с моим компом при включении?
— Что за фигня творится с моим компом при старте?
— Что за ерунда творится с моим компом при включении?
и т.д.
То после тренировки эмбеддингов все эти фразы будут лежать очень близко друг от друга. Но это не всё, в векторном пространстве слов слова «фигня», «ерунда» и «хрень» будут лежать очень близко. Тоже самое со словами «комп» и «десктоп». И тоже с «включение» и «старт» (если вы использовали лемматизацию).
Никакой мешок слов вам такое не сделает.
И вот такие вектора можно, в принципе, учить даже не на ваших логах, а на некоем текстовом корпусе, который лежит близко к вашей области. Грубо говоря, многие вообще учат вектора на текстах из «Википедии». Вам это не факт что подойдёт, но вы вполне можете взять логи звонков некоего саппорта, похожего на ваш, если они есть в интернете — и выучить вектора на них, а потом применить их в своих моделях. Вот в чём прикол эмбеддингов.

serhit Oct 25 2019 at 14:34

Наверное, вы имеете ввиду стандартные эмбеддинги типа word2vec или Glove. Они, действительно, обучаются на корпусе по окружению. Но только они генерируют эмбеддинги для слов, а не предложений. Получить эмбеддинг текста — это еще один шаг, который можно сделать либо просто (усреднение эмбеддингов слов), либо сложнее (вектор фиксированной длины с элементами из эмбеддингов слов).

В любом случае, обычно, после получения базового вектора текста — его превращают в целевой эмбеддинг, который обучен исходя из размеченных данных: это или похожесть двух предложений, или известная классификация.

Может на следующем этапе мы дойдем до такого. Но опять же — размеченных данных нужно подсобрать побольше — пока эксперимент был не очень удачный.

CrazyElf Oct 24 2019 at 10:26

Однако чуда от системы unsupervised learning ожидать было нельзя. Коллеги жаловались на то, что иногда система предлагает совсем нерелевантные ссылки. Порой даже было сложно понять — откуда такие рекомендации берутся.

Это связано вовсе не с unsupervised learning, а с тем, что ваша модель не интерпретируема («чёрный ящик»). Это плохо, надо всегда иметь возможность понять, почему модель приняла то или иное решение, иначе вы не сможете понять, как её улучшить.

serhit Oct 24 2019 at 15:20

Ну, я бы не сказал, что модель не интерпретируема. Есть пары нормированных векторов, каждый компонент которых соответствует слову или n-грамме — косинусное расстояние определяет похожесть текстов.
Кроме того, использование TfidfVectorizer, как раз позволяет даже посмотреть какие слова значимы для корпуса и для каждого инцидента — это отдельная полезная функция.

Просто бывали случаи, когда значимых пересечений по словам становится мало (редкий случай нашли) и основной вес уходит на компоненты обозначавшие отдел из которого пришло обращение. Получалось, система сообщала что-то вроде: "не знаю о чем это, но у этих заказчиков были еще вот такие проблемы..."

CrazyElf Oct 24 2019 at 15:59

А, ну то есть вы на самом деле знаете, почему система такое советовала. Это другое дело. :)

serhit Oct 25 2019 at 09:35

Ну да, мы выяснили — и приняли меры :)