DAPL Jul 22 2021 at 21:22

Классификатор обращений пользователей (1C + python)

8 min

5.2K

Python*Programming*Machine learning*1C*

Tutorial

Technotext 2021

Comments 10

mixsture Jul 22 2021 at 21:36

Я бы на вашем месте поменял транспорт и сделал это подобием веб-сервиса. Вместо запуска файла - сделал бы общение через http json. Достоинства:

1) можно инициировать с любой стороны процесса 1с (клиент/сервер), и не только 1с

2) лучше кроссплатформенность (сейчас то бинарник должен быть в доступности платформы 1с). А так можете хоть на виртуалке линукса запустить.

3) модель можно загрузить один раз и использовать много раз (а время загрузки модели в память обычно кратно превышает время предсказания)

DAPL Jul 22 2021 at 21:46

мм..) а то идея, не думал над этим!
Спасибо за наводку

ewolf Jul 23 2021 at 00:07

Ещё один вариант, который очень простой, но довольно рабочий - использование байесовского классификатора.

Можно классифицировать на любое число классов, очень быстро работает

DAPL Jul 23 2021 at 00:24

Найду время, обязательно попробую. Будет битва алгоритмов)

VaalKIA Jul 23 2021 at 02:25

Функция ПочиститьПоле(ПреобразованноеПоле) Экспорт

Для удаления символов из строки можно делать так: СтрСоединить(СтрРазделить(строка, "!@#$%^&№", Ложь), Ложь)

DAPL Jul 23 2021 at 09:38

Ок, принято

UFO landed and left these words here

DAPL Jul 23 2021 at 09:38

Все так, 94% даже с копейками)

AlexeyKondratyev Jul 23 2021 at 09:38

Я бы предложил несколько улучшений:

В статье нет информации о сбалансированности классов. Т.к. если классы не сбалансированы, то метрика accuracy не лучший выбор.
Я бы не стал делать предобработку текста на стороне 1С. 1С очень медленно работает со строками. TfidfVectorizer по умолчанию разбирает текст на слова при помощи регулярных выражений. Это намного быстрее чем через 1С.
Попробуйте установить значение параметра ngram_range в TfidfVectorizer. Можно попробовать (1,2), (1,3) или (2,3). Суть этого параметра что кроме одиночных слов в модель добавляются еще и биграммы и/или триграммы. Т.е. выражение "проблема не решена" сейчас разбивается на "проблема", "не", "решена". А в случае использования биграмм в модель добавятся еще и словосочетания "проблема не" и "не решена".
Модель и vectorizer можно упаковать в Pipeline. Тогда будет чуть проще обучение модели, в файл можно будет сохранять не два объекта, а один (pipeline) и вызов потом проще будет. https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html

DAPL Jul 23 2021 at 09:42

Про сбалансированность пишу в коментах к коду обучения модели.
Да, Вы правы подготовка данных у меня заняла часа два) надо бы переписать.
Круто, не знал про это
Попробую
Спасибо, очень ценный отзыв!!!