Тестирование платформы DeepSeek для проверки гипотез по анализу данных / Хабр

Привет, Хабр!

Мы, ребята из Центра эксплуатации Блока ИТ Страхового Дома ВСК, занимаемся управлением автоматизации ИТ-процессов. И у нас, как у всех — куча прикладных задач, которые хочется закрыть быстро дешево и качественно. Недавний хайп по Deepseek не обошел нас стороной, и мы решили протестировать платформу по парочке гипотез в надежде на чудо.

И так, мы решили сфокусироваться на потребностях нашей команды технической поддержки в части анализа и обработки данных по ключевым метрикам и категоризации обращений.

Гипотеза 1: Оценка тенденций ключевых показателей технической поддержки

Мы решили проверить, насколько DeepSeek способен анализировать динамику показателей. В качестве данных взяли выгрузку по основным метрикам техподдержки: SLA, количество заявок (поступило/решено), количество негативных отзывов и пр. Скармливали выгрузку Excel, в общем то, простая таблица со следующими показателями (столбцы):

Наш промпт был достаточно простой (на то она и проверка гипотезы):

В выгрузке данные по метрикам технической поддержки продавца. Сравни тренды всех показателей в 3 периодах: 1) январь 2023 - декабрь 2023; 2) январь 24 - сентябрь 24; 3) октябрь 24 - февраль 25.
Сделай выводы как изменилась качество технической поддержки личного кабинета. Предложи мероприятия по улучшению.

И вот, что у нас получилось на выходе:

Мероприятия по улучшению, предложенные нейронкой, совпали и с нашими идеями, звучат логично и приемлемо, но ничего инновационного и креативного не выявила. Наc устроило)

С учетом достаточно короткого промпта, в отчете видна попытка создать структуру: присутствуют временные буллиты, остальное, так же, выделено по пунктам. Однако далеко не все показатели вошли в отчет, большая часть просто пропущена. Также были допущены логические ошибки: в ряде случаев платформа интерпретировала рост показателей как их снижение.

В целом, при доработке промпта, вполне возможно получать аналитику со стабильной структурой. И, в совокупности с нашими текущими дашбордами можно делать вполне «жирные» отчеты для руководства, причем бесплатно. Да, мы использовали бесплатный тариф.

Гипотеза 2: Категоризация обращений в поддержку по полю «Описание»

Далее мы решили проверить, насколько DeepSeek справится с автоматической категоризацией обращений пользователей в техподдержку. Для теста взяли реальный массив данных — больше 70 000 строк из таблицы Excel, где собрали обращения пользователей за три квартала. Основная идея заключалась в том, чтобы понять, насколько точно платформа сможет выделить категории и проследить динамику изменений во времени.

Мы подготовили выгрузку с историей обращений, где у каждого запроса было текстовое описание проблемы в свободной форме, а также другая сопутствующая информация (дата обращения, статус, время решения и др.). Данные охватывали три периода:

3 квартал 2024 года,
4 квартал 2024 года,
1 квартал 2025 года

Мы сформулировали следующий промпт:

В файле обращения пользователей личного кабинета продавца в техническую поддержку.
Категоризируй обращения по причинам обращений. Выдели не более 10 категорий.
Проведи анализ изменений процентного соотношения категорий за 3 кв. 2024, 4 кв. 2024 и 1 кв. 2025г.

В результате получили:

Во-первых, DeepSeek действительно выделил категории обращений, и в целом они совпали с теми, которые мы вручную определяли в предыдущих анализах. Для нас это хороший показатель: алгоритм не просто хаотично сортирует данные, а использует определенную логику.

Однако встречались и погрешности. Некоторые обращения попадали сразу в несколько категорий или, наоборот, распределялись нерелевантно. Иногда похожие по смыслу запросы оказывались в разных категориях.

Во-вторых, как мы уже говорили, бесплатная версия при работе с большим объемом данных работает со серьезными ограничениями. Поэтому упомянем еще раз: если рассматривать DeepSeek в качестве инструмента для работы с крупными датасетами, такие ограничения значительно уменьшают его ценность.

Но DeepSeek действительно выявил некоторые закономерности: например, снижение числа обращений по доступу в ЛК в 1 квартале 2025 года (связываем со стабилизацией работы авторизации).

Однако не обошлось без ошибок: в ряде случаев DeepSeek показывал увеличение числа обращений по конкретной категории, хотя в исходных данных этот показатель снижался. Опять же, были повторились ошибки, когда фактически в данных показатель снижался, а у нейронки в отчете он увеличивался.

Итог

Понятно, что с большим массивом данных лучше шагать в специальные прикладные ИИ инструменты, но, если нужно быстро разложить небольшую выборку по категориям (первичная аналитика) — DeepSeek вполне справляется: автоматически структурирует обращения и выделяет основные тренды, что экономит время. Однако работа с динамикой ИИ дается не совсем точно и репрезентативно. Самое ценное, что нам дала работа с DeepSeek — быстрая категоризация запросов, которую мы планируем активно использовать для анализа.

Оправдывает ли DeepSeek ваши ожидания? Будем рады пообщаться в комментариях :)

Тестирование платформы DeepSeek для проверки гипотез по анализу данных

Публикации

Информация