Oleg_Sh14 фев в 21:37

Чат-бот с генеративным AI под капотом (разговаривает как живой)

Простой

12 мин

8.4K

Natural Language Processing * Искусственный интеллект

Кейс

Комментарии 13

K0Jlya9 15 фев в 05:46

Берем обычную мультимодальную модельку (если хочется хорошее понимание картинок то выбор сильно ограничен, а если еще и голосовух и документов то и вовсе выбора почти нет), пишем ей в системный промпт подробное задание о том что надо собрать такие то сведения и сформировать заказ, даем ей функцию которую надо дернуть собрав все данные и всё. Конец истории. Это тривиальная задача.

Если не рассматривать случаи общения с особо одаренными клиентами то цена одного заказа будет меньше 10 рублей, это при оплате через местных перекупов (+50% к реальной цене апи).

Сам ии чат бот это буквально 40 строк на питоне. Еще пару сотен прибавится для этого задания. Любая современная ии сделает не напрягаясь.

Oleg_Sh 15 фев в 06:59

Ну вот, собственно, я и сделал. Можно было взять мультимодальную, но я не уверен, что ИИ сможет вытащить что-то вменяемое из картинки. Текстовое описание "тут изображен болт" - можно, да, но какая от этого польза токарю? Разве что проверить, что картинка действительно на тему заказа, но мне кажется, от этого не сильно много толку.

На первый взгляд кажется просто, но я вот нигде не видел такого в коммерческих решениях. Если вы видели, дайте ссылку.

K0Jlya9 15 фев в 07:29

Я тоже не видел. Даже у больших компаний типа сбера бот работает строго по сценариям, как будто ии в нем нет совсем. Не доверяют им денежные вопросы.

Хорошая модель (gemini 3 flash) может на картинке даже рисунки делать(правильно определять позицию объектов) и переспрашивать, типа обвести красным и спросить а что это за хрень на рисунке.

Ну как может, даешь ей такие функции и она делает.., как может.

K0Jlya9 15 фев в 07:46

зы рисование тут идет через написание хтмл кода и рендер картинки в безголовом браузере, это не нанабанана а практически бесплатный инструмент которым бот может рисовать любые хтмл тексты, и вплетать в них картинки, в хтмл код ему разрешается вставлять теги которые потом автоматом заменяются на картинки сгенерированные диффузионными моделями <img src="generate://your_detailed_prompt_here?width=VALUE&height=VALUE"> или как в данном случае картинка пришла от юзера и в хтмл была вставлена ссылка на эту картинку.

Oleg_Sh 15 фев в 08:00

Судя по моим экспериментам с локальными моделями, генерация картинок требует меньше ресурсов, чем генерация текста. В любом случае, ваш скриншот выглядит круто. Но какую помощь мы окажем условному токарю, используя этот функционал?

K0Jlya9 15 фев в 13:39

Просто более качественное общение. База же тут это естественный язык, если бы боты общались нормально то у людей не вырабатывалась бы реакция сразу забанить при виде скрипта.

gkaliostro8 15 фев в 07:15

Я например ухожу , где стоят боты и начинается опрос. Мне проще позвонить или чтобы мне позвонили и в живую поговорить. А в тг боте сразу удаляю бот, когда начинается: как вас зовут и т.д.

Oleg_Sh 15 фев в 07:28

Поговорить - это сложно. Вы не сталкивались с ситуацией "мы на связи с 9 до 18 в рабочие дни"? Держать секретаря 24/7 для мелкого бизнеса бывает накладно.

С другой стороны, я попробовал сделать бота, который задает вопросы только по делу. В идеале чтобы общение с ботом не очень отличалось от общения с живым человеком.

zbot 15 фев в 21:28

14B модель загружается в 12 гигов тютелька в тютельку, но я работаю под Windows, и операционка пытается занять 600-800 мегабайт видеопамяти чем-то своим. В итоге появляется небольшой излишек в области "общей видеопамяти"

рассматривай модели GGUF, Qwen3-30B-A3B-GGUF к примеру 13Гб, а уж 14B моделей даже влезающих в 8Гб видеопамяти полно.
Ну и конечно старайся выбирать те которые от Q4_K_M и выше (ближе к Q8).

Oleg_Sh 16 фев в 18:49

Спасибо за совет, поэкспериментирую.

Oleg_Sh 20 фев в 20:08

Еще раз спасибо за совет. Я поэкспериментировал с форматом GGUF. Загружал с помощью ollama.

К сожалению, модель 30B влезает в мою видеопамять только наполовину. Я подобрал вот такую модель: Qwen3-14B-GGUF:q5_K_M с контекстом 4096. Она занимает 11ГБ видеопамяти и полностью помещается на моей видеокарточке. Благодаря этому и благодаря формату GGUF скорость работы возросла очень сильно.

Ответ да-нет теперь возвращается через 150-600 миллисекунд! Генерация сообщения - 2-5 секунд. В целом бот отвечает за 5-10 секунд. Теперь с ним общаешься не как с человеком, который печатает сообщения, а как с машиной, которая отвечает сразу. Ну, с поправкой на небольшие тормоза. Это прямо меняет ощущение от бота.

Я пробовал также, какая будет скорость работы с Qwen3-30B-A3B-GGUF. Она, хоть и обрабатывается частично процессором, выдает ответы не сильно медленнее, где-то в полтора раза. По качеству генерации 14B держит требуемый уровень. Переход с q4 на q5, кажется, дает заметную прибавку, но это не точно, надо получше потестировать. Я также сравнивал Qwen3-30B-A3B-GGUF и Qwen3-14B-GGUF на задаче "придумай и расскажи историю про выживание на необитаемом острове" - 14B показалась даже получше. Возможно A3B портит результат на задачах чистого понимания и генерации текста. Чистую 30B не пробовал, повышать квантизацию на 30B не пробовал.

В целом 14B q5 работает практически как надо. Я тестировал диалоги и подумал, что неплохо было бы добавить проверку в такой логике: если пользователь заказал срочные работы, модель должна переспросить, согласен ли он на двойную оплату. Я просто добавил строчку в конфиг-файл, сформулировал вопрос и условие, и все заработало с первого раза!

Daxifl 16 фев в 00:54

Я прикинул, сколько времени занимает обработка запроса и выдача ответа, и понял, что за 10-15 минут разговора об уточнениях, которые я познаю по мере общения, словно это викторина - проще уже легко посчитать нужное на калькуляторе, либо спросить чат гпт о средней цене деталей в твоей стране.

Не вижу особой пользы от бота, даже если накинуть ему мощность.

Oleg_Sh 16 фев в 18:48

Ответ занимает меньше минуты. Все еще быстрее, чем когда переписываешься с человеком. Ты мог бы попробовать пообщаться сам, бот работает. Просто заходи по адресу и начинай диалог.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий