Комментарии 13
Берем обычную мультимодальную модельку (если хочется хорошее понимание картинок то выбор сильно ограничен, а если еще и голосовух и документов то и вовсе выбора почти нет), пишем ей в системный промпт подробное задание о том что надо собрать такие то сведения и сформировать заказ, даем ей функцию которую надо дернуть собрав все данные и всё. Конец истории. Это тривиальная задача.
Если не рассматривать случаи общения с особо одаренными клиентами то цена одного заказа будет меньше 10 рублей, это при оплате через местных перекупов (+50% к реальной цене апи).
Сам ии чат бот это буквально 40 строк на питоне. Еще пару сотен прибавится для этого задания. Любая современная ии сделает не напрягаясь.
Ну вот, собственно, я и сделал. Можно было взять мультимодальную, но я не уверен, что ИИ сможет вытащить что-то вменяемое из картинки. Текстовое описание "тут изображен болт" - можно, да, но какая от этого польза токарю? Разве что проверить, что картинка действительно на тему заказа, но мне кажется, от этого не сильно много толку.
На первый взгляд кажется просто, но я вот нигде не видел такого в коммерческих решениях. Если вы видели, дайте ссылку.
Я тоже не видел. Даже у больших компаний типа сбера бот работает строго по сценариям, как будто ии в нем нет совсем. Не доверяют им денежные вопросы.
Хорошая модель (gemini 3 flash) может на картинке даже рисунки делать(правильно определять позицию объектов) и переспрашивать, типа обвести красным и спросить а что это за хрень на рисунке.
Ну как может, даешь ей такие функции и она делает.., как может.


зы рисование тут идет через написание хтмл кода и рендер картинки в безголовом браузере, это не нанабанана а практически бесплатный инструмент которым бот может рисовать любые хтмл тексты, и вплетать в них картинки, в хтмл код ему разрешается вставлять теги которые потом автоматом заменяются на картинки сгенерированные диффузионными моделями <img src="generate://your_detailed_prompt_here?width=VALUE&height=VALUE"> или как в данном случае картинка пришла от юзера и в хтмл была вставлена ссылка на эту картинку.
Судя по моим экспериментам с локальными моделями, генерация картинок требует меньше ресурсов, чем генерация текста. В любом случае, ваш скриншот выглядит круто. Но какую помощь мы окажем условному токарю, используя этот функционал?
Я например ухожу , где стоят боты и начинается опрос. Мне проще позвонить или чтобы мне позвонили и в живую поговорить. А в тг боте сразу удаляю бот, когда начинается: как вас зовут и т.д.
Поговорить - это сложно. Вы не сталкивались с ситуацией "мы на связи с 9 до 18 в рабочие дни"? Держать секретаря 24/7 для мелкого бизнеса бывает накладно.
С другой стороны, я попробовал сделать бота, который задает вопросы только по делу. В идеале чтобы общение с ботом не очень отличалось от общения с живым человеком.
14B модель загружается в 12 гигов тютелька в тютельку, но я работаю под Windows, и операционка пытается занять 600-800 мегабайт видеопамяти чем-то своим. В итоге появляется небольшой излишек в области "общей видеопамяти"
рассматривай модели GGUF, Qwen3-30B-A3B-GGUF к примеру 13Гб, а уж 14B моделей даже влезающих в 8Гб видеопамяти полно.
Ну и конечно старайся выбирать те которые от Q4_K_M и выше (ближе к Q8).
Спасибо за совет, поэкспериментирую.
Еще раз спасибо за совет. Я поэкспериментировал с форматом GGUF. Загружал с помощью ollama.
К сожалению, модель 30B влезает в мою видеопамять только наполовину. Я подобрал вот такую модель: Qwen3-14B-GGUF:q5_K_M с контекстом 4096. Она занимает 11ГБ видеопамяти и полностью помещается на моей видеокарточке. Благодаря этому и благодаря формату GGUF скорость работы возросла очень сильно.
Ответ да-нет теперь возвращается через 150-600 миллисекунд! Генерация сообщения - 2-5 секунд. В целом бот отвечает за 5-10 секунд. Теперь с ним общаешься не как с человеком, который печатает сообщения, а как с машиной, которая отвечает сразу. Ну, с поправкой на небольшие тормоза. Это прямо меняет ощущение от бота.
Я пробовал также, какая будет скорость работы с Qwen3-30B-A3B-GGUF. Она, хоть и обрабатывается частично процессором, выдает ответы не сильно медленнее, где-то в полтора раза. По качеству генерации 14B держит требуемый уровень. Переход с q4 на q5, кажется, дает заметную прибавку, но это не точно, надо получше потестировать. Я также сравнивал Qwen3-30B-A3B-GGUF и Qwen3-14B-GGUF на задаче "придумай и расскажи историю про выживание на необитаемом острове" - 14B показалась даже получше. Возможно A3B портит результат на задачах чистого понимания и генерации текста. Чистую 30B не пробовал, повышать квантизацию на 30B не пробовал.
В целом 14B q5 работает практически как надо. Я тестировал диалоги и подумал, что неплохо было бы добавить проверку в такой логике: если пользователь заказал срочные работы, модель должна переспросить, согласен ли он на двойную оплату. Я просто добавил строчку в конфиг-файл, сформулировал вопрос и условие, и все заработало с первого раза!
Я прикинул, сколько времени занимает обработка запроса и выдача ответа, и понял, что за 10-15 минут разговора об уточнениях, которые я познаю по мере общения, словно это викторина - проще уже легко посчитать нужное на калькуляторе, либо спросить чат гпт о средней цене деталей в твоей стране.
Не вижу особой пользы от бота, даже если накинуть ему мощность.

Чат-бот с генеративным AI под капотом (разговаривает как живой)