Обновить

Комментарии 13

Берем обычную мультимодальную модельку (если хочется хорошее понимание картинок то выбор сильно ограничен, а если еще и голосовух и документов то и вовсе выбора почти нет), пишем ей в системный промпт подробное задание о том что надо собрать такие то сведения и сформировать заказ, даем ей функцию которую надо дернуть собрав все данные и всё. Конец истории. Это тривиальная задача.

Если не рассматривать случаи общения с особо одаренными клиентами то цена одного заказа будет меньше 10 рублей, это при оплате через местных перекупов (+50% к реальной цене апи).

Сам ии чат бот это буквально 40 строк на питоне. Еще пару сотен прибавится для этого задания. Любая современная ии сделает не напрягаясь.

Ну вот, собственно, я и сделал. Можно было взять мультимодальную, но я не уверен, что ИИ сможет вытащить что-то вменяемое из картинки. Текстовое описание "тут изображен болт" - можно, да, но какая от этого польза токарю? Разве что проверить, что картинка действительно на тему заказа, но мне кажется, от этого не сильно много толку.

На первый взгляд кажется просто, но я вот нигде не видел такого в коммерческих решениях. Если вы видели, дайте ссылку.

Я тоже не видел. Даже у больших компаний типа сбера бот работает строго по сценариям, как будто ии в нем нет совсем. Не доверяют им денежные вопросы.

Хорошая модель (gemini 3 flash) может на картинке даже рисунки делать(правильно определять позицию объектов) и переспрашивать, типа обвести красным и спросить а что это за хрень на рисунке.

Ну как может, даешь ей такие функции и она делает.., как может.

зы рисование тут идет через написание хтмл кода и рендер картинки в безголовом браузере, это не нанабанана а практически бесплатный инструмент которым бот может рисовать любые хтмл тексты, и вплетать в них картинки, в хтмл код ему разрешается вставлять теги которые потом автоматом заменяются на картинки сгенерированные диффузионными моделями <img src="generate://your_detailed_prompt_here?width=VALUE&height=VALUE"> или как в данном случае картинка пришла от юзера и в хтмл была вставлена ссылка на эту картинку.

Судя по моим экспериментам с локальными моделями, генерация картинок требует меньше ресурсов, чем генерация текста. В любом случае, ваш скриншот выглядит круто. Но какую помощь мы окажем условному токарю, используя этот функционал?

Просто более качественное общение. База же тут это естественный язык, если бы боты общались нормально то у людей не вырабатывалась бы реакция сразу забанить при виде скрипта.

Я например ухожу , где стоят боты и начинается опрос. Мне проще позвонить или чтобы мне позвонили и в живую поговорить. А в тг боте сразу удаляю бот, когда начинается: как вас зовут и т.д.

Поговорить - это сложно. Вы не сталкивались с ситуацией "мы на связи с 9 до 18 в рабочие дни"? Держать секретаря 24/7 для мелкого бизнеса бывает накладно.

С другой стороны, я попробовал сделать бота, который задает вопросы только по делу. В идеале чтобы общение с ботом не очень отличалось от общения с живым человеком.

  • 14B модель загружается в 12 гигов тютелька в тютельку, но я работаю под Windows, и операционка пытается занять 600-800 мегабайт видеопамяти чем-то своим. В итоге появляется небольшой излишек в области "общей видеопамяти"

рассматривай модели GGUF, Qwen3-30B-A3B-GGUF к примеру 13Гб, а уж 14B моделей даже влезающих в 8Гб видеопамяти полно.
Ну и конечно старайся выбирать те которые от Q4_K_M и выше (ближе к Q8).

Спасибо за совет, поэкспериментирую.

Еще раз спасибо за совет. Я поэкспериментировал с форматом GGUF. Загружал с помощью ollama.

К сожалению, модель 30B влезает в мою видеопамять только наполовину. Я подобрал вот такую модель: Qwen3-14B-GGUF:q5_K_M с контекстом 4096. Она занимает 11ГБ видеопамяти и полностью помещается на моей видеокарточке. Благодаря этому и благодаря формату GGUF скорость работы возросла очень сильно.

Ответ да-нет теперь возвращается через 150-600 миллисекунд! Генерация сообщения - 2-5 секунд. В целом бот отвечает за 5-10 секунд. Теперь с ним общаешься не как с человеком, который печатает сообщения, а как с машиной, которая отвечает сразу. Ну, с поправкой на небольшие тормоза. Это прямо меняет ощущение от бота.

Я пробовал также, какая будет скорость работы с Qwen3-30B-A3B-GGUF. Она, хоть и обрабатывается частично процессором, выдает ответы не сильно медленнее, где-то в полтора раза. По качеству генерации 14B держит требуемый уровень. Переход с q4 на q5, кажется, дает заметную прибавку, но это не точно, надо получше потестировать. Я также сравнивал Qwen3-30B-A3B-GGUF и Qwen3-14B-GGUF на задаче "придумай и расскажи историю про выживание на необитаемом острове" - 14B показалась даже получше. Возможно A3B портит результат на задачах чистого понимания и генерации текста. Чистую 30B не пробовал, повышать квантизацию на 30B не пробовал.

В целом 14B q5 работает практически как надо. Я тестировал диалоги и подумал, что неплохо было бы добавить проверку в такой логике: если пользователь заказал срочные работы, модель должна переспросить, согласен ли он на двойную оплату. Я просто добавил строчку в конфиг-файл, сформулировал вопрос и условие, и все заработало с первого раза!

Я прикинул, сколько времени занимает обработка запроса и выдача ответа, и понял, что за 10-15 минут разговора об уточнениях, которые я познаю по мере общения, словно это викторина - проще уже легко посчитать нужное на калькуляторе, либо спросить чат гпт о средней цене деталей в твоей стране.

  • Не вижу особой пользы от бота, даже если накинуть ему мощность.

Ответ занимает меньше минуты. Все еще быстрее, чем когда переписываешься с человеком. Ты мог бы попробовать пообщаться сам, бот работает. Просто заходи по адресу и начинай диалог.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации