franticticktick Jan 29 at 17:27

Telegram бот + ИИ Jlama своими руками

Hard

5 min

5.6K

Artificial IntelligenceJava*

Tutorial

Comments 7

sshmakov Jan 29 at 21:44

Я правильно понимаю, что Java был выбран только потому, что он вам более знаком? Потому как запуск Llama на Python делается примерно в 20 строк кода, причем эти строки обычно уже написаны в readme к модели.

franticticktick Jan 30 at 07:40

Я правильно понимаю, что Java был выбран только потому, что он вам более знаком?

Java был выбран, потому что есть определенный запрос, а информации по Java реализации очень мало.

Потому как запуск Llama на Python делается примерно в 20 строк кода, причем эти строки обычно уже написаны в readme к модели.

Функция ask в ArtificialIntelligenceModel ровно 22 строки кода, а это и есть весь запуск инференса. Вообще в мире ai много строк кода не бывает о чем много раз говорил Андрей Карпатый.

sshmakov Jan 30 at 08:45

Спасибо, понятно. Стоило отметить это в статье, кмк.

Dmitry2019 Jan 30 at 03:11

Наконец-то можно и на православной Jave ИИ пользоваться. Ждём Vector API.

franticticktick Jan 30 at 07:42

Пока что запускайте с ключом: --add-modules jdk.incubator.vector --enable-preview. Vector API скорее всего появится только в 25 Java, а это сентябрь этого года, не раньше.

Shael Jan 30 at 08:07

Идея крутая, но не хватает деталей по производительности и требованиям к железу. Локальный ИИ – это не всегда практично, особенно если железо слабое. Но если модель потянет, то можно сэкономить на API и убрать зависимость от OpenAI/DeepSeek. Вопрос только в качестве ответов у 1B-модели – по-хорошему, надо тестить что-то побольше, например, Llama 3-8B

franticticktick Jan 30 at 09:56

Идея крутая, но не хватает деталей по производительности и требованиям к железу.

Пока что трудно дать какие-либо детали. Но могу сразу сказать - не все так плохо. Да, модель может есть очень много ресурсов, но это связано с прикладными задачами. Для локальных целей можно выставить адекватные параметры контекстного окна и температуры, например, при большой температуре ИИ будет сильно "креативить", что в свою очередь повлияет на ответ и, как следствие, на утилизацию ресурсов. Это кстати все неправда, что есть якобы "креативно" обученные модели, как пишут некоторые "эксперты". Все зависит от температуры, которую вы укажите в промте. Ну и количество токенов, разумеется, тут сильно не разгуляешься, но более менее оптимальный рзамер подобрать можно, чтобы сильно не проседать по ресурсам.

В общем, когда дойду до деплоя в яндекс облако, тогда уже понятно будет.

Вопрос только в качестве ответов у 1B-модели – по-хорошему, надо тестить что-то побольше, например, Llama 3-8B

Я планирую в следующей итерации добавить меню выбора доступных моделей. Пока еще руки не дошли, но как будет готово сделаю еще одну статью.