Pull to refresh

Comments 7

Я правильно понимаю, что Java был выбран только потому, что он вам более знаком? Потому как запуск Llama на Python делается примерно в 20 строк кода, причем эти строки обычно уже написаны в readme к модели.

Я правильно понимаю, что Java был выбран только потому, что он вам более знаком?

Java был выбран, потому что есть определенный запрос, а информации по Java реализации очень мало.

Потому как запуск Llama на Python делается примерно в 20 строк кода, причем эти строки обычно уже написаны в readme к модели.

Функция ask в ArtificialIntelligenceModel ровно 22 строки кода, а это и есть весь запуск инференса. Вообще в мире ai много строк кода не бывает о чем много раз говорил Андрей Карпатый.

Пока что запускайте с ключом: --add-modules jdk.incubator.vector --enable-preview. Vector API скорее всего появится только в 25 Java, а это сентябрь этого года, не раньше.

Идея крутая, но не хватает деталей по производительности и требованиям к железу. Локальный ИИ – это не всегда практично, особенно если железо слабое. Но если модель потянет, то можно сэкономить на API и убрать зависимость от OpenAI/DeepSeek. Вопрос только в качестве ответов у 1B-модели – по-хорошему, надо тестить что-то побольше, например, Llama 3-8B

Идея крутая, но не хватает деталей по производительности и требованиям к железу.

Пока что трудно дать какие-либо детали. Но могу сразу сказать - не все так плохо. Да, модель может есть очень много ресурсов, но это связано с прикладными задачами. Для локальных целей можно выставить адекватные параметры контекстного окна и температуры, например, при большой температуре ИИ будет сильно "креативить", что в свою очередь повлияет на ответ и, как следствие, на утилизацию ресурсов. Это кстати все неправда, что есть якобы "креативно" обученные модели, как пишут некоторые "эксперты". Все зависит от температуры, которую вы укажите в промте. Ну и количество токенов, разумеется, тут сильно не разгуляешься, но более менее оптимальный рзамер подобрать можно, чтобы сильно не проседать по ресурсам.

В общем, когда дойду до деплоя в яндекс облако, тогда уже понятно будет.

Вопрос только в качестве ответов у 1B-модели – по-хорошему, надо тестить что-то побольше, например, Llama 3-8B

Я планирую в следующей итерации добавить меню выбора доступных моделей. Пока еще руки не дошли, но как будет готово сделаю еще одну статью.

Sign up to leave a comment.

Articles