Комментарии 14
Спасибо, очень интересно!
Спасибо. Очень интересно. А вы проверяли что нейросеть ничего в интернет не отправляет? Например при использовании koboldcpp и различных моделей внезапно запросы с хоста на котором работает модель идут такие запросы:
apex-domain-nlb-610ce55e8d445742.elb.us-east-1.amazonaws.com.:A:60=34.194.97.138
apex-domain-nlb-610ce55e8d445742.elb.us-east-1.amazonaws.com.:A:60=34.200.2.98>
Вед не я один логирую все запросы с роутера и предварительно внешние обученые модели файрволить, чтобы безопасность была безопасной. Наверное получится хорошая статья если получится еще вытащить тело хоста и узнать что отправляется "провайдеру бесплатной модели".
Спасибо большое за крутой комментарий, тема безопасности это как раз основной мотиватор использования локальных моделей! Специально по хостам не мониторил, но какой-то необычной активности не наблюдал. Думаю для реальных проектов для контейнера с ollama необходимо создавать контейнер в другой сетке без интернета в докере.
Крутая статья!
Ноутбук с Linux это, наверное, минимально ограничивающий программиста вариант с точки зрения политик и возможностей СБ ? Root, свобода в установке софта?
Действительно на данный момент под Windows (в меньшей степени под Mac) больше готовых инструментов "ограничивающих" кислород, субъективно предполагаю, что тренд будет все же в сторону линуксового ПО, тк лицензии покупать стало сложнее. Мне лично удобнее разрабатывать под Linux, тк среда разработки похожа на продуктив.
а на макбуке про с М1макс и 32Гб оперативки хватит ресурсов для работы?
Мне, к сожалению, не на чем попробовать, но почти уверен, что будет работать и ресурсов хватит, а вот оценить скорость работы поможет только эксперимент. Попробуйте сначала модель пошустрее deepseek-coder:6.7b. На Mac возможно имеет смысл запускать ollama как нативное приложение (можно скачать на официальном сайте), будет выигрыш по производительности 50%, тк, докер скорее всего GPU в контейнер не пробросит (возможно уже пофиксили).
Может codestral тормозил потому что не помещался в видеопамять и считался на CPU?
Спасибо большое за хороший комментарий! Есть поле для исследования. Действительно размер образа codestral:22b - 12Gb, при использовании модели nvtop показывает загрузку видеопамяти 11.635 из 12Gb (размер видеопамяти моей карты), прям впритык. При использовании модели загрузка GPU 10-20%, CPU примерно 30%, но нет увеличения использования обычной памяти.
статья - бомба!
туториал от continue предлагает другие модели - например llama3/3.1. вы их не трогали случайно?
Спасибо большое за отличный комментарий! Действительно моделей гораздо больше, чем я описал, более того я лично попробовал лишь малую часть. Предлагаемая Вами модель больше относится к общим языковым моделям, думаю, что тоже справится с кодом, но это не ее специфика. Стоит так же обращать внимание на лицензию и компанию разработчика модели, оценить сможете ли Вы ее использовать.
Для запуска olama с опцией --gpus=all мне потребовалось установить https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html
Спасибо большое за комментарий! Про установку дополнительных пакетов для докера я писал во второй части статьи:
https://habr.com/ru/companies/ozonbank/articles/848064/
Внешняя видеокарта backend-разработчика, или как заставить лучшего друга перестать тупить и начать помогать (часть 1)