Comments 13
Установить и использовать LLM локально легко и доступно для любого современного ПК и любой операционной системы.
Без оговорок про необходимые ресурсы?
На 7b нужно что то типа гига на видеокарте. Можно запустить чисто на процессоре. Про 32b и больше есть сноска.
Для qwen 8b в lmstudio с приличной скоростью работы (40 токенов в секунду) нужна видеокарта с 12гб памяти.
Спасибо, что дополнили информацию. Тем не менее есть разница между возможностью использования (фактически - запуска) и использования в высоком качестве (скорости).
Мне удалось запустить нейросеть для генерации автодополнения кода на ryzen 5 без видеокарты при адекватном использовании. В статье не учтены некоторые нюансы (например: для видеокарт Nvidia нейросетки адаптированы лучше и т.п.) намеренно, чтобы не грузить читателя.
Попробую на днях, как раз карточка 16gb завалялась. Посмотрю насколько сильно начнет пылесосить при использовании. Ее бы еще доубучать на правильных проектах. К примеру, эластик , а солр в топку.
Сейчас в учебных целях rag поиск прогоняю, гибридный, в векторной базе и в обычном индексе.
И вот какой у меня вопрос получается - если с классическим полнотекстовым поиском все понятно - на люсин делаешь или на суффиксном массиве (теоретически) или на триграммах от гугла то как быть с knn векторами при обработке больших текстов, непонятно. Мелкие тексты и метаданные без вопросов.
Предобработал я текст, к примеру, мегабайт, порезал на параграфы и тд, чтоб в сетку влез (ограничения по длине), но ведь контекст поиска может затрагивать сразу несколько таких сегментов, и получится что knn вектор запроса не попадет толком ни в один из векторов отрезков текста. Второй вопрос, как разделить поиск по метаданным от поиска по контенту документа. В реале получается что нужно городить достаточно навороченную схему и минимум две модели тащить. Это мне, что две видюхи для обучения цеплять...
Так никаких киловатт не напасешься.
Попробуйте lmstudio - там все в одном: неплохой набор быстрых движков с системой автообновления, поисковик и менеджер LLM, чаты с историей и бранчингом, менеджер промтов, богатые настройки с привязкой к конкретной сетке, поддержка всех современных форматов сеток, в том числе moe, a3b, mlx, поддержка ускорения за счет draft-сеток, встроенный openai-like сервер с опциональной возможность загрузки/выгрузки нужных нейронок налету. Для энтузиастов даже есть поддержка ферм GPU. Чего еще желать то?
Запускаем lmstudio, встроенный в нее сервер, IDE. В IDE в каком-нибудь gpt-плагине (codegpt, jetbrains ai) выбираем кастомный сервер, копируем туда адрес сервера, опционально включаем оффлайн-режим (чтобы в облака запросы не ходили) - и по сути все, теперь поддержкой IDE полностью занимается локальная lmstudio. Модельки там можно подобрать достаточно умные (devstrail, phi4, deepseek, qwen3, gemma3, qwq, tproit, codestral), получается не хуже чатгопоты, но абсолютно бесплатно, безопасно, и с возможностями покруче чем в хайповом курсоре.
Главное обратить внимание что обычно предлагается две модельки: нужно выбирать ту что побыстрее для автодополнения, и ту что поумнее для чатиков, рефакторинга и каких-нибудь глобальных перестроек. Если памяти достаточно, это еще и быстро работает: можно в сервере настроить опцию не выгружать модельки, и тогда обе будут доступны мгновенно, по запросу из IDE, без подгрузок. На современных 16+ gpu самое то.
У меня стоял deepseek coder v2, в один прекрасный момент я решил на работе распарсить данные в BTree из обычного ini, и понял что без него сам уже с трудом вспомнил or_insert_with, решил не лениться и писать таки руками, а вот пообщаться с нейронкой про код это я всегда)
А для нагревателей, термопотов или кофемашин есть?
Устанавливаем Continue (ссылка). Заходим во вкладку установленного плагина.
А ссылка-то где?
Вероятно, https://marketplace.visualstudio.com/items?itemName=Continue.continue для VS-code, поскольку автор в итоге остался на этой IDE, @DLeo13 так?
У меня в VS-Codium стоят плагины к Zencoder и Codeium. Я пару лет бета тестер этих систем. Просто для авто-дополнения LLM не нужны, тот же Jedi делает это десятилетиями, и появился он намного раньше Conda или Kite.
В обоих Pluginах, что я назвал, есть агентное поведение (Coffee mode) оно хорошо работает через TDD: Дал ТЗ, надо - уточнил с AI, попросил создать сначала тесты, потом создать код под тесты, там где непонятно создать шаблоны и остановиться для запроса новых уточнений. Работает хорошо, потому как Zencoder, например, прогоняет тест/код у себя перед выдачей. И мне нравится, как выдается усредненный среднестатистический код, при кодовой начитанности он очень легко читается.
На понимание, как работает та или иная модель я трачу около 30 минут ежедневно (до 1,5ч. в день на обе) и уже могу предсказывать, какой результат получится на тот или иной промпт, или где именно будет ошибка в ответе модели. Было пару обновлений моделей с деградацией, сразу становится заметно. Знание этого очень убыстряет процесс разработки с AI, и не думаю, что мои когнитивные способности сильно снизились за последние 3 года. А критическое мышление по отношению к коду как раз улучшилось.
Увы собственные ресурсы пока не позволяют мне поставить модель локально, а codeium aka winsurf дает такую возможность.
Меня смешит вопрос NDA, поскольку слишком многие enterprise построены на OOS и не будь их, не было бы и этого enterprise. И мне повезло, что в компаниях, где я работал, не было запрета на работы с агентами.
Большое спасибо @DLeo13за возможность попробовать, вроде CodeQwen 7B или DickPic DeepSeek могут у меня запуститься (полистал обсуждения на reddit).
Практическая инструкция для чайника по использованию нейросетей в разработке