dmitrifriend 28 июл в 12:55

Как запустить нейросеть у себя на компьютере: 4 простых инструмента

Простой

11 мин

21K

Блог компании BotHubИскусственный интеллектКомпьютерное железоМашинное обучение *

Обзор

+28

Комментарии 24

IIIIIIIIII1234 28 июл в 14:47

Какую модельку посоветуете для обобщения информации из видео? Есть ли опенсорсные варианты? На примере как сервис NoteGPT

Если рассматривать ваш сервис - есть ли API для решения подобной задачи?

pol_pot 29 июл в 00:10

Из видео обычно получается достать текст, слова, а их уже пересказывать. Открытые модели есть, whisper, voxtral. Смотреть видео без слов вроде никто кроме гугла не умеет. Чисто теоретически можно нарезать его на кадры и прогнать через распознавание картинок, это многие умеют.

Учитывая что источник видео обычно - ютуб, там даже самому распознавать голос не надо, там субтитры почти всегда есть приложенные.

muraview 31 июл в 01:00

бесплатный Subtitle Edit позволяет вытащить субтитрами текст из видео через Vosk/Kaldi или разные варианты Whisper (есть и с CUDA), может сконвертировать их в текст, и при необходимости сделать автоперевод через локальный сервер LM Studio. Полученный текст (или сами субтитры сразу) можно скормить моделям того же LM Studio.

kaibruneji 28 июл в 15:31

Щас бы ответы чатгпт копипастить в хабр, а нам это читать. Зачем посредник в виде "автора"?

dmitrifriend 29 июл в 09:13

При написании этой статьи были применено несколько источников, а также три нейросети. Но затем результат редактировался вручную. Основной текст не был сгенерирован через нейросеть (хотя не вижу в этом ничего плохого — важна достоверность информации, а не способ её получения). Ну а двухуровневые списки тоже отформатированы лично мною, для удобства считывания, — но на сегодняшний день многим кажется, что это признак сгенерированности текста) Возникает парадокс, что более оптимальная структура пересекается с кажущейся сгенерированностью.

artmel 31 июл в 14:19

Причем тут списки?

За километр чувствуется стиль написания нейросетью.

Кстати спросите у нее когда LMStudio научился файнтюнить модели?

dmitrifriend 31 июл в 20:17

Знаете, сейчас часто говорят, что мы видим нейросетевые следы повсюду. Это явление слишком субъективно, чтобы на нём зацикливаться.

Спасибо большое, исправил про файнтюнинг — все источники подтверждают его отсутствие в указанной системе.

artmel 3 авг в 08:28

Это не следы.

те кто постоянно работают с ллм уже наизусть знают их стиль.

Это именно стиль "вашей" статьи.

Плюс непроверенные данные. не только по лмстудии а по многому другому.

Либо конечно я ошибаюсь и статью написал человек. Человек, который вообще не понимает в том что пишет.

dmitrifriend 3 авг в 15:35

Нет, это не так.

mckokos 28 июл в 16:17

Нашёл крутой локальный кодер аналог курсора Void Editor. К сожалению моя 3060-12гб тянет тяжело. Плюс не все модели подходят доя void пока что. Но я ещё не сдался) ollama ещё попробую заменить на vLLN.

eresik 28 июл в 19:06

В Anaconda Navigator запускаем Anaconda AI Navigator.
Там для загрузки доступно 59 моделей. Каждая ещё и с разными вариантами квантизации.

Для "просто побаловаться" более чем достаточно, и проще некуда, если у вас уже стоит Анаконда.
Можно чатом воспользоваться, можно как локальный сервер запускать.

VBDUnit 28 июл в 23:05

LM Studio кстати тоже умеет поднимать сервер, даже несколько моделей параллельно можно грузить.

DANic 28 июл в 20:20

Вот бы статью как эффективно использовать нейроннку запущенную локально. Вот у вас есть 4090 или 5090 сделай это и это и вот у тебя есть AI ассистент который в фоне поверяет каждый коммит или выполненные команду и в удобном интерфейсе собрал для тебя все ошибки и варианты для их решения, уже составил доку, юнит тесты, релиз нотесы и готов менять статус задач по твоей команде... эх мечты, мечты

VBDUnit 28 июл в 23:12

Ради интереса грузил Qwen3 на 480b параметров с квантизацией Q3. Поручил писать алгоритм изменения яркости в духе

void DoBrightness(Bitmap batman, float multipler)

Попросил всё люто‑бешено оптимизировать с unsafe и LUT таблицами, и чтобы большие битмапы через Parallel. Пахало 12 часов, справилось, честно говоря, на троечку. Видимо квантизация помешала. Модельки на 32b и 72b справились примерно так же, зато ответ выдавали через 10–30 сек.

Выводов не будет, просто делюсь опытом.

starfair 29 июл в 07:30

Кстати, кто пробовал локальные LLM для кодинга, по субъективному мнению, какой ЯП более менее на них сносный результат дает?

max851 29 июл в 08:09

Тестил с Python i Golang. Пишет не плохо. Реальная проблема - нужно постоянно поправлять и указывать на недостатки. Итого в сумме по времени часто больше чем написать самому. Личное мнение - прикольная штука для переключения вида деятельности писать/ревью

starfair 29 июл в 08:26

Спасибо, я примерно о таком и слышал. Видимо кодовая база наиболее мощная использовалась.
Что до поправок и контроля, то и на больших моделях, надо очень за ними следить. Вообще прихожу к выводу, что LLM мне нужен или как хороший стартовый пинок, для организации проекта (писал тут как раз свой SQL Wizard на js и ИИ очень не плохо справился в начале), либо для очень локальных коррекций готового кода. Все остальное зачастую просто трата времени, нервов и денег выходит. Ещё в чем ИИ очень хорош - в анализе и составлении документации или комментировании кода. Тут прям мегаэкономия всего перечисленного выше!

EvilFox 29 июл в 08:39

Вместо ollama используйте llama.cpp+llama-swap.
Я предлагаю забыть про ollama, это кривое и глючное паразитное ответвление от llama.cpp.

Ollama заметно отстаёт в поддержке от llama.cpp:

Легко можете столкнуться с тем что одна и та же модель (уже не очень новая) у вас отлично работает на llama.cpp, но выдаёт мусор на ollama.
У вас не будет вулкан бэкэнда, не будет RPC и многого другого.
Были случаи с заметно более низкой производительностью (например у gemma3).
Поддержка новых моделей отстаёт.
Базовый webui c поддержкой картинок и аудио уже есть в llama.cpp (llama-server).
У llama.cpp совместимое с openai api и вы можете пользоваться любыми сторонним webui или какими-то иными инструментами под него, просто переопределив baseurl.

Изначально ollama была обвязкой над llama.cpp, где реализовали своё апи со сваппером и вендорлокнули на собственное хранилище моделей и затруднили пользование моделями с HF.
Потом они стали тащить какие-то мутные PR и делать сами тяп-ляп правки в свой форк llama.cpp, по итогу они сильно разошлись с апстримом и теперь как могут латают своё чудовище.

Licemery 29 июл в 12:04

>LLama*

Сервильные клоуны уже не знают, как сильнее лизнуть цензорам, что даже названия моделей начали писать со звездочками. Как бабки в старину, поминая чёрта, говорили "чур меня, чур".

maertor 29 июл в 22:14

Это штука не убьет ресурс ссд раньше времени?

dmitrifriend 29 июл в 22:43

Программы вроде Ollama обычно не вызывают существенной нагрузки на ресурс SSD. Ведь модели «складируются» на диск единожды (или, во всяком случае, редко, с учётом переустановок и обновлений), а ресурс твердотельного диска расходуется только при записи, а не чтении. Больше всего будут затронуты видеокарта и оперативная память, для которых обмен данными также не является трудоёмким. Единственное, на что стоит обратить внимание, — это размещение файла подкачки на SSD-диске: вероятно, стоит отказаться от этой идеи, взамен увеличив объём оперативной памяти.

allsan 30 июл в 19:54

Какие из ЛЛМок смогут пользоваться локальной базой знаний (например коллекцией ПДФок). И как происходит этот процесс впринципе. Т.е. возможно ли локальную коллекцию как-то "проиндексировать" (возможно, доучить), или каждый раз при запросе (изменении модели) происходит поиск по всем заданным локальным источникам?

Zeus42 31 июл в 11:03

Какие из ЛЛМок смогут пользоваться локальной базой знаний (например коллекцией ПДФок).

Как вариант можно кормить ими ту же GPT либо модели с HugginFace. Увы конкретную модель не смогу подсказать.

Встречал несколько раз тут на хабре статьи на эту тему, в вашем случае это RAG, если нужно отвечать на основе данных в этих PDF'ках.

Т.е. возможно ли локальную коллекцию как-то "проиндексировать" (возможно, доучить), или каждый раз при запросе (изменении модели) происходит поиск по всем заданным локальным источникам?

Если рассматриваем подход RAG, то данные сохраняются в векторную базу данных, после чего модель ищет ключевые слова запроса по этой БД и собирает ответ. И да, в этом случае модель можно доучить на новых документах.

apcs660 4 авг в 18:01

lamafile удобен для демок - скачал и запускаешь. Как статическая сборка выполняемая.

Недавно проходил курс, и адаптировал его для прохождения с локальным сервером ollama - по ходу выяснил что ollama для совместимости с open ai (rest) нужно запускать с другим ключом.

Хорошо когда логика отделяется от имплементации.

https://docs.litellm.ai/docs/ - прокси адаптер для внешних и локальных серверов с моделями. Пишешь код используя клиента прокси, чтоб бизнес логика не загрязнялась, удобно портировать.

RAG проекты, их несть числа, очень часто код сырой, настройки для open ai в облаке по умолчанию, когда запускаешь с локальным железом, бывает очень грустно - минут 10 документ могут обрабатывать...

https://github.com/infiniflow/ragflow из свежих, еще не успел его помучать хорошо. Приехал на другой адрес (мотаюсь), привез видюху с oculink eGPU с собой, а блок питания забыл... читаю книжки в общем, без локальных тестов.

Не помню точно, https://github.com/PromtEngineer/localGPT либо https://github.com/zylon-ai/private-gpt проект запускал локально, сырой и медленный оказался.

Если интересуют бесплатные короткие курсы быстро войти в тему RAG, то понравились следующие:

Haystack в общем, продуманный матерый framework с хорошей архитектурой близкой к enterprise и привычным flow engine: https://learn.deeplearning.ai/courses/building-ai-applications-with-haystack

Langchain неплох, но RAG это не совсем его специализация, мне так показалось

https://learn.deeplearning.ai/courses/langchain-chat-with-your-data/lesson/snupv/introduction

RAG с llamaindex:

https://learn.deeplearning.ai/courses/building-agentic-rag-with-llamaindex

С MCP пока RAG не видел, но почему бы нет? RAG это не только векторный поиск, а зонтичное покрытие методов поиска информации во внешних источниках.

a особенно RAG с neo4j: https://learn.deeplearning.ai/courses/knowledge-graphs-rag

Если интересует RAG с парсингом контента с помощью LLM в knowledge graph, есть достаточно свежий проект (смотрю его): https://github.com/stair-lab/kg-gen , у них и работа не так давно вывешена: https://arxiv.org/abs/2502.09956

Тема knowledge graph зацепила, сейчас смотрю ее. Неплохой курс лекций: https://migalkin.github.io/kgcourse2021/, введение и шпаргалка (слайды): https://migalkin.github.io/kgcourse2021/assets/slides/Lecture2.pdf

Пардон за длинный коммент и флуд, если что.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий