Комментарии 19
Какую модельку посоветуете для обобщения информации из видео? Есть ли опенсорсные варианты? На примере как сервис NoteGPT
Если рассматривать ваш сервис - есть ли API для решения подобной задачи?
Из видео обычно получается достать текст, слова, а их уже пересказывать. Открытые модели есть, whisper, voxtral. Смотреть видео без слов вроде никто кроме гугла не умеет. Чисто теоретически можно нарезать его на кадры и прогнать через распознавание картинок, это многие умеют.
Учитывая что источник видео обычно - ютуб, там даже самому распознавать голос не надо, там субтитры почти всегда есть приложенные.
бесплатный Subtitle Edit позволяет вытащить субтитрами текст из видео через Vosk/Kaldi или разные варианты Whisper (есть и с CUDA), может сконвертировать их в текст, и при необходимости сделать автоперевод через локальный сервер LM Studio. Полученный текст (или сами субтитры сразу) можно скормить моделям того же LM Studio.
Щас бы ответы чатгпт копипастить в хабр, а нам это читать. Зачем посредник в виде "автора"?
При написании этой статьи были применено несколько источников, а также три нейросети. Но затем результат редактировался вручную. Основной текст не был сгенерирован через нейросеть (хотя не вижу в этом ничего плохого — важна достоверность информации, а не способ её получения). Ну а двухуровневые списки тоже отформатированы лично мною, для удобства считывания, — но на сегодняшний день многим кажется, что это признак сгенерированности текста) Возникает парадокс, что более оптимальная структура пересекается с кажущейся сгенерированностью.
Нашёл крутой локальный кодер аналог курсора Void Editor. К сожалению моя 3060-12гб тянет тяжело. Плюс не все модели подходят доя void пока что. Но я ещё не сдался) ollama ещё попробую заменить на vLLN.
В Anaconda Navigator запускаем Anaconda AI Navigator.
Там для загрузки доступно 59 моделей. Каждая ещё и с разными вариантами квантизации.
Для "просто побаловаться" более чем достаточно, и проще некуда, если у вас уже стоит Анаконда.
Можно чатом воспользоваться, можно как локальный сервер запускать.
Вот бы статью как эффективно использовать нейроннку запущенную локально. Вот у вас есть 4090 или 5090 сделай это и это и вот у тебя есть AI ассистент который в фоне поверяет каждый коммит или выполненные команду и в удобном интерфейсе собрал для тебя все ошибки и варианты для их решения, уже составил доку, юнит тесты, релиз нотесы и готов менять статус задач по твоей команде... эх мечты, мечты
Ради интереса грузил Qwen3 на 480b параметров с квантизацией Q3. Поручил писать алгоритм изменения яркости в духе
void DoBrightness(Bitmap batman, float multipler)
Попросил всё люто‑бешено оптимизировать с unsafe и LUT таблицами, и чтобы большие битмапы через Parallel. Пахало 12 часов, справилось, честно говоря, на троечку. Видимо квантизация помешала. Модельки на 32b и 72b справились примерно так же, зато ответ выдавали через 10–30 сек.
Выводов не будет, просто делюсь опытом.
Кстати, кто пробовал локальные LLM для кодинга, по субъективному мнению, какой ЯП более менее на них сносный результат дает?
Тестил с Python i Golang. Пишет не плохо. Реальная проблема - нужно постоянно поправлять и указывать на недостатки. Итого в сумме по времени часто больше чем написать самому. Личное мнение - прикольная штука для переключения вида деятельности писать/ревью
Спасибо, я примерно о таком и слышал. Видимо кодовая база наиболее мощная использовалась.
Что до поправок и контроля, то и на больших моделях, надо очень за ними следить. Вообще прихожу к выводу, что LLM мне нужен или как хороший стартовый пинок, для организации проекта (писал тут как раз свой SQL Wizard на js и ИИ очень не плохо справился в начале), либо для очень локальных коррекций готового кода. Все остальное зачастую просто трата времени, нервов и денег выходит. Ещё в чем ИИ очень хорош - в анализе и составлении документации или комментировании кода. Тут прям мегаэкономия всего перечисленного выше!
Вместо ollama используйте llama.cpp+llama-swap.
Я предлагаю забыть про ollama, это кривое и глючное паразитное ответвление от llama.cpp.
Ollama заметно отстаёт в поддержке от llama.cpp:
Легко можете столкнуться с тем что одна и та же модель (уже не очень новая) у вас отлично работает на llama.cpp, но выдаёт мусор на ollama.
У вас не будет вулкан бэкэнда, не будет RPC и многого другого.
Были случаи с заметно более низкой производительностью (например у gemma3).
Поддержка новых моделей отстаёт.
Базовый webui c поддержкой картинок и аудио уже есть в llama.cpp (llama-server).
У llama.cpp совместимое с openai api и вы можете пользоваться любыми сторонним webui или какими-то иными инструментами под него, просто переопределив baseurl.
Изначально ollama была обвязкой над llama.cpp, где реализовали своё апи со сваппером и вендорлокнули на собственное хранилище моделей и затруднили пользование моделями с HF.
Потом они стали тащить какие-то мутные PR и делать сами тяп-ляп правки в свой форк llama.cpp, по итогу они сильно разошлись с апстримом и теперь как могут латают своё чудовище.
>LLama*
Сервильные клоуны уже не знают, как сильнее лизнуть цензорам, что даже названия моделей начали писать со звездочками. Как бабки в старину, поминая чёрта, говорили "чур меня, чур".
Это штука не убьет ресурс ссд раньше времени?
Программы вроде Ollama обычно не вызывают существенной нагрузки на ресурс SSD. Ведь модели «складируются» на диск единожды (или, во всяком случае, редко, с учётом переустановок и обновлений), а ресурс твердотельного диска расходуется только при записи, а не чтении. Больше всего будут затронуты видеокарта и оперативная память, для которых обмен данными также не является трудоёмким. Единственное, на что стоит обратить внимание, — это размещение файла подкачки на SSD-диске: вероятно, стоит отказаться от этой идеи, взамен увеличив объём оперативной памяти.
Какие из ЛЛМок смогут пользоваться локальной базой знаний (например коллекцией ПДФок). И как происходит этот процесс впринципе. Т.е. возможно ли локальную коллекцию как-то "проиндексировать" (возможно, доучить), или каждый раз при запросе (изменении модели) происходит поиск по всем заданным локальным источникам?
Какие из ЛЛМок смогут пользоваться локальной базой знаний (например коллекцией ПДФок).
Как вариант можно кормить ими ту же GPT либо модели с HugginFace. Увы конкретную модель не смогу подсказать.
Встречал несколько раз тут на хабре статьи на эту тему, в вашем случае это RAG, если нужно отвечать на основе данных в этих PDF'ках.
Т.е. возможно ли локальную коллекцию как-то "проиндексировать" (возможно, доучить), или каждый раз при запросе (изменении модели) происходит поиск по всем заданным локальным источникам?
Если рассматриваем подход RAG, то данные сохраняются в векторную базу данных, после чего модель ищет ключевые слова запроса по этой БД и собирает ответ. И да, в этом случае модель можно доучить на новых документах.
Как запустить нейросеть у себя на компьютере: 4 простых инструмента