Pull to refresh

Comments 16

Обычно при таких результатах сразу подозрение не попали ли тестовые данные в обучение, и часто оказывалось что так и есть)

Да, есть подозрения, но от части их развеивает тот факт, что при локальном запуске модель действительно генерирует очень много разных вариантов при размышлениях. Для 3B модели сделать 20к токенов на 1 ответ по моему опыту абсолютный рекорд. Даже 20-30B обычно не дают на ответ больше 8-10к токенов.

Меняет правила, меняет будущее, мир никогда не будет прежним, новая реальность шокирует. Вообщем bull shit

Правильно "В общем и целом" :)

как к этой модели добавить возможность работы с поиском в интернет? там написано "+30% к производительности на некоторых тестах (особенно на function/tool calling", т.е. поиск в интернете - это ж tool calling. т.е. можно сделать локальный веб-помощник

Зависит от того, как вы это хотите реализовать, и реализовать самостоятельно или через готовые опенсорс решения.

Через готовые - первое что приходит на ум это Perplexica. Это уже готовое решение с веб-поиском через SearXNG, которое разворачивается через Docker. Запускается Docker, запускаете модель, указываете адрес на ваш порт на котором модель - готово, у вас локальная имитация Perplexity.

Если же самому - то тут пространство для решения задачи полностью свободное. Если запускаете локальные модели, например, через LMStudio, то в него недавно добавили поддержку MCP серверов (их вызов тоже по-сути tool calling), поэтому можно на том же SearXNG сделать MCP сервер, локально захостить и подключить в LMStudio. Но тогда еще понадобится скрейпер чтобы доставать содержание страниц (в Perplexica он уже есть), так как SearXNG не отдает содержание страниц, только ссылки и очень краткое содержание.

15 человек кто пользуется такими маленькими моделями локально - напишите если не сложно - в каких случаях вы их используете?

Да, тоже уже увидел публикацию про экспериментальную версию LFM2. Тоже интересные модельки, но у них ключевая особенность немного в другом - LFM2 это гибридные модели, не чистые трансформеры.

Они заметно дешевле с ростом контекста, так как сложность вычислений у них растет линейно, а не квадратично, как у классических трансформеров, но точность понимания контекста сильнее хромает.

На lmarena ее не нашел. Есть сервисы где ее пользователи сравнивают между лидерами?

Такая маленькая нишевая модель вряд ли будет на lmarena. Там обычно только крупные и значимые релизы крутятся. Поэтому скорее всего самим прогонять на тестах придется для проверки соответствия всем заявлениям.

Я как раз на текущий момент, чисто из эксперимента, сижу тестирую свой набор тестов на tool calling для локальных моделей, поэтому, вероятнее всего, в следующей статье поделюсь результатами своих тестов.

Мне для программирования микроконтроллеров надо, пока только гемини 3 про(статью написал по кейсу) реально что-то толковое дают, мечтаю когда настольные машины дадут результат схожий. На i5\16гб\ nvidia1050ti. Или на новом ПК за 1000долларов. Какой прогноз когда такое может выйти?

Ой, сам вот немногим больше полгода как влился в тему LLM и удивлен тому как сильно приросли за это время результаты моделей, которые реально запустить дома. Но до уровня Gemini 3 Pro или хотя бы, чтобы их можно было использовать для написания хоть сколько-нибудь внятного кода при размере менее 8B наверное еще год точно придется подождать, если даже не больше.

С другой стороны, если у вас есть конкретная задача - программирование микроконтроллеров, то под это дело можно попробовать дообучить целенаправленно небольшую модель.

Например, точно знаю, что есть LLM целенаправленно обученная делать SLQ запросы и за счет того, что она сделана под конкретную задачу - она и вправду в этом хороша.

Я натыкался в гемини3 на то что свыше 1000 строк кода она уже не переваривает. По дообучению локальной модели данными - мне надо весь гитхаб по одному мк, esp32 к примеру, тогда скормить, и даташитов на всю периферию еще столько же - тогда может и будет жизнеспособно. Я почему про лмарена спросил - там есть четкие метрики, когда локальные модели достигнут уровня гемини3 в кодировании - тогда я себе готов ставить на персоналку. Квен3 макс еще неплоха, но у гуглей лучше код пишет.

Да, в вопросах кода топы действительно имеют колоссальный разрыв с локалками, особенно на совсем ограниченном железе.

У меня в планах на будущее есть идея дообучать маленькие модели на своем железе, поэтому если однажды руки дойдут и что-то толковое будет получаться, то, если память не подведет, может свяжусь с вами и поэкспериментируем :)

Принято!

Sign up to leave a comment.

Articles