Комментарии / Профиль rnbparty / Хабр

Кирилл Гришанин@rnbparty

Основатель WB—Tech

Рейтинг

Подписчики

ПрофильСтатьи7ПостыНовостиКомментарии167

Открытые LLM в продакшене: 8 выводов о llama.cpp, Gemma и Qwen

Есть у той же геммы есть неплохой оптимизированный под локальный запуск клон - https://huggingface.co/unsloth/gemma-4-31B-it-qat-GGUF/blob/main/gemma-4-31B-it-qat-UD-Q4\_K\_XL.gguf. Там слои сжаты и она дообучена именно на такое квантование. А так в основоном надо под свои цели дообучать, модель сама по себе достаточно универсальна

Открытые LLM в продакшене: 8 выводов о llama.cpp, Gemma и Qwen

rnbparty 15 июл в 13:56

Вообще самую базовую, просто все от задач зависит. В опен коде и подобных агентных средах gemma плохо себя показывает не потому что модель плохая, а потому что цель у нее другая. Она сама по себе не приспособлена к решениям подобного плана, и в базе расчитана на максимально человечный диалог. Квен в этом плане как раз наоборот обучен под использование различных инструментов и выполнение различных действий. Ну и снова же гемма4 выпускалась как модель для дообучения, т.е. в зависимости от ваших хотелок вы можете докрутить ее как вам вздумается

Что такое Gemma 4: обзор новой LLM от Google

rnbparty 22 мая в 09:58

Из того что вы перечислили вам подойдет скорее qwen3.5:9B, просто потому что на 8GB VRAM всё остальное будет работать слишком тяжело. Но в целом 8GB для агентов это мало. Они быстро забивают контекстное окно, и нормальный объем контекста для реальной работы туда уже не помещается. Модели такого размера пока слабоваты именно для агентских задач: часто ошибаются, теряют контекст и начинают нести ерунду при работе с инструментами.

По-хорошему нужно смотреть в сторону моделей от 26B+, тот же qwen3.6:35b-A3E уже ощущается сильно стабильнее.

Что такое Gemma 4: обзор новой LLM от Google

rnbparty 22 мая в 09:46

Не совсем так. Скорее отказались от Ollama как от лишней надстройки. Ollama довольно закрытая, несмотря на позиционирование как open-source решения, плюс есть вопросы к тому, как под капотом устроена работа с данными и телеметрией. При этом сам Ollama скорее обертка над llama.cpp, который и является основным движком запуска моделей.

Мы в итоге ушли на более прямую open-source связку: напрямую llama.cpp + llama-swap для управления моделями и API. Так просто больше контроля и понимания того, что происходит внутри.

Что такое RAG-система? Полный разбор от теории до продакшена

rnbparty 12 мая в 14:57

Если бабки есть можно на хоть на луну полететь) но в случае GraphRAG это перебор.

да и никакие ответы никто не жрет, локально для ответа выделяется пул токенов, их не может быть больше или меньше... сожрать их ничего не может, просто вы видимо имеете ввиду токены под словом ответ. И если раг корректно настроен то галюцинаций будет минимальное количество при этом настолько минимально, что близится к 0. Там же в чем фишка, выбрать информацию из векторки это одно, а вот то какой вы запрос для генерации именно ответа отдадите нейросети это уже совершенно другое и к рагу не относиться. Суть рага выбрать максимально близкие по смыслу данные и все. Не больше не меньше. А вот сгенерировать ответ на основе этих данных это отдельная большая тема

Что такое RAG-система? Полный разбор от теории до продакшена

rnbparty 12 мая в 14:52

В нашей статье слово "переобучение"это просто замена документов в векторном хранилище на актуальные и все

будем подбирать более конкретные слова

Jira для HR-отдела: база данных о сотрудниках и автоматизации управления персоналом

rnbparty 22 авг 2023 в 10:02

Привет и спасибо за вкрадчивое чтение моего кейса.

для обычных пользователей

Кто это в твоем понимании?

О ком это мне нужно говорить, если я пишу для HRов? Немного упоминаю бухгалтеров, а другие сотрудники получают только готовый результат (сообщение, форму).

в чем смысл статьи тогда, пиар?

Похоже и в правду, от добра добра не ищут. Я поделился кейсом (отметил даже плашечкой Case), который работает не только у меня, но и у тех кому настроил. Кейс он на то и кейс, чтобы тот, кому он близок, что-то вынес для себя, получил пользу, развился и ?

набившее оскомину желание измерить время выполнения задачи

Что то ты лукавишье ? А ты как сводишь дебит с кредитом работая на кого-то?

Это здравый финансовый подсчет. По-взрослому.

не дает ожидаемого эффекта

Ты о чем?

Проверка продуктовых гипотез и поиск первых B2B клиентов

rnbparty 2 авг 2023 в 17:17

А не закрадываются смутные сомнения, что то что выдал гугл, не клеится с написанным в статье?

Для тех, у кого проспект это только прямая широкая улица пройдут мимо этой статьи, так как заголовок даже не поймут. Так для какого ума (уровня профессионализма) масс вы отстаиваете разжевывать как птенчику?

Проверка продуктовых гипотез и поиск первых B2B клиентов

rnbparty 2 авг 2023 в 13:10

Пишу для тех, кто в состоянии выделить текст левой кнопкой мыши, нажать строку меню Искать "непонятное_мне_слово" в Гугле.

Главное нам всем не доупрощаться до "вентиляторных" статей.

Проверка продуктовых гипотез и поиск первых B2B клиентов

rnbparty 2 авг 2023 в 10:35

@KomrusПривет и спасибо, что уделил время на доскональный просмотр статьи ?

Теория. Что такое проспектинг и лидогенерация

из заголовка видно, что планируются размышления только о двух понятиях.

что такое в "проспект" в вашем понимании... :)
И какие они бывают... Рекламный проспект, например, Невский проспект... :)))

лишняя полемика в начале, считаю утомила бы читателя, который по названию пришел за схемой действий, а не за "маркетинговым словарем".

И нельзя ли более широко-распространённым термином заменить? "Потенциальный клиент" как вариант. Тогда "проспектинг" ужмётся до банального "Поиска потенциальных клиентов"

Конечно можно) Но не хочется)

Прощай, Zen Coding. Привет, Emmet!

rnbparty 8 апр 2013 в 17:41

в этом смысле хабр поражает. Человек, который реально СДЕЛАЛ, внес огромный вклад в развитие не одного человека, в развитие рынка оказался заминусованным в посте про плагин собственной разработки. Разработчики! плагин для вас делался — за что ж вы человека минусуете?

Прощай, Zen Coding. Привет, Emmet!

rnbparty 8 апр 2013 в 17:36

следуя этой логике Сергей забыл упомянуть первого изобретателя транзистора.

Как заставить сайт летать и сэкономить десятки часов системного администрирования

rnbparty 10 фев 2012 в 19:11

Путин в таком же ключе вещает кстати

-2

Яндекс.Бар – Большой брат следит за тобой

rnbparty 27 июл 2011 в 15:08

не все настолько умны и не наивны — извините уж

TOP30 отмазок веб-разработчика

rnbparty 6 июн 2011 в 20:06

какой чуши только не придумают, чтобы разместить ссылку на свой сайт.

Ozon теряет аудиторию?

rnbparty 25 мая 2010 в 13:07

я всегда думаю, что со мной робот переписывается в таких случаях

Web-шрифты как они есть

rnbparty 20 мая 2010 в 10:26

на то и занимаются этой проблемы и woft есть.
получился пост о сообщении диагноза, довольно очевидного, но без лечения — смысл?

Web-шрифты как они есть

rnbparty 20 мая 2010 в 10:24

я полагаю, что делать css свойство, которое будет управлять сглаживанием — не верно, так как это неплохо есть ресурсы системы. это как пользователь отключил картинки, а мы ему их через css обратно включаем ( ну гипотетически идиотский пример)

Фильтруем с помощью jQuery большое количество данных

rnbparty 18 мая 2010 в 20:11

не ну да, конечно, homm я за тебя, но эксперимент не чистый. сколько времени ты потратил на разработку кода? между камментами 6 часов.
каких то 6 часов и поиск по закладкам не 6 секунд, а 0.6. по-моему результат результатов :))

-3

Papers — персональный каталогизатор научных статей

rnbparty 19 апр 2010 в 10:56

мне endnote понравился. reference manager дюже олдскульный

2 3 ...

8 9