Из того что вы перечислили вам подойдет скорее qwen3.5:9B, просто потому что на 8GB VRAM всё остальное будет работать слишком тяжело. Но в целом 8GB для агентов это мало. Они быстро забивают контекстное окно, и нормальный объем контекста для реальной работы туда уже не помещается. Модели такого размера пока слабоваты именно для агентских задач: часто ошибаются, теряют контекст и начинают нести ерунду при работе с инструментами.
По-хорошему нужно смотреть в сторону моделей от 26B+, тот же qwen3.6:35b-A3E уже ощущается сильно стабильнее.
Не совсем так. Скорее отказались от Ollama как от лишней надстройки. Ollama довольно закрытая, несмотря на позиционирование как open-source решения, плюс есть вопросы к тому, как под капотом устроена работа с данными и телеметрией. При этом сам Ollama скорее обертка над llama.cpp, который и является основным движком запуска моделей.
Мы в итоге ушли на более прямую open-source связку: напрямую llama.cpp + llama-swap для управления моделями и API. Так просто больше контроля и понимания того, что происходит внутри.
Если бабки есть можно на хоть на луну полететь) но в случае GraphRAG это перебор.
да и никакие ответы никто не жрет, локально для ответа выделяется пул токенов, их не может быть больше или меньше... сожрать их ничего не может, просто вы видимо имеете ввиду токены под словом ответ. И если раг корректно настроен то галюцинаций будет минимальное количество при этом настолько минимально, что близится к 0. Там же в чем фишка, выбрать информацию из векторки это одно, а вот то какой вы запрос для генерации именно ответа отдадите нейросети это уже совершенно другое и к рагу не относиться. Суть рага выбрать максимально близкие по смыслу данные и все. Не больше не меньше. А вот сгенерировать ответ на основе этих данных это отдельная большая тема
Привет и спасибо за вкрадчивое чтение моего кейса.
для обычных пользователей
Кто это в твоем понимании?
О ком это мне нужно говорить, если я пишу для HRов? Немного упоминаю бухгалтеров, а другие сотрудники получают только готовый результат (сообщение, форму).
в чем смысл статьи тогда, пиар?
Похоже и в правду, от добра добра не ищут. Я поделился кейсом (отметил даже плашечкой Case), который работает не только у меня, но и у тех кому настроил. Кейс он на то и кейс, чтобы тот, кому он близок, что-то вынес для себя, получил пользу, развился и ?
набившее оскомину желание измерить время выполнения задачи
Что то ты лукавишье ? А ты как сводишь дебит с кредитом работая на кого-то?
А не закрадываются смутные сомнения, что то что выдал гугл, не клеится с написанным в статье?
Для тех, у кого проспект это только прямая широкая улица пройдут мимо этой статьи, так как заголовок даже не поймут. Так для какого ума (уровня профессионализма) масс вы отстаиваете разжевывать как птенчику?
@KomrusПривет и спасибо, что уделил время на доскональный просмотр статьи ?
Теория. Что такое проспектинг и лидогенерация
из заголовка видно, что планируются размышления только о двух понятиях.
что такое в "проспект" в вашем понимании... :)
И какие они бывают... Рекламный проспект, например, Невский проспект... :)))
лишняя полемика в начале, считаю утомила бы читателя, который по названию пришел за схемой действий, а не за "маркетинговым словарем".
И нельзя ли более широко-распространённым термином заменить? "Потенциальный клиент" как вариант. Тогда "проспектинг" ужмётся до банального "Поиска потенциальных клиентов"
в этом смысле хабр поражает. Человек, который реально СДЕЛАЛ, внес огромный вклад в развитие не одного человека, в развитие рынка оказался заминусованным в посте про плагин собственной разработки. Разработчики! плагин для вас делался — за что ж вы человека минусуете?
я полагаю, что делать css свойство, которое будет управлять сглаживанием — не верно, так как это неплохо есть ресурсы системы. это как пользователь отключил картинки, а мы ему их через css обратно включаем ( ну гипотетически идиотский пример)
не ну да, конечно, homm я за тебя, но эксперимент не чистый. сколько времени ты потратил на разработку кода? между камментами 6 часов.
каких то 6 часов и поиск по закладкам не 6 секунд, а 0.6. по-моему результат результатов :))
Из того что вы перечислили вам подойдет скорее qwen3.5:9B, просто потому что на 8GB VRAM всё остальное будет работать слишком тяжело. Но в целом 8GB для агентов это мало. Они быстро забивают контекстное окно, и нормальный объем контекста для реальной работы туда уже не помещается. Модели такого размера пока слабоваты именно для агентских задач: часто ошибаются, теряют контекст и начинают нести ерунду при работе с инструментами.
По-хорошему нужно смотреть в сторону моделей от 26B+, тот же qwen3.6:35b-A3E уже ощущается сильно стабильнее.
Не совсем так. Скорее отказались от Ollama как от лишней надстройки. Ollama довольно закрытая, несмотря на позиционирование как open-source решения, плюс есть вопросы к тому, как под капотом устроена работа с данными и телеметрией. При этом сам Ollama скорее обертка над llama.cpp, который и является основным движком запуска моделей.
Мы в итоге ушли на более прямую open-source связку: напрямую llama.cpp + llama-swap для управления моделями и API. Так просто больше контроля и понимания того, что происходит внутри.
Если бабки есть можно на хоть на луну полететь) но в случае GraphRAG это перебор.
да и никакие ответы никто не жрет, локально для ответа выделяется пул токенов, их не может быть больше или меньше... сожрать их ничего не может, просто вы видимо имеете ввиду токены под словом ответ. И если раг корректно настроен то галюцинаций будет минимальное количество при этом настолько минимально, что близится к 0. Там же в чем фишка, выбрать информацию из векторки это одно, а вот то какой вы запрос для генерации именно ответа отдадите нейросети это уже совершенно другое и к рагу не относиться. Суть рага выбрать максимально близкие по смыслу данные и все. Не больше не меньше. А вот сгенерировать ответ на основе этих данных это отдельная большая тема
В нашей статье слово "переобучение"это просто замена документов в векторном хранилище на актуальные и все
будем подбирать более конкретные слова
Привет и спасибо за вкрадчивое чтение моего кейса.
Кто это в твоем понимании?
О ком это мне нужно говорить, если я пишу для HRов? Немного упоминаю бухгалтеров, а другие сотрудники получают только готовый результат (сообщение, форму).
Похоже и в правду, от добра добра не ищут. Я поделился кейсом (отметил даже плашечкой Case), который работает не только у меня, но и у тех кому настроил. Кейс он на то и кейс, чтобы тот, кому он близок, что-то вынес для себя, получил пользу, развился и ?
Что то ты лукавишье ? А ты как сводишь дебит с кредитом работая на кого-то?
Это здравый финансовый подсчет. По-взрослому.
Ты о чем?
А не закрадываются смутные сомнения, что то что выдал гугл, не клеится с написанным в статье?
Для тех, у кого проспект это только прямая широкая улица пройдут мимо этой статьи, так как заголовок даже не поймут. Так для какого ума (уровня профессионализма) масс вы отстаиваете разжевывать как птенчику?
Пишу для тех, кто в состоянии выделить текст левой кнопкой мыши, нажать строку меню Искать "непонятное_мне_слово" в Гугле.
Главное нам всем не доупрощаться до "вентиляторных" статей.
@KomrusПривет и спасибо, что уделил время на доскональный просмотр статьи ?
из заголовка видно, что планируются размышления только о двух понятиях.
лишняя полемика в начале, считаю утомила бы читателя, который по названию пришел за схемой действий, а не за "маркетинговым словарем".
Конечно можно) Но не хочется)
получился пост о сообщении диагноза, довольно очевидного, но без лечения — смысл?
каких то 6 часов и поиск по закладкам не 6 секунд, а 0.6. по-моему результат результатов :))
via homm