Спасибо большое за комментарий. Протестировал загруженную в Ollama t-tech/T-pro-it-2.0:q4_K_M в сравнении с qwen3:32b. Всё на уровне, моё вам уважение. Мнение по вашей модели кардинально изменил. Это здорово, что вы такое делаете! Спасибо вам.
Единственное, начал пробовать подобрать температуру для T-pro-it-2.0-Q5_K_M.gguf. На 0.6 получше отвечать стала, но всё равно бред. Попробовал поменять ещё температуру, и у меня сломался жёсткий диск. На этом я эксперимент закончил... Но самый важный вывод я сделал — всё на уровне qwen3!
Я взял модель T-pro-it-2.0-Q5_K_M.gguf. Для быстроты тестирования я использую свой проект https://github.com/HardAndHeavy/ollama-open-webui, его клонирую и набираю make run-cuda, а затем make seed-t-pro. Дальше я просто в интерфейсе Open WebUI добавил системный промт на всякий случай, как это я делаю для других моделей: «Ты рассудительный и честный собеседник, который разговаривает на русском языке». И всё. Больше ничего не настраивал.
Протестировал модель T-Pro 2.0 в квантованной GGUF-версии на 23 Гб и столкнулся с серьёзными проблемами:
Потеря контекста: Модель не удерживает тему. На вопрос «Чем похожи карандаш и ботинок» (без знака вопроса) она начала генерировать похожие по структуре, но другие вопросы («Чем похожи замок и ключ?»), так и не дав ответа.
Галлюцинации и зацикливание: На более сложном вопросе по истории физики модель полностью «сломалась». Она ушла в 20-минутную генерацию несвязанного текста в виде чата редакторов Википедии, пока я не остановил её вручную. Даже простое «привет» на старте вызвало поток несвязного текста.
Похоже, у данной версии есть фундаментальные проблемы с удержанием контекста, что приводит к бесконтрольной генерации нерелевантного контента.
Зашёл в чат с Qwen и Minimax. Сложилось такое впечатление, что Minimax существенно проигрывает, за исключением программирования и веб-поиска, там плюс-минус одинаково.
Очень надеюсь, что да. Хоть я свои заметки веду связанно, но, видя, как рассуждает модель и пытается найти ответ, могу сказать, что шансы большие.
В целом, я продолжаю исследовать вопрос и хотел бы найти лучшее решение для корпоративной информации, где как раз идут клубки информации. Большая надежда на проект KAG.
Разумеется, я не исключаю, что это ошибка разработчиков. Особенно если учитывать, что их платное дополнение Copilot Plus находится в стадии бета-тестирования.
На текущий момент я не держусь за Copilot. Нашёл вереницу проектов с подобным функционалом и даже шире. Это не расширение для Obsidian, конечно, но это и хорошо. Например, KAG. Надо пробовать. Надеюсь, хватит времени и сил.
Не знал, что qwq поддерживает встаривание. Проверил, qwq строит индекс 20 минут против 20 секунд у bge-m3. После qwq модель отказалась отвечать и не смогла пройтись по построенному индексу.
У меня 350+ страниц, после индексации Copilot использует все на первом вопросе-теме. Со следующей темой разговора Copilot не может справиться, как будто теряя индексы. Решением нашёл закрытие и повторное открытие Obsidian с перестроением индекса.
Да, это реальный пример. Моя база состоит из 350 документов. А фрагмент с кошками в файле «Семья» выглядит вот так. Т. е. Карамелька имеет окрас «Черепаха табби с белым». Честно записал, как мне продиктовала заводчица.
Протестировал два режима рассуждения: DeepSeek и Yandex. Алиса в режиме DeepSeek лучше справляется с задачами на логику, лучше пишет стихи и даёт более развёрнутый ответ. Единственное, в чём Yandex выигрывает, это программирование.
Краткость ответов в режиме Yandex была бы хорошей особенностью, но складывается ощущение, что из-за краткости модель не успевает найти верный ответ в логических задачах. Считаю, что такая черта должна остаться, но точность ответа надо повысить — будет то, что надо, т. к. читая портянки от других моделей, начинаешь уставать. Хочется ёмкого и точного ответа.
Сервис получился достойный, невзирая на нюансы. Настроить и вытянуть результат для комфортной работы можно. А для российского рынка наличие такого инструмента у Яндекса — это большой плюс.
Во-первых, всё сведено к трём bash командам. Во-вторых, базовый docker образ очень неочевидный для запуска моей большой цели, вследствие чего мне необходимо велосипедирование. А на пути к цели у меня входят проекты, с которыми я делюсь. Следующий велосипед уже подъехал — это ComfyUI. В новой статье я постарался показать, как отличается базовый образ от AMD и образ, заточенный на конкретную цель.
Переделал на YouTube. ВКонтакте не отображается в медиаэлементе при публикации статьи. Какого видеохостера выбрать, чтобы не переживать за возможные изменения?
Я за открытый софт, поэтому Windows нет и не будет в моём арсенале. Текущий велосипед мне нужен для следующих проектов. Я постепенно подхожу к более сложным решениям. Очень надеюсь, что скоро появится статья по ComfyUI, а дальше больше, уникальнее и интереснее.
Думаю, вам достаточно по-другому установить ROCm. У меня в статье идёт ссылка для Ubuntu, а вам надо для WSL. После этого теоретически не должно быть различий.
Спасибо большое за комментарий. Протестировал загруженную в Ollama t-tech/T-pro-it-2.0:q4_K_M в сравнении с qwen3:32b. Всё на уровне, моё вам уважение. Мнение по вашей модели кардинально изменил. Это здорово, что вы такое делаете! Спасибо вам.
Единственное, начал пробовать подобрать температуру для T-pro-it-2.0-Q5_K_M.gguf. На 0.6 получше отвечать стала, но всё равно бред. Попробовал поменять ещё температуру, и у меня сломался жёсткий диск. На этом я эксперимент закончил... Но самый важный вывод я сделал — всё на уровне qwen3!
Я взял модель T-pro-it-2.0-Q5_K_M.gguf. Для быстроты тестирования я использую свой проект https://github.com/HardAndHeavy/ollama-open-webui, его клонирую и набираю make run-cuda, а затем make seed-t-pro. Дальше я просто в интерфейсе Open WebUI добавил системный промт на всякий случай, как это я делаю для других моделей: «Ты рассудительный и честный собеседник, который разговаривает на русском языке». И всё. Больше ничего не настраивал.
Протестировал модель T-Pro 2.0 в квантованной GGUF-версии на 23 Гб и столкнулся с серьёзными проблемами:
Потеря контекста: Модель не удерживает тему. На вопрос «Чем похожи карандаш и ботинок» (без знака вопроса) она начала генерировать похожие по структуре, но другие вопросы («Чем похожи замок и ключ?»), так и не дав ответа.
Галлюцинации и зацикливание: На более сложном вопросе по истории физики модель полностью «сломалась». Она ушла в 20-минутную генерацию несвязанного текста в виде чата редакторов Википедии, пока я не остановил её вручную. Даже простое «привет» на старте вызвало поток несвязного текста.
Похоже, у данной версии есть фундаментальные проблемы с удержанием контекста, что приводит к бесконтрольной генерации нерелевантного контента.
Зашёл в чат с Qwen и Minimax. Сложилось такое впечатление, что Minimax существенно проигрывает, за исключением программирования и веб-поиска, там плюс-минус одинаково.
Спасибо.
Нет, но буду иметь в виду. В базе Ollama не нашёл, но вижу, есть GGUF на HuggingFace. В следующем анализе попробую его.
Очень надеюсь, что да. Хоть я свои заметки веду связанно, но, видя, как рассуждает модель и пытается найти ответ, могу сказать, что шансы большие.
В целом, я продолжаю исследовать вопрос и хотел бы найти лучшее решение для корпоративной информации, где как раз идут клубки информации. Большая надежда на проект KAG.
Не помогает.
Разумеется, я не исключаю, что это ошибка разработчиков. Особенно если учитывать, что их платное дополнение Copilot Plus находится в стадии бета-тестирования.
На текущий момент я не держусь за Copilot. Нашёл вереницу проектов с подобным функционалом и даже шире. Это не расширение для Obsidian, конечно, но это и хорошо. Например, KAG. Надо пробовать. Надеюсь, хватит времени и сил.
Не знал, что qwq поддерживает встаривание. Проверил, qwq строит индекс 20 минут против 20 секунд у bge-m3. После qwq модель отказалась отвечать и не смогла пройтись по построенному индексу.
У меня 350+ страниц, после индексации Copilot использует все на первом вопросе-теме. Со следующей темой разговора Copilot не может справиться, как будто теряя индексы. Решением нашёл закрытие и повторное открытие Obsidian с перестроением индекса.
Такой окрас:)
Да, это реальный пример. Моя база состоит из 350 документов. А фрагмент с кошками в файле «Семья» выглядит вот так. Т. е. Карамелька имеет окрас «Черепаха табби с белым». Честно записал, как мне продиктовала заводчица.
Всё зависит от того, в чьих руках инструмент.
Протестировал два режима рассуждения: DeepSeek и Yandex. Алиса в режиме DeepSeek лучше справляется с задачами на логику, лучше пишет стихи и даёт более развёрнутый ответ. Единственное, в чём Yandex выигрывает, это программирование.
Краткость ответов в режиме Yandex была бы хорошей особенностью, но складывается ощущение, что из-за краткости модель не успевает найти верный ответ в логических задачах. Считаю, что такая черта должна остаться, но точность ответа надо повысить — будет то, что надо, т. к. читая портянки от других моделей, начинаешь уставать. Хочется ёмкого и точного ответа.
Сервис получился достойный, невзирая на нюансы. Настроить и вытянуть результат для комфортной работы можно. А для российского рынка наличие такого инструмента у Яндекса — это большой плюс.
В моём случае была похожая ситуация. Пришлось подобрать оптимальные промты DEFAULT_SYSTEM_PROMPT и TEMPLATE для модели IlyaGusev/saiga_llama3_8b_gguf/model-f16.gguf. В твоём случае, возможно, и обучение надо подкрутить, а может, только промт подобрать более точный.
Фильтр сообщений — проверяет сообщения на запретные темы (взлом, мошенничество, создание запрещенных вещей и т. д.).
Лимит запросов — ограничение пользователей по количеству запросов.
Логирование запросов — сохранение того, что пользователи спрашивают и что им отвечает модель.
Дополнение запросов нужным контекстом — например, документацией.
Вызов функций.
На странице проекта есть описание. И в папке examples есть демонстрационные примеры.
Во-первых, всё сведено к трём bash командам. Во-вторых, базовый docker образ очень неочевидный для запуска моей большой цели, вследствие чего мне необходимо велосипедирование. А на пути к цели у меня входят проекты, с которыми я делюсь. Следующий велосипед уже подъехал — это ComfyUI. В новой статье я постарался показать, как отличается базовый образ от AMD и образ, заточенный на конкретную цель.
Переделал на YouTube. ВКонтакте не отображается в медиаэлементе при публикации статьи. Какого видеохостера выбрать, чтобы не переживать за возможные изменения?
Я за открытый софт, поэтому Windows нет и не будет в моём арсенале. Текущий велосипед мне нужен для следующих проектов. Я постепенно подхожу к более сложным решениям. Очень надеюсь, что скоро появится статья по ComfyUI, а дальше больше, уникальнее и интереснее.
Думаю, вам достаточно по-другому установить ROCm. У меня в статье идёт ссылка для Ubuntu, а вам надо для WSL. После этого теоретически не должно быть различий.
Точно, я ошибся, думал это новая ветка.