Спасибо большое за комментарий. Протестировал загруженную в Ollama t-tech/T-pro-it-2.0:q4_K_M в сравнении с qwen3:32b. Всё на уровне, моё вам уважение. Мнение по вашей модели кардинально изменил. Это здорово, что вы такое делаете! Спасибо вам.
Единственное, начал пробовать подобрать температуру для T-pro-it-2.0-Q5_K_M.gguf. На 0.6 получше отвечать стала, но всё равно бред. Попробовал поменять ещё температуру, и у меня сломался жёсткий диск. На этом я эксперимент закончил... Но самый важный вывод я сделал — всё на уровне qwen3!
Я взял модель T-pro-it-2.0-Q5_K_M.gguf. Для быстроты тестирования я использую свой проект https://github.com/HardAndHeavy/ollama-open-webui, его клонирую и набираю make run-cuda, а затем make seed-t-pro. Дальше я просто в интерфейсе Open WebUI добавил системный промт на всякий случай, как это я делаю для других моделей: «Ты рассудительный и честный собеседник, который разговаривает на русском языке». И всё. Больше ничего не настраивал.
Протестировал модель T-Pro 2.0 в квантованной GGUF-версии на 23 Гб и столкнулся с серьёзными проблемами:
Потеря контекста: Модель не удерживает тему. На вопрос «Чем похожи карандаш и ботинок» (без знака вопроса) она начала генерировать похожие по структуре, но другие вопросы («Чем похожи замок и ключ?»), так и не дав ответа.
Галлюцинации и зацикливание: На более сложном вопросе по истории физики модель полностью «сломалась». Она ушла в 20-минутную генерацию несвязанного текста в виде чата редакторов Википедии, пока я не остановил её вручную. Даже простое «привет» на старте вызвало поток несвязного текста.
Похоже, у данной версии есть фундаментальные проблемы с удержанием контекста, что приводит к бесконтрольной генерации нерелевантного контента.
Зашёл в чат с Qwen и Minimax. Сложилось такое впечатление, что Minimax существенно проигрывает, за исключением программирования и веб-поиска, там плюс-минус одинаково.
Очень надеюсь, что да. Хоть я свои заметки веду связанно, но, видя, как рассуждает модель и пытается найти ответ, могу сказать, что шансы большие.
В целом, я продолжаю исследовать вопрос и хотел бы найти лучшее решение для корпоративной информации, где как раз идут клубки информации. Большая надежда на проект KAG.
Разумеется, я не исключаю, что это ошибка разработчиков. Особенно если учитывать, что их платное дополнение Copilot Plus находится в стадии бета-тестирования.
На текущий момент я не держусь за Copilot. Нашёл вереницу проектов с подобным функционалом и даже шире. Это не расширение для Obsidian, конечно, но это и хорошо. Например, KAG. Надо пробовать. Надеюсь, хватит времени и сил.
Не знал, что qwq поддерживает встаривание. Проверил, qwq строит индекс 20 минут против 20 секунд у bge-m3. После qwq модель отказалась отвечать и не смогла пройтись по построенному индексу.
У меня 350+ страниц, после индексации Copilot использует все на первом вопросе-теме. Со следующей темой разговора Copilot не может справиться, как будто теряя индексы. Решением нашёл закрытие и повторное открытие Obsidian с перестроением индекса.
Да, это реальный пример. Моя база состоит из 350 документов. А фрагмент с кошками в файле «Семья» выглядит вот так. Т. е. Карамелька имеет окрас «Черепаха табби с белым». Честно записал, как мне продиктовала заводчица.
Протестировал два режима рассуждения: DeepSeek и Yandex. Алиса в режиме DeepSeek лучше справляется с задачами на логику, лучше пишет стихи и даёт более развёрнутый ответ. Единственное, в чём Yandex выигрывает, это программирование.
Краткость ответов в режиме Yandex была бы хорошей особенностью, но складывается ощущение, что из-за краткости модель не успевает найти верный ответ в логических задачах. Считаю, что такая черта должна остаться, но точность ответа надо повысить — будет то, что надо, т. к. читая портянки от других моделей, начинаешь уставать. Хочется ёмкого и точного ответа.
Сервис получился достойный, невзирая на нюансы. Настроить и вытянуть результат для комфортной работы можно. А для российского рынка наличие такого инструмента у Яндекса — это большой плюс.
.net готов
Хорошо, ждите. Laravel уже сделал.
Добавил Laravel
Изначально решил, что будет достаточно текущих. Да, я был предвзят. Но почитал комментарии и в ближайшее время добавлю PHP. Как сделаю — напишу.
Спасибо, каюсь, в моих знаниях не было этого инструмента. Cookiecutter понравился. Мне надо время на осознание и применение. Спасибо ещё раз.
Согласен. Мой случай как раз на точке выбора «заранее выбирается ЯП». Я ищу себе мой стек на новый проект.
Спасибо большое за комментарий. Протестировал загруженную в Ollama t-tech/T-pro-it-2.0:q4_K_M в сравнении с qwen3:32b. Всё на уровне, моё вам уважение. Мнение по вашей модели кардинально изменил. Это здорово, что вы такое делаете! Спасибо вам.
Единственное, начал пробовать подобрать температуру для T-pro-it-2.0-Q5_K_M.gguf. На 0.6 получше отвечать стала, но всё равно бред. Попробовал поменять ещё температуру, и у меня сломался жёсткий диск. На этом я эксперимент закончил... Но самый важный вывод я сделал — всё на уровне qwen3!
Я взял модель T-pro-it-2.0-Q5_K_M.gguf. Для быстроты тестирования я использую свой проект https://github.com/HardAndHeavy/ollama-open-webui, его клонирую и набираю make run-cuda, а затем make seed-t-pro. Дальше я просто в интерфейсе Open WebUI добавил системный промт на всякий случай, как это я делаю для других моделей: «Ты рассудительный и честный собеседник, который разговаривает на русском языке». И всё. Больше ничего не настраивал.
Протестировал модель T-Pro 2.0 в квантованной GGUF-версии на 23 Гб и столкнулся с серьёзными проблемами:
Потеря контекста: Модель не удерживает тему. На вопрос «Чем похожи карандаш и ботинок» (без знака вопроса) она начала генерировать похожие по структуре, но другие вопросы («Чем похожи замок и ключ?»), так и не дав ответа.
Галлюцинации и зацикливание: На более сложном вопросе по истории физики модель полностью «сломалась». Она ушла в 20-минутную генерацию несвязанного текста в виде чата редакторов Википедии, пока я не остановил её вручную. Даже простое «привет» на старте вызвало поток несвязного текста.
Похоже, у данной версии есть фундаментальные проблемы с удержанием контекста, что приводит к бесконтрольной генерации нерелевантного контента.
Зашёл в чат с Qwen и Minimax. Сложилось такое впечатление, что Minimax существенно проигрывает, за исключением программирования и веб-поиска, там плюс-минус одинаково.
Спасибо.
Нет, но буду иметь в виду. В базе Ollama не нашёл, но вижу, есть GGUF на HuggingFace. В следующем анализе попробую его.
Очень надеюсь, что да. Хоть я свои заметки веду связанно, но, видя, как рассуждает модель и пытается найти ответ, могу сказать, что шансы большие.
В целом, я продолжаю исследовать вопрос и хотел бы найти лучшее решение для корпоративной информации, где как раз идут клубки информации. Большая надежда на проект KAG.
Не помогает.
Разумеется, я не исключаю, что это ошибка разработчиков. Особенно если учитывать, что их платное дополнение Copilot Plus находится в стадии бета-тестирования.
На текущий момент я не держусь за Copilot. Нашёл вереницу проектов с подобным функционалом и даже шире. Это не расширение для Obsidian, конечно, но это и хорошо. Например, KAG. Надо пробовать. Надеюсь, хватит времени и сил.
Не знал, что qwq поддерживает встаривание. Проверил, qwq строит индекс 20 минут против 20 секунд у bge-m3. После qwq модель отказалась отвечать и не смогла пройтись по построенному индексу.
У меня 350+ страниц, после индексации Copilot использует все на первом вопросе-теме. Со следующей темой разговора Copilot не может справиться, как будто теряя индексы. Решением нашёл закрытие и повторное открытие Obsidian с перестроением индекса.
Такой окрас:)
Да, это реальный пример. Моя база состоит из 350 документов. А фрагмент с кошками в файле «Семья» выглядит вот так. Т. е. Карамелька имеет окрас «Черепаха табби с белым». Честно записал, как мне продиктовала заводчица.
Всё зависит от того, в чьих руках инструмент.
Протестировал два режима рассуждения: DeepSeek и Yandex. Алиса в режиме DeepSeek лучше справляется с задачами на логику, лучше пишет стихи и даёт более развёрнутый ответ. Единственное, в чём Yandex выигрывает, это программирование.
Краткость ответов в режиме Yandex была бы хорошей особенностью, но складывается ощущение, что из-за краткости модель не успевает найти верный ответ в логических задачах. Считаю, что такая черта должна остаться, но точность ответа надо повысить — будет то, что надо, т. к. читая портянки от других моделей, начинаешь уставать. Хочется ёмкого и точного ответа.
Сервис получился достойный, невзирая на нюансы. Настроить и вытянуть результат для комфортной работы можно. А для российского рынка наличие такого инструмента у Яндекса — это большой плюс.
В моём случае была похожая ситуация. Пришлось подобрать оптимальные промты DEFAULT_SYSTEM_PROMPT и TEMPLATE для модели IlyaGusev/saiga_llama3_8b_gguf/model-f16.gguf. В твоём случае, возможно, и обучение надо подкрутить, а может, только промт подобрать более точный.