virex Jul 1 at 12:33

Алиса, подвинься

Easy

42 min

18K

C# * Artificial Intelligence

Review

🛸 Cosmotext

+44

Comments 14

nbkgroup Jul 1 at 12:59

Работа с урезанной версией LLM полна страданий. Модель понимает только очень простые вещи. Если плохо понимает на русском языке - необходимо переходить на английский.

Попробуйте gemma3.

SabMakc Jul 2 at 13:13

gemma3 не заявлена как поддерживающая вызовы инструмента, по крайней мере у ollama.

virex Jul 2 at 14:37

Попробовал gemma3 в Ollama, не работает генерация эмбеддингов (OllamaEmbeddingGenerator), т.е. как минимум RAG не сделать. Возможно позже у Ollama появится поддержка для этой модели.

rodion-m Jul 3 at 04:49

Подскажите, что мешает использовать для эмбеддингов отдельную модель? Qwen 3 Embeddings 0.5B, например, великолепные эмбеддинги.
И ещё можете для чата попробовать новую Gemma 3n

virex Jul 3 at 07:55

Ничто не мешает. Добавил уточнение в тексте, дополнил код. Спасибо.

SabMakc Jul 3 at 07:12

А разве для эмбеддингов не нужна специальная модель?

janvarev Jul 1 at 18:56

К слову, добавил в последнюю 12-ую версию голосового помощника Ирины плагины, вызываемые через ИИ: https://github.com/janvarev/Irene-Voice-Assistant/commit/b32a41840545ad5fbc7c665ba02135dc1b1a9c4a

Работает через стандартный механизм tools - как с локальными, так и с удаленными сетями.

sibvic Jul 2 at 02:19

Наконец-то что-то полезное на тему моделей, а не очередная статья "ИИ оставит вас без работы". Большое спасибо.

Moog_Prodigy Jul 2 at 11:28

Мда, и это питон-то тяжелый. Столько трудов и не получилось ничего. На питоне + llm + whisper подобная штука пишется дня за 3 с перекурами. Но использование мелких моделей это однозначно минус (нужна видеокарта), но опять же совсем простые команды в том же питоне можно заскриптовать прям в коде, без всяких LLM.

Тяжела и неказиста нейрожизнь без питониста =)

SabMakc Jul 2 at 11:59

Заметил, что qwen3 плохо работает с функциями в ollama. Но если подключиться через OpenAI API к Ollama, то все хорошо (http://127.0.0.1:11434/v1).

Shaman124 Jul 6 at 01:15

Сравнил. На 30B и 32B версиях разницы не заметил.

SabMakc Jul 6 at 06:38

Значит мне так "везло" - qwen в мыслях делал вызовы, а в результате "смотри, все готово". А по факту - он только думал о том, что и как вызывать...
Использовал Qwen3-30B-A3B:Q4_K_M.

NestlyS Jul 5 at 07:12

А че, так можно было что ли?

Это я так себя чувствовал, когда открыл статью. Последнюю неделю мучаю свою видеокарту в попытках выдать интересные диалоги через sillytavern + oogabooga, но получается слишком медленно для голосового помощника и слишком нестабильно. Хотелось добавить индивидуальности, которая есть у той же Алисы.

Спасибо автору за много примеров в статье. Вдохновляют написать что-то свое, а не пытаться собрать Франкенштейна из опенсорсных решений.

Symon81 Jul 7 at 15:27

Ну все работает, жаль словари маленькие пока! Имена не понимает, например - Вика кто? ответ должен быть сестра, а он не распознает Имя