Не вижу противоречия. Теория - то как модель работает, как и на чем ее обучали и выравнивали, какие механизмы закладывали. Практика - как эту теорию применять и строить запросы, чтоб получать более качественные ответы.
Это связано с логикой работы текстовых моделей - при ответе он циклично подбирает самый подходящий к предыдущему следующий токен, изучая запрос и контекст механизмом внимания. У этого механизма более приоритетно начала запроса, из за эффекта первенства, и конец, из за недавности. Ну и плюс некоторые другие факторы. Длина контекста и эффект потери зависят от модели, существуют тесты для его вычисления, самый простой - скормить модели специфичный текст и поспрашивать точные факты из разных мест текста. Ну и да, наверное здесь нужно было упомянуть не длину контекста а длину запроса. Хотя модель читает запрос вместе с контекстом, но запрос в приоритете, и практические советы размещать важные фрагменты в начале и конце работают именно для запроса.
Онлайн лучше, да, сами в проектах пользуемся гигачатом, там дешевые токены и задачи нормально решает. Но локальные модели рассматриваем, потому что есть запрос на приватность, работу в закрытых сетях, массовую обработку информации, ну и чисто для себя, на что способна локальная LLM/
Я потихоньку учусь ставить Курсор в рамки правилами и структурой промпта, но без них он себя ведет как хочет. Тут даже не столько минус, просто хочется, чтоб вжух, и ИИ тебе задачу решил, отчет написал, ревью сделал и повышение у начальника попросил.
Речь про дистиллированные модели для Ollama, да. Понятно, что дистиллированный дипсик это далеко не тот, что на сайте, но он проигрывает другим локальными моделям (gemma, gpt, qwen, mistral) и как локальная модель для практических задач практически не применим. Я еще напишу материал по сравнению локальным LLM
Не вижу противоречия. Теория - то как модель работает, как и на чем ее обучали и выравнивали, какие механизмы закладывали. Практика - как эту теорию применять и строить запросы, чтоб получать более качественные ответы.
Это связано с логикой работы текстовых моделей - при ответе он циклично подбирает самый подходящий к предыдущему следующий токен, изучая запрос и контекст механизмом внимания. У этого механизма более приоритетно начала запроса, из за эффекта первенства, и конец, из за недавности. Ну и плюс некоторые другие факторы. Длина контекста и эффект потери зависят от модели, существуют тесты для его вычисления, самый простой - скормить модели специфичный текст и поспрашивать точные факты из разных мест текста.
Ну и да, наверное здесь нужно было упомянуть не длину контекста а длину запроса. Хотя модель читает запрос вместе с контекстом, но запрос в приоритете, и практические советы размещать важные фрагменты в начале и конце работают именно для запроса.
Большое спасибо за информацию, многое принял к сведению
Процессор: AMD RYZEN 5 7500F
Оперативная память: 64 Гб, DDR5, 5600MHz
Видеокарта на чипе GeForce RTX 3050 с 8 Гб GDDR6 видеопамяти
SSD NVME
Онлайн лучше, да, сами в проектах пользуемся гигачатом, там дешевые токены и задачи нормально решает. Но локальные модели рассматриваем, потому что есть запрос на приватность, работу в закрытых сетях, массовую обработку информации, ну и чисто для себя, на что способна локальная LLM/
Я потихоньку учусь ставить Курсор в рамки правилами и структурой промпта, но без них он себя ведет как хочет. Тут даже не столько минус, просто хочется, чтоб вжух, и ИИ тебе задачу решил, отчет написал, ревью сделал и повышение у начальника попросил.
Речь про дистиллированные модели для Ollama, да. Понятно, что дистиллированный дипсик это далеко не тот, что на сайте, но он проигрывает другим локальными моделям (gemma, gpt, qwen, mistral) и как локальная модель для практических задач практически не применим. Я еще напишу материал по сравнению локальным LLM