All streams
Search
Write a publication
Pull to refresh
10
78
Иван Воронов @ivan_5uglov

User

Send message

Не вижу противоречия. Теория - то как модель работает, как и на чем ее обучали и выравнивали, какие механизмы закладывали. Практика - как эту теорию применять и строить запросы, чтоб получать более качественные ответы.

Это связано с логикой работы текстовых моделей - при ответе он циклично подбирает самый подходящий к предыдущему следующий токен, изучая запрос и контекст механизмом внимания. У этого механизма более приоритетно начала запроса, из за эффекта первенства, и конец, из за недавности. Ну и плюс некоторые другие факторы. Длина контекста и эффект потери зависят от модели, существуют тесты для его вычисления, самый простой - скормить модели специфичный текст и поспрашивать точные факты из разных мест текста.
Ну и да, наверное здесь нужно было упомянуть не длину контекста а длину запроса. Хотя модель читает запрос вместе с контекстом, но запрос в приоритете, и практические советы размещать важные фрагменты в начале и конце работают именно для запроса.

Большое спасибо за информацию, многое принял к сведению

  • Процессор: AMD RYZEN 5 7500F

  • Оперативная память: 64 Гб, DDR5, 5600MHz

  • Видеокарта на чипе GeForce RTX 3050 с 8 Гб GDDR6 видеопамяти

  • SSD NVME

Онлайн лучше, да, сами в проектах пользуемся гигачатом, там дешевые токены и задачи нормально решает. Но локальные модели рассматриваем, потому что есть запрос на приватность, работу в закрытых сетях, массовую обработку информации, ну и чисто для себя, на что способна локальная LLM/

Я потихоньку учусь ставить Курсор в рамки правилами и структурой промпта, но без них он себя ведет как хочет. Тут даже не столько минус, просто хочется, чтоб вжух, и ИИ тебе задачу решил, отчет написал, ревью сделал и повышение у начальника попросил.

Речь про дистиллированные модели для Ollama, да. Понятно, что дистиллированный дипсик это далеко не тот, что на сайте, но он проигрывает другим локальными моделям (gemma, gpt, qwen, mistral) и как локальная модель для практических задач практически не применим. Я еще напишу материал по сравнению локальным LLM

Information

Rating
86-th
Registered
Activity

Specialization

Software Developer, Backend Developer