еще из минусов такого решения - в случае бизнес ошибок с 200 статусом вы их не увидите как ошибки в телеметрии a-la Application Insights и т.п., по крайней мере без танцев с бубном
Кроме размера модели есть еще размер контекста, и ему тоже нужны вычислительные ресурсы - с текущим доступным объемом в 128К LLM похожа на белку забывающую где закопала орех через 5 минут.
И RAG не всегда помогает т.к. простой cosine similarity не справляется при наличии непрямых зависимостях между частями исходных данных либо при запросах которые прямо касаются их всех.
если на таком оборудовании как у DeepSeek можно натренировать LLM уровня O1 (потенциально) то что можно сделать на топовом кластере от NVDA используя тот же подход, вот в чем вопрос?
еще из минусов такого решения - в случае бизнес ошибок с 200 статусом вы их не увидите как ошибки в телеметрии a-la Application Insights и т.п., по крайней мере без танцев с бубном
Кроме размера модели есть еще размер контекста, и ему тоже нужны вычислительные ресурсы - с текущим доступным объемом в 128К LLM похожа на белку забывающую где закопала орех через 5 минут.
И RAG не всегда помогает т.к. простой cosine similarity не справляется при наличии непрямых зависимостях между частями исходных данных либо при запросах которые прямо касаются их всех.
если на таком оборудовании как у DeepSeek можно натренировать LLM уровня O1 (потенциально) то что можно сделать на топовом кластере от NVDA используя тот же подход, вот в чем вопрос?