У нас стоит 2 NVidia 4090 под это дело, каждая по 24 Gb. Этого, в целом, хватает на OCR, embedding, и LLM на 20b (мы раньше был еще реранкер, но после подключения OCR он просто не пролез)
Пытались также сделать модели частично в RAM, но не были довольны скоростью выходящих токенов, так что отказались от этой идеи (возможно, временно)
В рамках нашей компании мы реализуем алгоритмы для автоматизации расчетов доходности по различным портфелям (через MCP ClickHouse) и также используем RAG. Модельки тоже локальные, но не с такими мощностями)
У меня получилось через pipeline вывести окно, которое получает подтверждение, но я не догадался, как получить ответ.
Может быть ты и прав, я думал, что просто я до этого не догадался, как получить ответ)
У нас стоит 2 NVidia 4090 под это дело, каждая по 24 Gb. Этого, в целом, хватает на OCR, embedding, и LLM на 20b (мы раньше был еще реранкер, но после подключения OCR он просто не пролез)
Пытались также сделать модели частично в RAM, но не были довольны скоростью выходящих токенов, так что отказались от этой идеи (возможно, временно)
Интересная статья, спасибо за нее большое)
В рамках нашей компании мы реализуем алгоритмы для автоматизации расчетов доходности по различным портфелям (через MCP ClickHouse) и также используем RAG. Модельки тоже локальные, но не с такими мощностями)
Да, про это можно прочитать по ссылке: https://habr.com/ru/articles/989386/
Спасибо)
Вторая часть уже есть, можно ознакомится по ссылке: https://habr.com/ru/articles/989386/
Да, действительно, было здорово на нем работать, весь отдел на него и перешел в итоге)
Думаю, в ближайшее время, уже готовы наброски для нее)
Спасибо большое)
Для нас это была сильная боль в свое время, хотелось поделиться, как мы ее преодолели