Обновить
2

Пользователь

Отправить сообщение

Какой-то мягко говоря странный выбор самих апишек, ну ей богу на том же openrouter есть варианты и получше(сами недавно подобный бенч делали, но для других целей)
по похожей с вашей метрикой у нас вшел такой топ:
1)Grok 4.1 Fast
2)Gemini 2.5 Flash
3)DeepSeek V3.1
4)Gemini 2.5 Pro
5)Grok 3 Mini

Но ваще мне больше заходит как то так считать

1. Векторная нормализация:

q_i = Quality_i / sqrt(sum(Quality_k²))

c_i = (1/Cost_i) / sqrt(sum((1/Cost_k)²))

2. Взвешивание:

v_q = 0.8 × q_i

v_c = 0.2 × c_i

3. Идеал и антиидеал:

A+ = (max(v_q), max(v_c))

A‑ = (min(v_q), min(v_c))

4. асстояния:

D+ = sqrt((v_q — v_q+)² + (v_c — v_c+)²)

D‑ = sqrt((v_q — v_q‑)² + (v_c — v_c‑)²)

5. Score = D‑ / (D+ + D‑) ∈ [0, 1]


по такой метрике уже среди похожих по цене топов выбирали...
Но впорос ваще не про метрику, вопрос скорее к выбору... Ну в чем проблема взять не 20 LLM-ок, а штук 50 хотя бы, вдруг что-то упустили

Мой первый коммент на хабре(не знаю радоваться или плакать)
В целом причиной оставить коммент для меня послужил тот факт, что редкая статья, которая не выглядит как паста от ии.
А теперь к сути...
Имхо статья крайне опасна в текущем виде. Почему? Потому что судя по тексту в ней статья ориентирована буквально на чуваков с опытом в пару недель, но сразу же идет имхо максимально опасный подход -- код без архитектуры. Пусть не код, пусть пока буквально настройка окружения и все, но теперь, автор, представьте, что все действия делаете не вы(который уже скорее всего в голове все плюс-минус продумал и понимает), а новичек. Тот самый новичек точно так же как вы создаст окружение, начнет писать код, и... В какой-то момент столкнется с проблемой, что либо нужно отправлять все сообщения в ии и это очевидно довольно дорого, либо надо как-то их фильтровать и совсем не ясно как это делать, тк в данной задаче критичны как FP так и FN срабатывания. И что скорее всего случится? Скорее всего ровно на этом проект и встанет(Это чисто пример, который пришел первым в голову)

Имхо, особенно для начинающих, критически важно сначала построить архитектуру и убедиться в реализуемости проекта посредством проверки каждого этапа. Те если например у нас где-то есть запросы к апишке, то нужно взять и написать скриптик на 10-15 строчек и проверить что да, данные мы получаем(или курлом на крайний случай).

Сам материал хорош для новичков, но, имхо, в текущем виде крайне опасен.
Всех благ, мяу

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Бэкенд разработчик
Средний
От 1 500 €
Python
PostgreSQL
Git
REST
ООП
Алгоритмы и структуры данных
Математика