Pull to refresh

Comments 10

О, про промтинг гайд не замечал, спасибо, почитаю.
Но всё-таки жду независимых тестов модели, такое ощущение что они пытаются скрыть, что GPT 4.1 не очень.

Да, все-таки сравнение с конкурентами хотелось бы от openai получить

И все же Flash 2.0 пока что топ. Быстрая, очень дешевая, умеет в json scheme и картинки.

У каждого на хабре и не только- свой топ )

Не хватает сравнения с другими моделями, не от OpenAI

Согласен, т.к. не очень объективное сравнение у openai

Все просто - я размещаю статью сразу на 2х площадках. С VC удобно копировать на хабр, а наоборот не очень. Это в правилах не запрещено

В рамках проекта по улучшению резюме тестирую разные модели на нахождение дефектов в резюме.

В процессе тестирования пробовал:
- Anthropic 3.7 Sonnet,
- OpenAI GPT 4.1, GPT 4.1 Mini, GPT 4o
- Google AI Gemini 2.5 Pro
- DeepSeek R1, 70b
- Meta 4

На текущий момент самый аккуратный и внимательный к деталям OpenAI GPT 4.1.
За ним Gemini 2.5 Pro +, GPT 4o и 3.7 Sonnet.

Все остальные модели для сравнения непригодны, так как на десятках тестов дают явно худшие результаты по субъективной оценке и по количественным показателям по найденным дефектам.

Sign up to leave a comment.

Articles