Тестирую DeepSeek V4 Pro, DeepSeek V4 Flash и другие

24 апреля DeepSeek выпустил новые модели: DeepSeek V4 Pro и DeepSeek V4 Flash. А вчера, 25 апреля, так уж получилось, я тестировал для своего проекта текстовые модели. Полюбившийся мне DeepSeek 3.2 сбоил, и я решил выбрать ему замену. Так случайно я грохнул почти весь выходной день на тест.
Все API-запросы отправлялись через OpenRouter. Prompt был единым для всех запросов. Единственное, что менялось, это сами модели. Результаты вы можете увидеть в таблице выше.
В промпте LLM ставилась цель выдать свое экспертное мнение по шахматной партии. Задача реальная и для моего проекта нужная. То есть, это не тест ради теста. Ответ ожидался в виде json-файла. Обычный бейзлайн, ничего особенного. Казалось бы, несложная задачка, но мозг DeepSeek 3.2 явно взорвался, потому что раз за разом он присылал сломанный json. Конечно, можно было провалидировать и отправить на исправление, но и с этим у него были сложности. В таблице написано, что было 2 вызова, но правильнее было написать 2 часа мучений с 3.2 версией с разными провайдерами.
Таблица содержит только технические показатели. А что же с качеством? Насколько удовлетворен запрос бизнес-задачи? И вот здесь собака и порылась.
Знаете, я не ожидал Отлично. Это не могло быть в принципе. Очень хотелось верить в Хорошо, как возможное чудо от какой-нибудь GPT-5.5. Но максимум был получен Удовлетворительно и только у двух других моделей. А НЕУД у всех остальных.
Лучшие модели Anthropic и OpenAI нагородили разной чуши, но весьма складно и много. За что получили бан - НЕУД. Claude Opus 4.7 отстой. GPT-5.5 не завелась, а ее замена и моя надежда GPT-5.4 оказалась лучше антропиковского Опуса, но стреляла много и по большей части в молоко. И, заметьте, это самые дорогие модели!!!
Удовлетворительно себя показали DeepSeek V4 Pro и Gemini 3 Flash Preview от Google. Первая слишком медленная, больше 800 секунд. Поэтому победителем была выбрана более дешевая и самая быстрая гугловская модель. Согласитесь, 63 секунды удовлетворительного качества меньше, чем за 4 рубля, это же считай отлично.
Gemini 3 Flash Preview - фаворит нашего субботнего забега. Сказать, что я был сильно удивлен, ничего не сказать.
Безусловно, у каждого из нас свои задачи, сферы применения и требования. Они разные, а поэтому и модели могут вести себя по-разному. Где-то лучше, где-то хуже. Полученные мной результаты выше справедливы для моей узкой задачи, но для ваших задач эти же модели могут показать себя совершенно иначе.
Я позволил себе быть весьма эмоциональным. Воскресенье, имеют право. Я там прошелся по 5.5 и 4.7. Но реальность такова, что я программирую на Codex и Claude Code с помощью моделей GPT-5.5 и Opus-4.7 и очень ими доволен. Они отлично работают для меня в программировании, но не сработали в моей прикладной задаче. C'est la vie, такова жизнь.
Ваш Эдуард Ланчев, тестировщик-эспериментатор выходного дня.
LanChess - проект, над которым я работаю.
Вайбкодинг по Chess’ноку. 1. e4 - статья о проекте.
Ланчев ПРО ИИ - мой блог в телеграме.
























