Обновить
16K+
86,33
Рейтинг
12 087
Подписчики
Сначала показывать

Тестирую DeepSeek V4 Pro, DeepSeek V4 Flash и другие

На что можно потратить субботу
На что можно потратить субботу

24 апреля DeepSeek выпустил новые модели: DeepSeek V4 Pro и DeepSeek V4 Flash. А вчера, 25 апреля, так уж получилось, я тестировал для своего проекта текстовые модели. Полюбившийся мне DeepSeek 3.2 сбоил, и я решил выбрать ему замену. Так случайно я грохнул почти весь выходной день на тест.

Все API-запросы отправлялись через OpenRouter. Prompt был единым для всех запросов. Единственное, что менялось, это сами модели. Результаты вы можете увидеть в таблице выше.

В промпте LLM ставилась цель выдать свое экспертное мнение по шахматной партии. Задача реальная и для моего проекта нужная. То есть, это не тест ради теста. Ответ ожидался в виде json-файла. Обычный бейзлайн, ничего особенного. Казалось бы, несложная задачка, но мозг DeepSeek 3.2 явно взорвался, потому что раз за разом он присылал сломанный json. Конечно, можно было провалидировать и отправить на исправление, но и с этим у него были сложности. В таблице написано, что было 2 вызова, но правильнее было написать 2 часа мучений с 3.2 версией с разными провайдерами.

Таблица содержит только технические показатели. А что же с качеством? Насколько удовлетворен запрос бизнес-задачи? И вот здесь собака и порылась.

Знаете, я не ожидал Отлично. Это не могло быть в принципе. Очень хотелось верить в Хорошо, как возможное чудо от какой-нибудь GPT-5.5. Но максимум был получен Удовлетворительно и только у двух других моделей. А НЕУД у всех остальных.

Лучшие модели Anthropic и OpenAI нагородили разной чуши, но весьма складно и много. За что получили бан - НЕУД. Claude Opus 4.7 отстой. GPT-5.5 не завелась, а ее замена и моя надежда GPT-5.4 оказалась лучше антропиковского Опуса, но стреляла много и по большей части в молоко. И, заметьте, это самые дорогие модели!!!

Удовлетворительно себя показали DeepSeek V4 Pro и Gemini 3 Flash Preview от Google. Первая слишком медленная, больше 800 секунд. Поэтому победителем была выбрана более дешевая и самая быстрая гугловская модель. Согласитесь, 63 секунды удовлетворительного качества меньше, чем за 4 рубля, это же считай отлично.

Gemini 3 Flash Preview - фаворит нашего субботнего забега. Сказать, что я был сильно удивлен, ничего не сказать.

Безусловно, у каждого из нас свои задачи, сферы применения и требования. Они разные, а поэтому и модели могут вести себя по-разному. Где-то лучше, где-то хуже. Полученные мной результаты выше справедливы для моей узкой задачи, но для ваших задач эти же модели могут показать себя совершенно иначе.

Я позволил себе быть весьма эмоциональным. Воскресенье, имеют право. Я там прошелся по 5.5 и 4.7. Но реальность такова, что я программирую на Codex и Claude Code с помощью моделей GPT-5.5 и Opus-4.7 и очень ими доволен. Они отлично работают для меня в программировании, но не сработали в моей прикладной задаче. C'est la vie, такова жизнь.

Ваш Эдуард Ланчев, тестировщик-эспериментатор выходного дня.

LanChess - проект, над которым я работаю.
Вайбкодинг по Chess’ноку. 1. e4 - статья о проекте.
Ланчев ПРО ИИ - мой блог в телеграме.

Теги:
+1
Комментарии4

ИИ-код и линтеры: статический анализ проекта на 85 000 строк

Таблица с результатами проверки
Таблица с результатами проверки

Недавно опубликовал статью о разработке шахматного веб-сервиса с помощью Claude Code и Codex. В комментариях попросили показать результаты статического анализа. Разумный запрос — давайте посмотрим на цифры.

Стиль и ошибки кода

ruff (Python) — 73 замечания на 63 000 строк. 1.2 на 1000 строк.

Состав: 39 неиспользуемых импортов, 17 неиспользуемых переменных, 6 forward references, 5 f-строк без подстановок, 5 лямбд вместо def. Ноль ошибок, от которых код падает в рантайме.

ESLint (React/TypeScript) — 0 ошибок, 5 warnings на 21 000 строк. Все пять — рекомендация Next.js использовать <Image> вместо <img>.

Для сравнения:
- Зрелый проект с CI-линтингом — 0–2 замечания на 1000 строк.
- Без линтинга — 5–15.
- Легаси — 20–50.

У нас 1.2 и 0.24, при том что CI-линтинга в проекте нет. Claude и Codex запускают ruff и eslint сами на каждое изменение — я вижу это в логах. Результат соответствующий.

Безопасность

ruff и ESLint проверяют стиль, не безопасность. По совету из комментариев прогнал bandit — security-сканер для Python.

1 432 находки. Реальных уязвимостей: 0.

  • 2 HIGH — SHA1 для fingerprint'а шахматных партий. Это не криптография, а генерация коротких ID для внутренней классификации. Подделывать бессмысленно.

  • 5 MEDIUM «SQL injection» — bandit видит f-string в SQL-запросе и сигнализирует. Но внутри f-string стоят только ?-плейсхолдеры, данные идут параметрами. Классическая параметризация, инъекция невозможна.

  • 4 MEDIUM «url open» — HTTP-клиенты Lichess, Chess.com, OpenRouter. URL из конфига, пользователь не контролирует.

  • 1 421 LOW — 1 250 assert'ов (bandit предупреждает, что assert удаляется при запуске с -O, но Django и Celery никто так не запускает), остальное — try/except/pass в опциональных ветках.

Фронтенду отдельный security-сканер не нужен: React экранирует HTML автоматически, dangerouslySetInnerHTML не используется, фронт не работает с БД, файлами и процессами.

85 000 строк, три сканера, ноль реальных уязвимостей. ИИ-код не нуждается в оправданиях — он нуждается в проверке. Проверили. Чисто.

p.s. Проверку проходил код из статьи Вайбкодинг по Chess’ноку. 1. e4

Теги:
+1
Комментарии6

Во всем виноват хеш. Из жизни ИИ-разработчика

SHA-256
SHA-256

Вот так и живем 🙃

Чуть подкрутил вроде бы безобидный параметр в проекте — и внезапно у части треков исчезли графики ошибок. Не данные исчезли. Не анализ сломался. Просто где‑то в глубине сидел хеш и решил, что теперь жизнь пойдет по новым правилам.

Картина маслом: партии есть, треки есть, все вроде живо, а графики пустые. Приехали!

В итоге раскопал обычную историю. Пока продукт был проще, один и тот же механизм нормально держал на себе сразу несколько задач. Но проект растет, логика внутри становится сложнее, дизайн продукта меняется, и в какой‑то момент старые решения начинают тихо пакостить в самых неожиданных местах.

И вот ты меняешь маленькую настройку в одном месте, а привет прилетает совсем из другого.

Типичные проблемы. Проблемы роста. Но в обычных проектах они вызревают месяцами, а при сверхбыстрой разработке — ну, сами понимает — все по‑быстрому.

Но есть и хорошая новость: с ИИ такие истории сейчас чинятся гораздо оперативнее. Быстро получил баг — быстро исправил 🙂 Да ещё с тестированием и полным отчетом в одном флаконе.

Что там реально оказалось?

Раньше у меня был один хеш сразу на все, и пока проект был проще, это работало нормально. А когда внутри уже разделились собственно анализ и всякие производные вещи вокруг него, один общий хеш стал путать разные сущности. В итоге безобидное изменение настроек могло сделать вид, будто нужных данных нет. Починилось это довольно красиво: вместо одного хеша появились два — один для самого анализа, второй для общей версии сборки.

Короче, во всем виноват хеш 😄

Примечания

1. Автор также и всё ещё живёт в телеге
2. Проект, в котором у автора разделился хеш

Теги:
Всего голосов 2: ↑1 и ↓1+2
Комментарии0

ИИ снова про эффективность

жируем?
жируем?

Просматриваю проекты, в которых работал в до‑ИИшную эпоху. Сравниваю с текущими своими проектами, реализуемыми с помощью ИИ. Нашел два похожих.

Если брать только работу разработчиков, то код пишется в 16 раз быстрее, чем 3 года назад! А если еще подключить полный состав команды — тестировщиков, аналитиков, дизайнеров, — то эффективность еще больше.

Заоблачный ROI. Огромный запас для маневра. Потрясающе!

Ваш Ланчев ПРО ИИ эффективность 🙂

p.s. вентилятор работает, кто первый?

Теги:
Всего голосов 5: ↑2 и ↓3-1
Комментарии2

Очеловечивание ИИ

Недавно разошлась новость о том, что Антропик (создатель Клода, а я с ним, как и с Кодексом, работаю с утра до утра каждые сутки) создал курс по «скилзам» (англицизм, skills), а по‑русски — навыкам. По каким навыкам? Вы думаете, вашим, разработчиков? Нет! Курс по навыкам агентов искусственного интеллекта.

ии-котейко
ии-котейко

Все бросились об этом писать, здесь на Хабре статья вышла. Тема не новая, Антропик про навыки ИИ пишет уже давно. Но только сейчас, с выходом курса, об этом громко заговорили.

И знаете, мне кажется, что все упускают один важный момент.

Название. Навыки! Это слово мы всегда применяли только к людям, а не к каким-то железкам.

А здесь идет явное очеловечивание ИИ. Это осознанное действие. Нас хотят приучить к мысли, что ИИ — не инструмент! Это очень опасно. И об этом никто не пишет. ИИ должен остаться инструментом. У него не должно быть навыков, сознания. У него могут быть только чипы и инструкции.

Человек должен четко провести эту границу и соблюдать ее. Но, к сожалению, этого не произойдет. Сейчас человек занят другими проблемами.

Всегда ваш (не ии), Ланчев PRO ИИ (канал автора в телеге)

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии2

ИИ-разработка. Темп

Знаете, обычно все скрыто под NDA. Но, когда свой проект, то можно рассказать все. Сегодня я расскажу самое главное. С какой скоростью идет разработка с помощью ИИ.

Немного статистики по проекту
Немного статистики по проекту

Мне говорят, что 90-95% разработчиков не используют ИИ. Мне тяжело в это поверить. Я скорее поверю, что они это скрывают. Ни самим разработчикам, ни IT-компаниям невыгодно рассказывать о возросшей эффективности. Мы еще поговорим как-нибудь об этом. А пока держите эффективность моей разработки.

✔ Только что я закончил весьма тяжелый переход к новой архитектуре данных в своем проекте lanchess.ru

👀 И занял этот переход у меня 2 дня! (если считать сегодня, то 3)
Стоило это мне 10 тыс строк кода и массы тестов (и тд и тп).

А теперь внимание.
Сколько времени эта же работа заняла бы без использования ии-инструментов?
Ответ: 16-26 рабочих дня.

💥 2 дня против 1 месяца работы!

Вы пока думайте, что сказать, а я пошел дальше работать 🙂

Всегда ваш, Ланчев PRO ИИ

Теги:
Всего голосов 9: ↑1 и ↓8-7
Комментарии25

🔺HFDay.ru

Сделал для сообщества сайт с обзорами статей с HF Daily Papers на русском.

hfday.ru
hfday.ru

Синхронизируется каждый час, можно отсортировать по рейтингу или вывести вверх недавно добавленные статьи, чего, кстати, на оригинальной страничке не сделать.

Обзоры, теги по темам и прочие данные генерируются через claude-3.7 и gpt-4o на основе спаршенных с сайта абстрактов. Аффилиации, имена авторов и скриншоты также вытаскиваются из статей и отображаются.

Код. Развернуто все полностью на GitHub — через Workflow джобы и Pages, что само по себе очень прикольно. Скрипты обновляют файлы с данными, пишут логи и генерируют страничку, которая коммитится обратно в репозиторий. Такую автоматизацию удобно использовать для своих проектов. Код открыт.

Данные. Предыдущие выпуски, включая json с классифицированными обзорами, откладываются в папку /d, можно брать их для своих нужд. Кушает это где-то по 20-30 рублей в день.

Языки. Кроме русского, обзоры переводятся на английский и китайский (вдруг вы его подучиваете).

Фильтры. Можно фильтровать по тематике статей, классификация на 42 класса (#agents, #data, #healthcare, #machine_translation, #science, #long_context, #reasoning и другие). Можно делать перекрестные и объединяющие фильтры.

Рейтинг. Кроме топа по дням есть топ по месяцам — например, за июнь было уже 600+ статей. Можно посмотреть какие из них лучшие по каким темам. Опять же, на оригинальной страничке такого нет.

В общем, добавляйте в закладки и шарьте с коллегами. Идеи приветствуются.

hfday.ru x градиент обреченный

//Upd. Забыл добавить — код тут.

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии2

Информация

Сайт
ods.ai
Дата регистрации
Дата основания
Численность
5 001–10 000 человек
Местоположение
Россия