Open Data Science, Москва - Крупнейшее русскоязычное Data Science сообщество / Посты / Хабр

ПрофильСтатьи194Посты7Новости4Подписчики

Блог компании Open Data ScienceИскусственный интеллект

Тестирую DeepSeek V4 Pro, DeepSeek V4 Flash и другие

24 апреля DeepSeek выпустил новые модели: DeepSeek V4 Pro и DeepSeek V4 Flash. А вчера, 25 апреля, так уж получилось, я тестировал для своего проекта текстовые модели. Полюбившийся мне DeepSeek 3.2 сбоил, и я решил выбрать ему замену. Так случайно я грохнул почти весь выходной день на тест.

Все API-запросы отправлялись через OpenRouter. Prompt был единым для всех запросов. Единственное, что менялось, это сами модели. Результаты вы можете увидеть в таблице выше.

В промпте LLM ставилась цель выдать свое экспертное мнение по шахматной партии. Задача реальная и для моего проекта нужная. То есть, это не тест ради теста. Ответ ожидался в виде json-файла. Обычный бейзлайн, ничего особенного. Казалось бы, несложная задачка, но мозг DeepSeek 3.2 явно взорвался, потому что раз за разом он присылал сломанный json. Конечно, можно было провалидировать и отправить на исправление, но и с этим у него были сложности. В таблице написано, что было 2 вызова, но правильнее было написать 2 часа мучений с 3.2 версией с разными провайдерами.

Таблица содержит только технические показатели. А что же с качеством? Насколько удовлетворен запрос бизнес-задачи? И вот здесь собака и порылась.

Знаете, я не ожидал Отлично. Это не могло быть в принципе. Очень хотелось верить в Хорошо, как возможное чудо от какой-нибудь GPT-5.5. Но максимум был получен Удовлетворительно и только у двух других моделей. А НЕУД у всех остальных.

Лучшие модели Anthropic и OpenAI нагородили разной чуши, но весьма складно и много. За что получили бан - НЕУД. Claude Opus 4.7 отстой. GPT-5.5 не завелась, а ее замена и моя надежда GPT-5.4 оказалась лучше антропиковского Опуса, но стреляла много и по большей части в молоко. И, заметьте, это самые дорогие модели!!!

Удовлетворительно себя показали DeepSeek V4 Pro и Gemini 3 Flash Preview от Google. Первая слишком медленная, больше 800 секунд. Поэтому победителем была выбрана более дешевая и самая быстрая гугловская модель. Согласитесь, 63 секунды удовлетворительного качества меньше, чем за 4 рубля, это же считай отлично.

Gemini 3 Flash Preview - фаворит нашего субботнего забега. Сказать, что я был сильно удивлен, ничего не сказать.

Безусловно, у каждого из нас свои задачи, сферы применения и требования. Они разные, а поэтому и модели могут вести себя по-разному. Где-то лучше, где-то хуже. Полученные мной результаты выше справедливы для моей узкой задачи, но для ваших задач эти же модели могут показать себя совершенно иначе.

Я позволил себе быть весьма эмоциональным. Воскресенье, имеют право. Я там прошелся по 5.5 и 4.7. Но реальность такова, что я программирую на Codex и Claude Code с помощью моделей GPT-5.5 и Opus-4.7 и очень ими доволен. Они отлично работают для меня в программировании, но не сработали в моей прикладной задаче. C'est la vie, такова жизнь.

Ваш Эдуард Ланчев, тестировщик-эспериментатор выходного дня.

LanChess - проект, над которым я работаю.
Вайбкодинг по Chess’ноку. 1. e4 - статья о проекте.
Ланчев ПРО ИИ - мой блог в телеграме.

EddyLan

7 апр в 07:00343

Блог компании Open Data ScienceПрограммирование * Управление разработкой * Искусственный интеллект

ИИ-код и линтеры: статический анализ проекта на 85 000 строк

Недавно опубликовал статью о разработке шахматного веб-сервиса с помощью Claude Code и Codex. В комментариях попросили показать результаты статического анализа. Разумный запрос — давайте посмотрим на цифры.

Стиль и ошибки кода

ruff (Python) — 73 замечания на 63 000 строк. 1.2 на 1000 строк.

Состав: 39 неиспользуемых импортов, 17 неиспользуемых переменных, 6 forward references, 5 f-строк без подстановок, 5 лямбд вместо def. Ноль ошибок, от которых код падает в рантайме.

ESLint (React/TypeScript) — 0 ошибок, 5 warnings на 21 000 строк. Все пять — рекомендация Next.js использовать <Image> вместо <img>.

Для сравнения:
- Зрелый проект с CI-линтингом — 0–2 замечания на 1000 строк.
- Без линтинга — 5–15.
- Легаси — 20–50.

У нас 1.2 и 0.24, при том что CI-линтинга в проекте нет. Claude и Codex запускают ruff и eslint сами на каждое изменение — я вижу это в логах. Результат соответствующий.

Безопасность

ruff и ESLint проверяют стиль, не безопасность. По совету из комментариев прогнал bandit — security-сканер для Python.

1 432 находки. Реальных уязвимостей: 0.

2 HIGH — SHA1 для fingerprint'а шахматных партий. Это не криптография, а генерация коротких ID для внутренней классификации. Подделывать бессмысленно.
5 MEDIUM «SQL injection» — bandit видит f-string в SQL-запросе и сигнализирует. Но внутри f-string стоят только ?-плейсхолдеры, данные идут параметрами. Классическая параметризация, инъекция невозможна.
4 MEDIUM «url open» — HTTP-клиенты Lichess, Chess.com, OpenRouter. URL из конфига, пользователь не контролирует.
1 421 LOW — 1 250 assert'ов (bandit предупреждает, что assert удаляется при запуске с -O, но Django и Celery никто так не запускает), остальное — try/except/pass в опциональных ветках.

Фронтенду отдельный security-сканер не нужен: React экранирует HTML автоматически, dangerouslySetInnerHTML не используется, фронт не работает с БД, файлами и процессами.

85 000 строк, три сканера, ноль реальных уязвимостей. ИИ-код не нуждается в оправданиях — он нуждается в проверке. Проверили. Чисто.

p.s. Проверку проходил код из статьи Вайбкодинг по Chess’ноку. 1. e4

EddyLan

27 мар в 05:471K

Блог компании Open Data ScienceУправление разработкой * Искусственный интеллект

Во всем виноват хеш. Из жизни ИИ-разработчика

Вот так и живем 🙃

Чуть подкрутил вроде бы безобидный параметр в проекте — и внезапно у части треков исчезли графики ошибок. Не данные исчезли. Не анализ сломался. Просто где‑то в глубине сидел хеш и решил, что теперь жизнь пойдет по новым правилам.

Картина маслом: партии есть, треки есть, все вроде живо, а графики пустые. Приехали!

В итоге раскопал обычную историю. Пока продукт был проще, один и тот же механизм нормально держал на себе сразу несколько задач. Но проект растет, логика внутри становится сложнее, дизайн продукта меняется, и в какой‑то момент старые решения начинают тихо пакостить в самых неожиданных местах.

И вот ты меняешь маленькую настройку в одном месте, а привет прилетает совсем из другого.

Типичные проблемы. Проблемы роста. Но в обычных проектах они вызревают месяцами, а при сверхбыстрой разработке — ну, сами понимает — все по‑быстрому.

Но есть и хорошая новость: с ИИ такие истории сейчас чинятся гораздо оперативнее. Быстро получил баг — быстро исправил 🙂 Да ещё с тестированием и полным отчетом в одном флаконе.

Что там реально оказалось?

Раньше у меня был один хеш сразу на все, и пока проект был проще, это работало нормально. А когда внутри уже разделились собственно анализ и всякие производные вещи вокруг него, один общий хеш стал путать разные сущности. В итоге безобидное изменение настроек могло сделать вид, будто нужных данных нет. Починилось это довольно красиво: вместо одного хеша появились два — один для самого анализа, второй для общей версии сборки.

Короче, во всем виноват хеш 😄

Примечания

1. Автор также и всё ещё живёт в телеге
2. Проект, в котором у автора разделился хеш

EddyLan

26 мар в 08:112.6K

Блог компании Open Data ScienceУправление разработкой * Искусственный интеллект

ИИ снова про эффективность

Просматриваю проекты, в которых работал в до‑ИИшную эпоху. Сравниваю с текущими своими проектами, реализуемыми с помощью ИИ. Нашел два похожих.

Если брать только работу разработчиков, то код пишется в 16 раз быстрее, чем 3 года назад! А если еще подключить полный состав команды — тестировщиков, аналитиков, дизайнеров, — то эффективность еще больше.

Заоблачный ROI. Огромный запас для маневра. Потрясающе!

Ваш Ланчев ПРО ИИ эффективность 🙂

p.s. вентилятор работает, кто первый?

-1

EddyLan

23 мар в 09:592.6K

Блог компании Open Data ScienceИскусственный интеллект

Очеловечивание ИИ

Недавно разошлась новость о том, что Антропик (создатель Клода, а я с ним, как и с Кодексом, работаю с утра до утра каждые сутки) создал курс по «скилзам» (англицизм, skills), а по‑русски — навыкам. По каким навыкам? Вы думаете, вашим, разработчиков? Нет! Курс по навыкам агентов искусственного интеллекта.

Все бросились об этом писать, здесь на Хабре статья вышла. Тема не новая, Антропик про навыки ИИ пишет уже давно. Но только сейчас, с выходом курса, об этом громко заговорили.

И знаете, мне кажется, что все упускают один важный момент.

Название. Навыки! Это слово мы всегда применяли только к людям, а не к каким-то железкам.

А здесь идет явное очеловечивание ИИ. Это осознанное действие. Нас хотят приучить к мысли, что ИИ — не инструмент! Это очень опасно. И об этом никто не пишет. ИИ должен остаться инструментом. У него не должно быть навыков, сознания. У него могут быть только чипы и инструкции.

Человек должен четко провести эту границу и соблюдать ее. Но, к сожалению, этого не произойдет. Сейчас человек занят другими проблемами.

Всегда ваш (не ии), Ланчев PRO ИИ (канал автора в телеге)

EddyLan

22 мар в 08:412.3K

Блог компании Open Data ScienceУправление разработкой * Развитие стартапаИскусственный интеллект

ИИ-разработка. Темп

Знаете, обычно все скрыто под NDA. Но, когда свой проект, то можно рассказать все. Сегодня я расскажу самое главное. С какой скоростью идет разработка с помощью ИИ.

Мне говорят, что 90-95% разработчиков не используют ИИ. Мне тяжело в это поверить. Я скорее поверю, что они это скрывают. Ни самим разработчикам, ни IT-компаниям невыгодно рассказывать о возросшей эффективности. Мы еще поговорим как-нибудь об этом. А пока держите эффективность моей разработки.

✔ Только что я закончил весьма тяжелый переход к новой архитектуре данных в своем проекте lanchess.ru

👀 И занял этот переход у меня 2 дня! (если считать сегодня, то 3)
Стоило это мне 10 тыс строк кода и массы тестов (и тд и тп).

А теперь внимание.
Сколько времени эта же работа заняла бы без использования ии-инструментов?
Ответ: 16-26 рабочих дня.

💥 2 дня против 1 месяца работы!

Вы пока думайте, что сказать, а я пошел дальше работать 🙂

Всегда ваш, Ланчев PRO ИИ

-7

averkij

27 июн 2025 в 06:274.6K

Блог компании Open Data ScienceOpen source * Машинное обучение * Natural Language Processing *

🔺HFDay.ru

Сделал для сообщества сайт с обзорами статей с HF Daily Papers на русском.

Синхронизируется каждый час, можно отсортировать по рейтингу или вывести вверх недавно добавленные статьи, чего, кстати, на оригинальной страничке не сделать.

Обзоры, теги по темам и прочие данные генерируются через claude-3.7 и gpt-4o на основе спаршенных с сайта абстрактов. Аффилиации, имена авторов и скриншоты также вытаскиваются из статей и отображаются.

Код. Развернуто все полностью на GitHub — через Workflow джобы и Pages, что само по себе очень прикольно. Скрипты обновляют файлы с данными, пишут логи и генерируют страничку, которая коммитится обратно в репозиторий. Такую автоматизацию удобно использовать для своих проектов. Код открыт.

Данные. Предыдущие выпуски, включая json с классифицированными обзорами, откладываются в папку /d, можно брать их для своих нужд. Кушает это где-то по 20-30 рублей в день.

Языки. Кроме русского, обзоры переводятся на английский и китайский (вдруг вы его подучиваете).

Фильтры. Можно фильтровать по тематике статей, классификация на 42 класса (#agents, #data, #healthcare, #machine_translation, #science, #long_context, #reasoning и другие). Можно делать перекрестные и объединяющие фильтры.

Рейтинг. Кроме топа по дням есть топ по месяцам — например, за июнь было уже 600+ статей. Можно посмотреть какие из них лучшие по каким темам. Опять же, на оригинальной страничке такого нет.

В общем, добавляйте в закладки и шарьте с коллегами. Идеи приветствуются.

hfday.ru x градиент обреченный

//Upd. Забыл добавить — код тут.