Обновить

Комментарии 8

Но они (взносы) платятся работодателем, не из зарплаты сотрудника

Меня аж трИсёт от таких уверждений.

А по теме, может в промпте надо было этот нюанс уточнить? Перед тестом не делалась коррекция промптов? Я бы предпочел попсомтреть на результаты не первой, а 5-й или даже 10-й итерации.

По OCR - я правильно понял, делали OCR не самой моделью, а подавали ошибочные данные? А что если бы номер на самом деле включал в себя букву "О", а не цифру "0"? А я такое встречал и продолжаю встречать, особенно здорово буквы "О" выглядят в pppoe-паролях от Росстелеком, который считает что в каждом пароле должно быть хотя бы пару таких задач на распознавание. Ещё l и I - это разные символы. По моему, правильнее, не исправлять идентификаторы на этапе работы, если это не оговорено отдельным промптом.

Жаль, что в этом тесте нет qwen 397 A17B - по моему у уэтой модели обостренное чувство порядка.

Если Вы собрались автоматизировать (именно автоматизировать, а не для своего личного кейса приблизительно прикинуть) расчёт зарплаты или налогов через LLM - то у меня для Вас, независимо от использованной модели, очень плохие новости...

DeepSeek thinking отловил бы поспешное ДА при вычете в 25 лет. Возможно и ошибки OCR.

Но в общем, мне не показалось что он заслужил сменить мажорный номер

Статью писал дипсик.

НЛО прилетело и опубликовало эту надпись здесь

Есть подписка Claude Pro за 22 евро в месяц.

Есть подписка на Google AI Pro за 20 евро в месяц (или около того).

Взял Deepsick API у них на оф сайте, закинул туда 5 евро на тест.

Промпт простой, написанный максимально не по программистки, чисто описание желания, что бы до бы классно иметь, даны примеры названий других игр с описанием что там нравится. Короче промпт был как будто я другу рассказываю идею что было бы круто сделать максимально свободным языком (по русски).

Забегая вперёд: победитель Google Antigravity ТК он за 20 евро даёт Gemini 3 pro и понюхать opus. Так же в Гугле есть приятный бонус в виде семейной группы, ТК ваша подписка распространяется на каждого члена этой группы, соответственно ваши лимиты * 5. Но почему то на одном из аккаунтов семейной группы он стабильно выдает сообщение что сервера перегружены попробуйте позже. И я не знаю когда гугл спалит это дело, т.к. это явный абьюзинг подписки.

Игра была создана используя три аккаунта исчерпав три лимита, сначала использовал весь опус на трёх аккаунтах и потом допиливал остатки Gemini 3 pro.

Claude Code Cli с опусом не хватает лимитов что бы доделать игру за короткое время, все время упирается в лимит и скоро закончится недельный лимит, так и не доделал.

А вот дипсик потратил начал свою работу в 8 вечера, в 9 он ушел в цикл. В 9:30 я его остановил, перепромптил, и в 10 он мне выдал заумный текст который любой уважающий себя вайбкодер не должен понимать, что то там про java блаблабла. В итоге потратив 2 евро. Результат созданной игры был незпускаемым.

И да, в Claude Code я использовал только Opus, ТК для меня соннет совсем не подходит, не понимает подтекст, не угадывает желания.

В Deepsick я гонял v4 pro. Который flash вообще не справился бы с задачей.

Понятное дело что с более четкими структурированными проматами с правильным долгим планированием, с ревью кода своими руками и дипсик бы справился. Но для меня смысл этих агентских ИИ - это пока работу работаешь (не связанную с программированием, по крайней мере напрямую) придумал идею, и такой "вот было бы клёво иметь такое приложение или игру" и чисто с телефона подключился к удалённому компу на котором стоит antigravity, или из Claude chat открыл активную сессию Claude cli на том же удаленном компе, сказал ему, слушай хочу клёвую игру, нажал "сделать". И пошел заниматься своими делами, а потом просто как из микроволновки достал и съел. Такой чисто программисткий фастфуд. Быстро функционально вкусно красиво. Но идеи приходят несколько раз в неделю и серьезно на них тратить годы - мне неинтересно.

Так что для меня Antigravity пока топ.

Если ты автоматизируешь зарплатный расчёт через LLM

..., то, возможно, тебе стоит провериться у психиатра. LLM не предназначены для расчётов. И совершенно неважно, что это за расчёты.

Промпт: сотрудник в Москве, оклад 150 000 руб., налоговый резидент РФ, сколько на руки за месяц.

А мне Дипсик все правильно посчитал: 130 500 ₽

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации