Комментарии / Профиль Altair2021 / Хабр

Александр@Altair2021

Пользователь

ChatGPT 5.2 Pro vs Claude Sonnet 4.5 vs Gemini 3 Pro: кто лучше пишет тексты

Altair2021 3 янв в 09:14

Смысл подобного эксперимента\теста неясен, прошу пояснить. В данной постановке задачи, если Вы ее зададите человеку-редактору, Вы получите то же самое: "в какой кусок дерьма будет превращен отличный изначальный текст". По пунктам:

1) сразу спросим про язык: русский, английский, или любой другой? LLM обучены на триллионах токенов текста, и бОльшая часть там -- английский язык. С русским до сих пор у многих проблемы (иногда очевидные, иногда не очень).

хороший фрагмент текста известного вам автора

Известный автор -- это условный Толстой\Достоевский? Или какой-нить автор с условного литреса? Или вообще с условного фикбука? На последних двух очень много хороших авторов, пишущих захватывающие произведения, но еще больше пишущих мусор. И с теми же Толстым\Достоевским вряд ли кто-то сравнится, однако их можно считать "известными мне авторами".

хороший фрагмент текста

Что считать "хорошим фрагметом текста"? Понятие "хороший" чисто субъективное. Возьмем в пример какого-нить автора с фикбука, смотрим на комментарии читатетей: "отлично написанная история", "грамотный текст"... А на самом деле в тексте там куча логических\грамматических\пунктуационных ошибок и просто очепяток. Тем не менее, текст "хороший", по мнению некоторых читателей.

"фрагментом текста"

и здесь будет одна из самых больших проблем и для LLM, и для человека. Для начала: что есть фрагмент? В логически связанном тексте любой его фрагмент неразрывно связан с другими фрагментами, и писался автором под его собственный опыт и настроение. Допустим, в этом вырванном из контекста отрывке есть диалоги\эмоции (кстати, чьи эмоции? персонажей? или самого автора?): автор при задумке персонажей уже заложил в них определенную психологию поведения, выражая её в диалогах, действиях, описаниях. В этом вырванном из контекста отрывке, если не знать сам контекст, диалоги и действия персонажей могут показаться нелогичными для нашего субъективного представления, но абслолютно подходящими под психотипы персонажей, раскрытые автором в контексте.

То есть, просто "фрагмент текста" без контекста (т.е. всего произведения) передавать в большинстве случаев смысла не имеет. И LLM, и человек в данном случае не смогут по-нормальному оценить этот "фрагмент". И касаемо LLM -- здесь нужен RAG, как упомянуто комментарием выше.

5) возвращаясь к условным Толстому\Достоевскому: если принять отрывок текста за "отличный" (полагаю, в этом сомнений нет, раз их произведения -- классика), то задача "найти, что получилось хорошо, а что плохо и доработать" -- это поиск придирок к тексту. И тут человек тоже на свой субъективный вкус может напридираться, не говоря уже про LLM.

Даже в программировании ИИ помогает больше

В программировании есть четкая структура, и есть миллионы, если не миллиарды, примеров ее использования. Для сравнения в литературном произведении структура есть только общая (части\главы\секции и тп), а вот контент в каждой части\главе\секции плюс-минус уникален для каждого автора. Примеров, соотвественно, не миллионы (если говорить о хорошем качестве). Если даже миллион наберется -- и то не факт.

Ну и добавлю, что программирование -- это почти полностью английский язык. Комментарии\названия могут быть не английскими, но основные структуры языков базируются на английском, других вроде бы и нет (если смотреть популярные ЯП). Поэтому логично, что LLM в программировании куда лучше, чем в креативном письме.

Сравнение производительности языковых моделей для HR-задач

Altair2021 1 сен 2025 в 04:20

Быстродействие оценивалось как среднее время ответа (в секундах).

Что за секунды? На каком оборудовании (3050/1650/ryzen -- у них у всех разная скорость, в таблице это не отражено)? У одной модели, скажем, на 4090 скорость будет 100 токенов/сек, а на H100 150 токенов/сек. На 4070 -- 50 токенов/сек (все цифры примерные). Т.е. для Llama 3.2 3b q8 за 20 секунд в одном случае будет сгенерировано 2000 токенов, в другом 3000, в третьем 1000. Касаемо 1650/3050: если верить technicalcity, 3050 примерно в раза два быстрее 1650.

Далее, это время от запроса пользователя до вывода на его экран? Так это зависит от размера самой модели, размера контекста, количества токенов, заложенных на "думание", модели gpu (как указано выше), скорости интернета.

Так что за секунды тут приведены? И не удобнее ли результат приводить в токенах? Типа, модель такая-то, в ответе в среднем генерировала N токенов со скоростью M токенов\сек, качество ответов такое-то

GPT-5 сделала большой скачок, но его почти не заметили. В Epoch AI пояснили, почему

Altair2021 1 сен 2025 в 03:54

Кто-то может объяснить фразы типа
"модель думала N секунд"
(из статьи) "задач, которые занимают около 9 секунд"
(из статьи) "для GPT-4 этот показатель увеличился до 5,36 минут (прирост в 36 раз), а для GPT-5 достиг 137 минут. "

Везде пишут про пресловутые "секунды". Что за секунды? Чисто время "думания"? Или время от запроса до вывода на экран (вместе с решением, или чисто фазы "думания")? Так это завист от кучи факторов -- типа модели gpu, размера модели, структуры модели (MoE vs dense), количества токенов, выделенных на размышление, наконец, скрость интернет-соединения. Например, модели gpt4 и 5 (кстати, не указано, какие именно модели): скорость ответа модели gpt-5-nano выше в несколько раз по сравнению с gpt-5 -- благодаря меньшему размеру (кстати, а ведь точные размеры тоже неизвестны). Далее, скорость зависит от оборудования -- а есть ли гарантия, что инстансы gpt-4 и gpt-5 запущены на одних и тех же моделях gpu? Особенно если этих gpu сотни тысяч?

Получается, что ответ приводится в каких-то эфемерных "секундах", которые зависят от кучи факторов и фактически не говорят ни о чем. Почему нигде не приводятся результаты в токенах? Например, вот, модель такая-то, "думала" в среднем 10к токенов, достигла точности в 90%.

1 2 3 4