Обновить
3
Anatolii@ARazum

QA in AI

Отправить сообщение

Свободная пресса и открытые данные - это уже и не капитализм. Потому что всё это существует только либо на общественные деньги либо с общественным контролем.

Но что бы при капитализме, общество в конкурентной борьбе сохранило общественный контроль, оно должно объединиться против тех, кто хочет этот контроль ограничить. А все капиталисты этого хотят. И тут мы приходим к тому что государственные органы должны работать на общество а не на капиталистов)))) а это уже и не капитализм.

К сожалению, это уже было бы на грани ограничений NDA.
А так да, этого не хватает.

Обстановка тяжёлая.
В основном это связано со стоимостью ошибки и сложностью задач, как кажется.

Т.е. понятные проекты типа ботов по любым типам знаний или ассистентов по офисным задачам действительно внедряются и на производствах используются весьма успешно, часто с далеко не нулевой отдачей.

Но вы скорее всего говорите, о специфических задачах связанных с анализом или созданием схем, чертежей, технологических процессов, конструкций и т.д.

Результат имеющихся ресерчей такой.
- Полная автоматизация таких задач прямо сейчас, кажется невозможной, без жёсткой стандартизации входа/выхода. А стандартизация не возможной по причинам нежелания настолько зарегулировать процессы.
- Системы помощи в этих специфических задач сделать можно, но что бы покрывать значительное разнообразие входных данных, они получаются дорогими.
- Производства, в основном, не готовы играть в долгую. Кажется, что целевой предел ROI мало у кого выходит 1-2 года (хотя выборка не такая большая). Решения просто не проходят утверждения. Возможно ли это изменить? В текущих условиях точно нет. Объективно сложно предсказать что будет с реальным производством даже через 1 год.

Пока так )

а вы не думали, насколько это вообще помогло сэкономить время, по сравнению с тем, что бы завайбкодить такую тулу с нуля, без нейтона, но с тем же набором данных?

А это проблема?
Нейронки уже во все области залезли. Как будь-то даже наивно думать, что их не будут использовать для того, для чего они создавались.

Классная статья. Таких не хватает сейчас.

Есть 2 вопроса:

1) Пробовали ли вы встроить процесс регулярной валидации в CI/CD, чтобы минимизировать риск ошибок на проде, или вернее, что бы ускорить их обнаружение, после обновлений или если появятся новые промпт-инъекции?

2) Не пробовали ли работать на закрытых моделях, что бы проверка располагалась строго в контуре на открытых моделях?

Кажется, требует особого внимания и отдельной статьи тема сохранения контекста и обеспечения его безопасности. Тут это затронуто вскольз.
Где он физически хранится во время работы? В оперативной памяти? или в какой-то бд? Или нужен чуть ли не отдельный контейнер, под каждого пользователя.

Может есть уже какие-то бестпрактис на этотсчёт?

Простите, а тут опечатка, или на каком-то этапе действительно важно что бы сама структура ответа была корректная, но он может не относится к теме запроса?
А научить давать такой же хороший ответ но с попаданием в тему - это отдельный шаг.

Еë не может быть не всунуть. Может быть так что после открытия второй одна из них закроется. И далеко не всегда это вторая открытая.

Т.е. если где-то работает 10 кофеен, то значит есть спрос на 10, значит можно открыть в этом месте ещё 10 и посмотреть какие 10 из 20 останутся.

Именно поэтому, в общем случае, и можно принять 50% как некий порог.

Это пока...
Статистические методы, конечно никуда не уйдут, но результат нейросети может быть получен ощутимо быстрее. Насколько он точен, со временем будет понятно.
А тот момент, что график не красивый, не значит, что он не корректный - это же не самолёт ))) хотя именно тут, спорно, конечно же.

Здравствуйте. Подскажите, а есть ли возможность понять, сколько именно токенов израсходовал каждый из агентов?

а зачем избавляться от буллетов? В угоду конъюнктуре?

Техническая и около техническая литература почти всегда разбита на темы, параграфы, пункты, подпункты.
Так учат с детства структурировать информацию. Вспомните только биологию с ей царствами/подцарствами... родами/видами/подвидами

Как по мне, делать перечисления без буллетов - издевательство над читателем. К такому тексту не захочется возвращаться, а читать его будет только сложнее.

То, что модели перенимают лучшие практики людей - не так и плохо. В конце концов, они учатся на наших текстах. Зачастую, на лучших из них.

 кто будет отвечать за последствия? Разработчик модели? Команда, которая внедрила LLM? Организация в целом? Правильного ответа нет.

Правильный ответ есть.
Отвечать будет организация в целом,...
а уж кому или какой команде, внутри себя, она предложит 2 стула - зависит от организации ))

После выхода каждой новой значимой модели, появляются статьи о её логическо-математических способностях. Классно, что тут раскрыты некоторые детали подобных тестов.

И при том что статья написана весьма подробно и доступно, мне немного не хватает ответа на 2 вопроса:
1) Зачем эти возможности?
Т.е. в каком продукте, LLM придётся решать столь замысловато сформулированные задачи (пощник школьника продуктом считать не будем)?
2) Есть ли корреляция математики с чистой логикой?
Т.е. если модель плоха в логике или математике с цифрами, значит ли это что она плоха в чистой логике?
Почему вместе с цифровыми вопросами, нет тестов, с вопросами "С корабля сброшена верёвочная лестница, и две ступеньки погружены в воду. Расстояние между ступеньками пол метра. В прилив вода поднялась на метр. Сколько ступенек лестницы оказались в воде во время прилива?", "В комнате два отца и два сына. Сколько человек в комнате?" или "Как спрыгнуть с десятиметровой лестницы и не ушибиться?" или

"Попугай лгал по понедельникам, вторникам и средам и говорил правду во все остальные дни недели. Воробей лгал по четвергам, пятницам и субботам и говорил правду во все остальные дни.
Попугай: Вчера я врал.
Воробей: Я тоже вчера врал.
Какой день недели был вчера? "

или типа того

Такое сравнение и корреляцию было бы тоже очень интересно посмотреть.

В моей практике, чистая логика в прод. продуктах в разы чаще используется чем математика.

Получается кругом враги.

Даже на уровне продавец/покупатель в кафе

Обязательно, стоит раскрыть тему ТЗ, или заказа.
Архитектор города не творит свободно. Он выполняет заказ. И вся его задумка подчинена выполнению целей заказчика. В этом смысле, качество архитектуры можно оценивать только зная цели, которые она преследует.

Если заказчик хочет, масштабироваться в кратчайший срок, с соблюдением определённых пользовательских требований, да ещё и с возможностью децентрализованного функционирования отдельных узлов - это одна архитектура.
Если заказчик хочет максимум отдачи от одного узла, а пользователей хочет оставить на едине с пользовательскими проблемами - другая архитектура.

Ни одна из архитектур не плоха сама по себе, но каждая плоха для кого-то, в отдельности, и каждая, выполняет свою задачу.

Например, вряд ли владельцам башен даунтауна и заказчикам архитектуры этих башен и всего района, не нравится текущее его состояние и функционирование.

Серьёзно? А про то что за интернет надо заплатить или за впн, тоже стоило писать?

Вот это, на самом деле, уже проблема.
Какую-то историческую литературу, оперирующую научными фактами, уже сейчас можно искать только по фамилиям конкретных авторов, которых на каждом языке - единицы. Тираж их скромен, и в контекстной рекламе они не появляются.
Ещё, буквально 3-5 лет с такой скоростью генерации, и история станет наукой о которой все слышали, но никто не видел.
Найти детский рассказ или сказку в оригинале - уже задача не пяти минут. (всё то переписано, то обрезано то саммаризировано)

Эксперимент нельзя считать репрезентативным. По нему есть достаточно развёрнутые критические исследования.
Объяснить растущий уровень самоубийств в корее и японии в общем не так сложно как кажется. Не каждый может смириться с полным отчуждением от результатов своего труда.

Все эти сценарии, слишком слишком далеко.
Они подразумевают полную автономность и самовоспроизводимость ИИ и всей компонентной базы ИИ. А таких сценариев, даже в фантастиках, по пальцам одной руки посчитать.

В нашей реальности, любой робот который смог бы бесперебойно добывать ископаемые, на данный, момент, сильно дороже любого человека рабочей специальности, и даже дороже трёх человек, если сравнивать круглосуточную добычу.

Т.е. ИИ, не избавится от людей точно и не будет пытаться их переживать, просто потому что эксплуатировать людей дешевле, чем роботов.

Именно поэтому тут и вопрос, что если цель у него будет как сейчас у человечества (типа, внутривидовая конкуренция и только), то он и сам себе экстернамус устроит и всех вокруг не пожалеет. А если какая-то более развитая и созидательная, то может что-то хорошее и получится.
Нет никаких 6 вариантов. Есть только 2.

1

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Инженер по обеспечению качества, Аналитик по обеспечению качества
Средний
Git
Python
PostgreSQL
MongoDB