Pull to refresh

Comments 12

этот путь не дает 100% точности модели

процесс не гарантирует 100% точности

А что такое "точность" в данном случае? Одно дело определяем ли мы, является ли спамом письмо или есть ли у пациента злокачественная опухоль. Да и то могут быть какие-то пограничные состояние, которые непонятно как трактовать. А если мы, например, генерируем картинки на основании "переваренного" моделью массива картинок и словесного описания того, что мы хотим получить, то как тут понять, выдала ли модель "на гора" 100% точность, если она в принципе каждый раз может генерить довольно разные картинки, как и человеческий художник?

Так что я бы вообще поостерегся в данном контексте говорить о какой-то "точности". Критерии тут какие-то другие должны быть. Например, насколько выглядят естественными картинка или текст, сгенерированные моделью. Хотя тут тоже может быть много субъективизма. Но за некоей "100% точностью" тут точно гоняться не нужно. Она возможна только в двух случаях: когда модель настолько сложная, что она просто запоминает все возможные варианты входных данных (которые не противоречивы при этом) и потом просто выдаёт запомненный ответ. Но такое никому не нужно, это не ИИ а просто хранилище данных. И второй вариант - когда имеется чёткая зависимость в данных, там нет никаких выбросов, никаких вариаций, опять же никаких противоречий и их можно как-то "генерализовать". Но это опять же задача для каких-то простых моделей, не для ИИ.

Для разных задач ML применяются разные метрики, единой универсальной метрики пока не существует. Но можно сравнить результаты предсказаний и ожидаемые ответы для большого числа предсказаний. 100% точности работы модели будет соответствовать результат когда модель всегда дает правильный (или ожидаемый) ответ.

Есть ряд задач, где 100% точность нужна и практически достижима. Примеры - распознавание автомобильных номеров, проверка наличия объекта в заданной зоне и ряд схожих задач.

На практике гораздо важнее обеспечить увеличение точности в сравнении с конкурирующим решением. Условно, сравнивают долю правильных диагнозов, которые ставит врач и ИИ-модель. Увеличение доли правильных диагнозов на 10%, с 80% до 90%, означает снижение доли неверных диагнозов с 1/5 до 1/10, или в 2 раза, что в случае медицины - очень хороший результат.

При оптимизации можно выставлять неравные веса для разных результатов. Например модель можно заставить более серьёзно относится к постановке диагноза, чем к его отсутствию. В таком случае модель будет как правило ошибаться в постановке диагноза, но почти никогда не ошибаться в его отсутствии. Для этого например в pytorch есть pos weight для разных ф-ий потерь, самая простая из них bcewithlogitloss.

Для «интеллекта» нейронной сети, важнее не количество нейронов, а количество связей между ними. Связь между количеством нейронов N, параметрами сети P и связями L можно записать в виде выражения  L = P + N.

Логика этой формулы очень проста: количество входных связей равно числу весов, количество выходных связей — числу смещений. 

Что-то тут странноватое в формуле и в комментарии к ней. Вообще там же есть какое-то эмпирическое правило, сколько данных для какого размера сети требуется для нормального обучения.

Вообще, думаю, подход к обучению будет меняться. Человеку не скармливают миллионы вариантов написания букв и произношения слов чтобы он обучился. Некоторые слова с первого раза запоминаются благополучно. Ребёнок в 3-4 года уже отличит любую кошку от собаки, а сколько кошек он там в своей жизни видел и сколько их должна увидеть нейросеть, чтобы научиться.

Не хватает вывода о том, что текущая архитектура ИИ подошла к своему пределу, и надо придумать другую. Пока проблему недостатка данных не решил ChatGPT .

Из текущей архитектуры трансформеров выжали практически все что было можно. Иначе не возникла бы проблема недостатка данных для обучения новых версий. В то же время разработка и тестирование новых архитектур - невероятно сложный процесс поиска среди очень большого количества вариантов, исследований и разработок. При этом достижение пределов текущей технологии не исключает перехода в новое качество. Аналогичная ситуация в космонавтике - переход от химических двигателей к ионным, в вычислениях - попытки развития квантовых вычислений, огромное количество новых методов в биологии и медицине - CRISPR, ПЦР и секвенирование ДНК, криоэлектронная микроскопия, клик-химия, фемтосекундные лазеры, применение ML как AlphaFold и многое другое.

Вопрос из зала, почему ллм повсеместно обзывают ии? Как по мне - это в корне не верно на данном этапе развития.

ЛЛМ-ки так хорошо подставляют слова по контексту, что людям кажется, что они думают. А СЕО во всем мире потакают этой глупости. Это закончится плохо, но никто не знает точно когда.

Много лет назад термин artificial intelligence некорректно перевели на русский язык, так как для слова intellect был перевод на русский язык (интеллект), а для intelligence - соответствующее эквивалент в русском языке отсутствовал.

В английской вики - сравните

Intellect and intelligence
As a branch of intelligence, intellect concerns the logical and the rational functions of the human mind, and usually is limited to facts and knowledge. (https://en.wikipedia.org/wiki/Intellect)

и

Intelligence has been defined in many ways: the capacity for abstraction, logic, understanding, self-awareness, learning, emotional knowledge, reasoning, planning, creativity, critical thinking, and problem-solving. (https://en.wikipedia.org/wiki/Intelligence)

Для особо скептически настроенных можно еще посмотреть на название ЦРУ - Central Intelligence Agency.

Со временем перевод и для intellect, и для intelligence - объединился в один вариант интеллект, и это стало языковой нормой.

А LLM как вершину достижений в области artificial intelligence приравняли к искусственному интеллекту естественным образом (к ранее случилось с ксероксами, памперсами и джипами).

UFO landed and left these words here

Да, такое загрязнение обучающих датасетов галлюцинациями несет серьезные риски. Эти риски нужно учитывать уже сейчас.

Еще одно направление работы связано с очисткой датасетов от ошибочных, некачественных и / или злонамеренно искаженных данных.

Мне кажется возможностей для развития ИИ ещё поле не пахано. И оно точно не будет упираться только в объём данных для обучения. Тут очевидно прослеживается аналогия с человеческим мозгом - количество данных в нём на много порядков меньше чем в больших нейросетях, но мозг человека всё равно их превосходит в решении многих задач. Превосходит не в объёме памяти, не в скорости вычслений, и не в какой-то другой колличественной характеристике, а превосходит качественно. Это и будет следующим скачком в развитии ИИ - качественное улучшение результатов модели без увеличения колличества данных или мощностей.

Sign up to leave a comment.

Information

Website
cloud.ru
Registered
Founded
2019
Employees
1,001–5,000 employees
Location
Россия
Representative
Контент-редактор Cloud.ru