Так у Теслы нет полноценного автопилота, это просто помощник водителя. И Тесла, насколько я понимаю, до сих пор не аккредитована для полностью автономного движения. А вот у Waymo есть уже несколько сотен роботакси, которые ежедневно возят пассажиров, так что это уже самый настоящий автопилот, пусть и с некоторыми косяками.
Я никому не пытаюсь навязывать своего мнения, я лишь прошу не лезть в мою жизнь и не указывать мне, как "правильно" жить. Для вас это "то же самое"? Серьёзно?
У меня всегда подобные статьи вызывают как минимум недоумение. Ну нравятся вам старые фильмы на старой киноплёнке - так смотрите их, никто вас не заставляет смотреть апскейлинговые версии. Но почему вы пытаетесь всем остальным людям навязать свою точку зрения и рассказать, как "правильно"? Почему вы пытаетесь за других людей решить, что им делать?
А Китай-то здесь при чём, если это опять классическая статья в стиле "учёный изнасиловал журналиста"? Современные гении журналистики (ну и маркетинга, конечно) называют искусственным интеллектом даже набор скриптов для "умного дома".
Так весь прикол ламповых часов в том, что они ламповые. Сама эта технология и вызывает те чувства и эмоции, ради которых их покупают. А "ламповые" часы на IPS-дисплеях... Это хуже, чем безалкогольное пиво и резиновая женщина, вместе взятые.
Эта оговорка в правилах никак не влияет на установление виновного в ДТП. Ровно в тех же правилах есть оговорка для пешеходов, что по пешеход имеет право переходить дорогу только убедившись, что водитель транспортного средства уступает ему дорогу. Только вот по факту виновным в ДТП на "зебре" всегда будет признан водитель машины, даже если этот пешеход ночью в тёмных очках и чёрной курке, будучи сильно пьяным, выскочил из кустов и бросился под машину.
Лучше всего никуда не смотреть - высунуться как можно дальше из двери, зацепившись за поручни, закрыть глаза и наслаждаться ветром. Тогда есть все шансы прославиться )
нужно чтобы это был не первый случай стрельбы в сторону оператора
Естественно. И за время симуляции подобные решения модель принимала тысячи и десятки тысяч раз либо случайно, либо пользуясь предварительно настроенными методами оценки состояния.
иметь по целевой функции положительную оценку
Не обязательно положительную - это может быть максимальная оценка из отрицательных. Во время обучения модели выполняется совершенно обычная задача оптимизации по поиску максимума.
Например, если за каждый такт в симуляции штрафовать модель, скажем, на 1 очко, чтобы замотивировать её как можно быстрее искать выход, а не просто бесцельно принимать случайные решения, то при невозможности достижения цели модель постарается максимально быстро самоубиться, чтобы не загонять счётчик в минус.
Как раз такой вариант мне и видится в данном конкретном случае из статьи, когда достижение цели становилось невозможным и модель старалась максимально быстро завершить процесс, чтобы не увеличивать отрицательный счёт. А путём огромного количества повторений случайных действий выяснилось, что для этой цели лучше всего подходит вариант "уконтрапупить оператора"...
Вообще что ли данные не обрабатывали?
Эммм... А какие данные и как вы хотите обрабатывать? Сложные модели за время симуляции могут принимать миллиарды решений. Собственно, случай из статьи и описывает эту самую "обработку" данных, когда окончательно обученную модель прогоняют и смотрят, что она делает.
Судя по вашему комментарию, вы всё-таки не знакомы с RL. Очень рекомендую хотя бы бегло ознакомиться с основами, тогда большинство ваших вопросов отпадут сами собой.
В университете Беркли был в своё время замечательный онлайн-курс по AI, где они на примере Pacman'а изучали разные аспекты этого самого AI - от алгоритмов поиска до обучения с подкреплением. CS188.
Откуда ИИ узнал, где находится оператор, который запрещает ему атаковать ЗРК?
Это зависит от той симуляции, которую использовали при обучении. Самый банальный вариант - координаты запуска дрона, если дрон стартовал и управляется с земли, или координаты самолёта, если предполагается использование дрона в качестве помощника для ударного самолёта.
Почему он решил, что если уничтожить оператора, атаку не запретят?
Вы с моделями обучения с подкреплением когда-нибудь работали? "ИИ" ничего не "решает", он либо совершая полностью случайные, либо выбирая следующее действие по какому-то правилу, составляет таблицу, в которой каждое действие имеет свою оценку в зависимости от того, насколько это действие ведёт к получению награды. А потом из всех возможных альтернатив просто выбирает одно конкретное действие, которое ведёт к максимальной награде.
Возможно, в той симуляции, которую использовала научная группа, после "выстрела" симуляция заканчивалась, а дрону выставлялась оценка, поэтому никакого "после" для дрона просто не было.
Судя по вашему комментарию, вы совершенно не разбираетесь в обучении с подкреплением, потому что как раз таки полковник очень точно описал, как будет действовать алгоритм RL, для которого придуманы не корректные правила оценки действий.
И описана явно анекдотичная ситуация с ранних этапов работы с целью обратить внимание на важность наложения правильных ограничений на ИИ.
Идентификация объекта занимает тысячные доли секунды, что настолько ничтожно по сравнению с тем временем, которое требуется для замедления движущегося автомобиля, что им вообще можно пренебречь. Если сами никогда не работали с распознаванием образов, то хотя бы загуглите, сколько сотен изображений в секунду могут обрабатывать современные нейронки.
Для сравнения - реакция даже тренированного человека будет 0.2 - 0.3 секунды.
"Такси"... )
Так у Теслы нет полноценного автопилота, это просто помощник водителя. И Тесла, насколько я понимаю, до сих пор не аккредитована для полностью автономного движения. А вот у Waymo есть уже несколько сотен роботакси, которые ежедневно возят пассажиров, так что это уже самый настоящий автопилот, пусть и с некоторыми косяками.
Обгоняет, пристраивается прямо перед носом и включает "дискотеку". Этот скрипт по-любому есть в базе нейросетки.
Спасибо за такую подробную инструкцию! Обязательно попробую при случае.
Интересно, а у нас так же можно? Задолбали названивать с предложениями кредитных карточек и стоматологических обследований...
Спасибо за инфу. По первым впечатлениям эта моделька работает получше ChatGPT - по крайней мере в тех областях, в которых успел потестить.
В каком, простите, месте?
Я никому не пытаюсь навязывать своего мнения, я лишь прошу не лезть в мою жизнь и не указывать мне, как "правильно" жить. Для вас это "то же самое"? Серьёзно?
У меня всегда подобные статьи вызывают как минимум недоумение. Ну нравятся вам старые фильмы на старой киноплёнке - так смотрите их, никто вас не заставляет смотреть апскейлинговые версии. Но почему вы пытаетесь всем остальным людям навязать свою точку зрения и рассказать, как "правильно"? Почему вы пытаетесь за других людей решить, что им делать?
Это правда настолько важно, чтобы ради этого писать статью?
А Китай-то здесь при чём, если это опять классическая статья в стиле "учёный изнасиловал журналиста"? Современные гении журналистики (ну и маркетинга, конечно) называют искусственным интеллектом даже набор скриптов для "умного дома".
Так весь прикол ламповых часов в том, что они ламповые. Сама эта технология и вызывает те чувства и эмоции, ради которых их покупают. А "ламповые" часы на IPS-дисплеях... Это хуже, чем безалкогольное пиво и резиновая женщина, вместе взятые.
Эта оговорка в правилах никак не влияет на установление виновного в ДТП. Ровно в тех же правилах есть оговорка для пешеходов, что по пешеход имеет право переходить дорогу только убедившись, что водитель транспортного средства уступает ему дорогу. Только вот по факту виновным в ДТП на "зебре" всегда будет признан водитель машины, даже если этот пешеход ночью в тёмных очках и чёрной курке, будучи сильно пьяным, выскочил из кустов и бросился под машину.
Лучше всего никуда не смотреть - высунуться как можно дальше из двери, зацепившись за поручни, закрыть глаза и наслаждаться ветром. Тогда есть все шансы прославиться )
А может кто-нибудь, кто в теме, пояснить, почему так много минусов новости накидали? Это фейк?
Просто если это реальная новость, то это действительно большой успех как минимум для этих ребят из Бюро1440.
Естественно. И за время симуляции подобные решения модель принимала тысячи и десятки тысяч раз либо случайно, либо пользуясь предварительно настроенными методами оценки состояния.
Не обязательно положительную - это может быть максимальная оценка из отрицательных. Во время обучения модели выполняется совершенно обычная задача оптимизации по поиску максимума.
Например, если за каждый такт в симуляции штрафовать модель, скажем, на 1 очко, чтобы замотивировать её как можно быстрее искать выход, а не просто бесцельно принимать случайные решения, то при невозможности достижения цели модель постарается максимально быстро самоубиться, чтобы не загонять счётчик в минус.
Как раз такой вариант мне и видится в данном конкретном случае из статьи, когда достижение цели становилось невозможным и модель старалась максимально быстро завершить процесс, чтобы не увеличивать отрицательный счёт. А путём огромного количества повторений случайных действий выяснилось, что для этой цели лучше всего подходит вариант "уконтрапупить оператора"...
Эммм... А какие данные и как вы хотите обрабатывать? Сложные модели за время симуляции могут принимать миллиарды решений. Собственно, случай из статьи и описывает эту самую "обработку" данных, когда окончательно обученную модель прогоняют и смотрят, что она делает.
Судя по вашему комментарию, вы всё-таки не знакомы с RL. Очень рекомендую хотя бы бегло ознакомиться с основами, тогда большинство ваших вопросов отпадут сами собой.
В университете Беркли был в своё время замечательный онлайн-курс по AI, где они на примере Pacman'а изучали разные аспекты этого самого AI - от алгоритмов поиска до обучения с подкреплением. CS188.
https://youtu.be/TiXS7vROBEg - вот эта лекция непосредственно про основы RL.
Это зависит от той симуляции, которую использовали при обучении. Самый банальный вариант - координаты запуска дрона, если дрон стартовал и управляется с земли, или координаты самолёта, если предполагается использование дрона в качестве помощника для ударного самолёта.
Вы с моделями обучения с подкреплением когда-нибудь работали? "ИИ" ничего не "решает", он либо совершая полностью случайные, либо выбирая следующее действие по какому-то правилу, составляет таблицу, в которой каждое действие имеет свою оценку в зависимости от того, насколько это действие ведёт к получению награды. А потом из всех возможных альтернатив просто выбирает одно конкретное действие, которое ведёт к максимальной награде.
Возможно, в той симуляции, которую использовала научная группа, после "выстрела" симуляция заканчивалась, а дрону выставлялась оценка, поэтому никакого "после" для дрона просто не было.
Судя по вашему комментарию, вы совершенно не разбираетесь в обучении с подкреплением, потому что как раз таки полковник очень точно описал, как будет действовать алгоритм RL, для которого придуманы не корректные правила оценки действий.
И описана явно анекдотичная ситуация с ранних этапов работы с целью обратить внимание на важность наложения правильных ограничений на ИИ.
Да, так и есть. Я к тому это написал, что аналогия с тем, как водит машину человек и как этот человек оценивает обстановку, здесь вообще не уместна.
Идентификация объекта занимает тысячные доли секунды, что настолько ничтожно по сравнению с тем временем, которое требуется для замедления движущегося автомобиля, что им вообще можно пренебречь. Если сами никогда не работали с распознаванием образов, то хотя бы загуглите, сколько сотен изображений в секунду могут обрабатывать современные нейронки.
Для сравнения - реакция даже тренированного человека будет 0.2 - 0.3 секунды.
Попробуйте )
А я на Вас посмотрю )