All streams
Search
Write a publication
Pull to refresh
124
0
Send message
Хм… запас хода может быть вполне приличным, несколько часов

Это да. Даже человек в среднем тратит 100 Вт на выделение тепла, а на само движение при ходьбе ~50 Вт, а при максимально быстром длительном беге ~250 Вт. То есть 3 кг аккумуляторов роботу-андроиду должно хватать на 6 часов работы, а роботу-собаке и еще дольше. При условии, что кпд редукторов будет высок (у моторов там и так 95% на номинале, а при кратковременно-переменной работе не ниже 80%).
По тем же причинам, почему сейчас нет ранцевых махолетов. Человеку с крыльями размером с дельтаплан для горизонтального полета по аэродинамике достаточно мощности 800-1000 Вт (увеличим до 1500 Вт, чтобы и высоту набирать). Такую мощность выдает электромотор массой 0.5 кг, а 3 кг LiPo аккумуляторов было бы достаточно на 20 минут полета. Ну и крыло такого размера весит от 1.5 кг (параплан). Представляете? Девайс размером с коробку из-под обуви и массой 5 кг, в теории может позволить любому летать.

Увы, на данный момент по сумме параметров не существует аналогов биологическим мышцам, чтобы приводить в движение такие крылья. Приводов, которые могли бы развивать такое же усилие при таком же быстродействии (а главное — поддерживали такой же диапазон), и весили так же мало. Электромоторы для движений как у животных требуют редукторы с огромным передаточным числом под 100:1, из-за чего их кпд становится чрезвычайно низок. И они очень громоздкие, сложно скомпоновать нормально.

Вот пример как работают и переключаются в динамике мышцы у собаки (получено из рентгена в движении). Повторить такое электромоторами сейчас практически невозможно. Из-за сложности компоновки и не соответствия параметров работы электромоторов работе мышц. Биологически мышцы — уникальная и пока не превзойденная человеком вещь в этом плане.

youtu.be/WRyu35wrvT0?t=1489

image
Чтобы на автомобилях по бокам выдвигали лапы для бездорожья )
Нет, там скорее всего обычные бесколлекторники (их даже видно на видео). Да и не существует технологий, чтобы там что-то принципиально улучшить. Максимум что можно сделать — вместо ниодимовых магнитов поставить самарий-кобальтовые, которые немного хуже неодимовых, но способны работать на температурах под 250 градусов. Это как бы позволяет использовать большие токи, т.е. получить большую мощность на меньшем размере мотора. Так как, вообще говоря, миниатюризация и рост мощности современных электромоторов ограничены именно температурой магнитов. Которые выше 80-100 град размагничиваются, если речь о ниодимовых. И чтобы изоляция проводов не поплавилась, но это не так критично. Ну и справедливости ради нужно отметить, что также частотой перемагничивания сердечника. Хотя есть бесколлекторники без сердечника, на которых это не распространяется.

Но это явно не тот случай. Да и нет смысла, так как речь идет о средней температуре во время работы. А пиковые значения, чтобы например резко дернуть ногой, у электромоторов могут превышать в 2-3 раза номинальную мощность. Грубо говоря, развиваемый момент (усилие) почти линейно зависит от тока, а ток приводит к нагреву, но важна средняя температура, а не пиковая.

Так что бесколлекторник как можно большего диаметра (это большой момент, но и больше масса) и редуктор, и максимально снижать массу ног, ничего лучше на данный момент нет. Существуют ультразвуковые (пьезоэлектрические) электромоторы, способные в теории развивать какой угодно момент при таком же кпд как у бесколлекторника. То есть обходиться без редуктора. Но существующие образцы пока сильно уступают даже стандартным бесколлекторникам.

Я думаю, там все дело в очень точных датчиках тока (для обратной связи) и претензионных энкодерах для определения положения ног. А софт такие роботы, насколько я знаю, используют древний. Хотя раз ролике пишут, что здесь применяют Convex MPC, то это прогресс. MPC (Model Predictive Control) редко на практике используют в роботах.
Брейншторм, коачинг, фасилитатор, коача. Я знаю карате, дзюдо, ушу и еще много других страшных слов ).
Пленоптика пока не очень доступна для экспериментов. Но не думаю, что это решение. Там ведь устранены проблемы только с одномоментностью снимков и одинаковой светочувствительностью. А проблемы с поиском соответствий пикселей на разных снимках (в данном случае — под разными линзами) остаются.

Это на стерео снимках и в кино все выглядит замечательно. По тем же причинам, по каким мы глазами видим красивую картинку, даже если один глаз видит хуже (и не видим слепое пятно, например). Но если мы пытаемся построить трехмерную карту, чтобы с расстояния в 30 метров определить 5 см яму на дороге, то вступают в силу описанные выше проблемы с погрешностями положения и цветов отдельных пикселей на матрице.

Я думаю, будущее все же за обработкой моно и стерео снимков нейросетями. Ведь сверточная сеть — это предельный случай тех крупных кернелов, что используются сейчас в обработке стерео.
Собственно, и стерео камер достаточно. Просто сейчас там есть нерешаемые проблемы как сопоставить группы пикселей на левом и правом снимке. Предполагается, что эти пиксели одинаковые, просто смещены влево или вправо. Но на практике это не так. У двух камер разное освещение, объекты могут быть частично загорожены другими и т.д… Да даже привести картинку с камеры к теоретической (чтобы исправить перспективное искажение) точно невозможно, так как линзы имеют неровности и калибровкой камеры это полностью не исправляется.

В итоге приходится в стерео камерах использовать либо характерные точки, инвариантные к освещению и масштабу (то есть отличающиеся группы пикселей), либо фотограмметрическую ошибку по всему снимку. Все это источники ошибок. Тут чуть ли не выгоднее сдвигать одну камеру влево-вправо, чтобы по плавному смещению точек определять левые и правые. Но снимки в видео происходят дискретно, а значит приходим к той же проблема поиска соответствий на левом и правом снимке. Да ещё и вся камера или объекты в мире могут сдвинуться за это время.

Чтобы получить надёжную карту глубины со стерео камер (просто по логике: если бы стерео камеры выдавали нормальную карту глубины, то зачем тогда лидары?), нужно к отдельным пикселям добавить контекст со всего снимка. Когда мы смотрим бинокулярным зрением на угол здания, то понимаем что это сдвиг не отдельных пикселей, а угла всего здания (это и есть контекст с остальной части снимка). Такой контекст могут дать нейронные сети. Этим и объясняется почему с ними стерео карта глубины получается лучше, чем обычными способами. Но в итоге оказалось, что этого контекста достаточно, чтобы определять глубину по одному моноснимку. Примерно как одноглазый водитель вполне успешно может водить машину. В этой области сейчас идёт быстрый прогресс. Через год-два точность должна дорасти до приемлемой. Правда, смущает что автопроизводители заключают контракты на лидары на ближайшие 5-10 лет. То ли не верят в прогресс стерео/моно карт глубины нейросетями, то ли знают ещё что-то…
Да ) Но до Амулета была ещё какая-то аналогичная игра для WAP на английском языке, только очень упрощённая (уже забыл название). Там можно было только ходить и атаковать, вроде. Амулет дракона была первой полноценной игрой с инвентори, навыками и все такое. Хотя и очень далеко до компьютерных текстовых RPG, которые уже были на компьютерах. Странно, что в то время никто не пытался их адаптировать под телефоны. Когда появился первый GPRS, тарифы на текстовый трафик стали уже приемлемыми (на WAP было очень дорого).
Первые браузерные игры для телефонов вообще были без графики. Чисто на WML (разновидность HTML для поддерживаемого тогда только WAP на телефонах). И, по-моему, они были атмосфернее и круче любых современных браузерок ).

Зря кто-то сомневается. Сейчас действительно нет возможности построить карту окружающей среды с детализацией, необходимой для робомобиля (т.е. сравнимой с получаемой человеком). Вот мы видим разделительную полосу, яму, пешехода или бордюр вдоль дороги и точно понимаем, что они там есть. Ни один алгоритм ни на одном аппаратном обеспечении на сегодняшний день не способен это выдать с такой же уверенностью. И именно это заставляет использовать лидары, чтобы хоть с какой-то уверенностью получать расстояния до редких точек.


У стереокамер есть огромные проблемы с точностью, связанные со сложностью нахождения соответствий пикселей на соседних снимках. Настолько большие и нерешаемые, что сейчас эту задачу пытаются переложить на нейросети. Как для поиска соответствий на стерео снимках, так и для построения карты глубины по моноснимку. Распознавание объектов вроде пешеходов и сегментация дороги чисто нейросетями то работает, то нет (на видео все видели наверно мигающие и исчезающие рамки вокруг переходов). Полагаться только на них сейчас точно нельзя.


У лидаров настолько низкое пространственное разрешение, что ехать чисто по лидарам даже человек не смог бы. Поэтому существует целая область исследований, как из таких редких точек получить более плотную картинку и распознать на ней объекты (обычно с помощью нейросетей, но есть и обычными способами). Серьезно, вы смогли бы безопасно водить только по такой картинке?


image

Поэтому на практике сейчас робомобили, наиболее близкие к коммерческой эксплуатации, практически целиком едут по высокоточному GPS! Без всякого ИИ! По заранее составленным детализированным картам дорог (поэтому катаются только в известных районах города). Высокоточный GPS — это значит с точностью определения положения ~2 см. Технически это где-то стоит второй стационарный GPS, который за несколько месяцев (а в общем-то достаточно минут двадцать) накопил очень точное свое положение. И он по радиоканалу или через интернет синхронизируется с обычным GPS на машине, устраняя тем самым погрешности, связанные с метеорологией. Что и дает итоговую точность определения координат машины на дороге порядка 2 см. Есть ряд вышек, транслирующих этот сигнал на целые районы. Для интересующихся гуглите RTK-GPS.


Лидары и радары (ну и для страховки, по камерам) используются только для обнаружения препятствий! А нейросетями распознаются светофоры и знаки. И совсем не любые на дороге, а в основном те, которые уже заранее занесены на детализированную карту, чтобы убедиться, что они стоят там, где и должны быть.


Есть конечно экспериментальные проекты робомобилей, которые могут ехать по любой дороге. Но из-за столь низкой, некачественной и неполной информации об окружающей среде, какую дают современные аппаратные средства, до полностью самоуправляемого автомобиля нужно еще 5-10 лет прогресса.


Поэтому основная проблема в создании робомобилей вовсе не в ответственности и прочих глупостях, а только в составлении полигональной карты с достаточной детализацией! Т.е. на уровне не хуже человека. А уж по ней можно будет прекрасно ездить по тем же алгоритмам, что применяются в видеоиграх. Потому что они и есть вершина алгоритмического прогресса по точности и скорости расчета для подобной навигации.


P.S. конечно, дорожные знаки и разметку придется продолжать распознавать нейросетями, но они и так уже сейчас делают конкретно это лучше человека. А вот составить достаточно точную и надежную карту препятствий вокруг пока ничем не получается. Как всегда, настоящие трудности видны только специалистам, погруженным в область, и очень сильно расходится с тем, что думает по этому поводу широкая общественность. Это везде так, к сожалению.

Логику karay можно понять, я просто тоже не хочу развивать холивар. Если что, опыт работы с машинным обучением и, в частности, с разработкой нестандартных реализаций нейронных сетей, у меня 24 года (но как и у многих, с большим перерывом посередине).


Текущие нейронные сети конечно же не могут объяснить свои решения в человеческом понимании. То есть последовательным рассуждением и опираясь на логику. Не принципиально не могут, а потому что архитектур под такое поведение нет. Мы бы хотели такие создать, но непонятно как это сделать.


Речь шла о другом — что ответ нейросети и понятное нам объяснение, как она получила этот ответ — могут быть двумя сторонами одной медали. Те процессы внутри сети, которые приводят к ответу, теоретически могут привести и к объяснению, как она получила этот ответ. Ведь объяснение — это по сути переформулировка ответа другими словами.


Выход сети "поверните направо" и "поверните направо, потому что иначе врежетесь в стену" имеют в своей основе одинаковые процессы, приведшие к такому ответу. Только в первом случае решение сети для нас черный ящик, а во втором вполне понятное объяснение, зачем это делать (то есть решение сети для нас стало интерпретируемым, а не черным ящиком).


Но это пока лишь гипотеза, частично, но не полностью подтвержденная поведением, полученным от нейросети GPT-2 (напомню, сети с рекордным числом параметров, на порядок больше чем у предыдущих). До этого уже были попытки заставить нейросеть давать объяснение ее решению. Ну и как первые переводчики, они выдавали перлы вроде "поверните направо, потому что Бостон". В этом смысле karay полностью прав, что это обычное статистическое поведение, не более. Без понимания смысла сказанного. Однако судя по все возрастающей реалистичности генерации текста, похоже что это проблема масштабирования. Когда-нибудь сложность нейросетей достигнет такого уровня, что эти ответы станут осмысленными. Точнее, для нас они начнут казаться осмысленными. Ведь для этого нужно лишь, чтобы ответ был супер-реалистичными. Это автоматически будет означать осмысленный и логичный ответ, так как нелогичные вещи не будут нам казаться реалистичными. Понятие "осмысленность" это такая зыбкая и гиблая тема, что лучше ее не касаться.

Честно говоря, всю навигацию робомобиля можно сделать на простейшем навмеше, используемом в компьютерных играх. И это будет работать в реалтайме, абсолютно безопасно и соблюдая ПДД. А где нельзя соблюсти, там из соображений максимальной безопасности — уходя от столкновений и прочее (но в большинстве случаев это будет просто торможение с соблюдением текущей полосы, как и положено по ПДД). Просто сейчас ни лидары, ни видеокамеры, в том числе стерео, не способны создать полигональную модель окружения с достаточной детализацией. Чтобы были видны ямы глубже 5 см, бордюры выше 5 см и т.д.
И эта сеть вам не скажет, почему она ответила вам именно так, если ее этому не научат.

GPT-2 как раз доказывает обратное. Следите за руками:


  1. Подаем на вход GPT-2 фразу: "Земля от Солнца находится по счету...". Нейросеть дописывает: "третьей".


  2. Добавляем в конец этой фразы словосочетание ", потому что..." и вновь подаем на вход GPT-2: "Земля от Солнца находится по счету третьей, потому что...". И нейросеть дописывает: "потому что первыми идут Меркурий и Венера".



Как видите, нейросеть объяснила почему она считает, что Земля идет третья по счету. Пример условный, просто для объяснения принципа.


Это не значит, что в GPT-2 сидит встроенный сильный ИИ, который объясняет свои действия. Просто такой ответ естественен для продолжения этих фраз. Внутри нейросети оба ответа имеют какие-то перекрестные связи, поэтому это настоящий ответ, а не генерация случайного текста. Где доказательства, что люди не таким же способом выдают свои ответы?

Ваш первоначальный посыл был: «Нейронные сети основаны на статистике, поэтому ей требуется столько много данных. Сеть не сможет выдать то, чего не видела.»

Одно другому не противоречит. Ведь даже линейная регрессия может выдать то, чего не видела. Просто это будет линейное преобразование входных данных, поэтому не интересно. Но в нейросетях, как вы скорее всего знаете, присутствует нелинейный элемент, поэтому она потенциально может выдавать все что угодно.

Может вы имеете ввиду, что сеть, обученная генерировать лица, никогда не напишет поверх них: «Я застрял в компьютере, помогите!!!». Потому что статистические методы ее обучения такого в принципе не могут позволить. Но это же естественно! Человек тогда тоже основан на статистике и не может придумать ничего нового. Так как не может выйти за пределы физических ограничений.

Однако если сеть, генерирующую лица, обучать не только на фотографиях, но и на массивах текстов (хотя бы для понимания, кто именно и в каких обстоятельствах сделал эту фотографию/портрет). И целевой функцией сделать не минимизацию MSE, а правдоподобие что эта картина написана живым художником. Что достижимо через те же GAN. И добавить рекуррентности или тысячи слоев, ее заменяющие, для обратной связи с пользователем. То такая надпись вполне может появиться! Это можно будет назвать моментом появления сильного ИИ, зарождением самосознания или как угодно. Но технически это будет просто правдоподобная имитация
художника, застрявшего в компьютере и способного общаться с внешним миром только через свои картины. Согласитесь, это явно выходит за рамки простых статистических методов, а является полноценным ИИ.

Или пример намного проще: у какой-нибудь GPT-9999 можно будет на вход подать фразу «Я, Альберт Эйнштейн, разработал новую версию ОТО. Основная ее суть заключается в том, что...». И нейросеть допишет, в чем она заключается =). Создание это нового или нет, сами решайте. Но технически это возможно, потому что такое поведение (хоть и в очень упрощенной форме) GPT-2 уже продемонстрировала.

А интерпритируемость сети — это вообще о другом.

Важна не интерпретируемость самой сети, а интерпретируемость принятых ею решений. Это разные вещи. И если сеть сама расскажет, почему она приняла то или иное решение, то этого вполне достаточно. Так же, как достаточно когда человек объясняет свои решения. Адекватность и полнота подобного объяснения проверяется обычным способом — здравым смыслом.

А это не повторяет почти полностью алгоритм HTM от Numenta? Да и с выкладками AlexeyR про разреженные бинарные маски и их слияния/рекомбинации тоже перекликается, имхо.

Нейронные сети не основаны на статистике. Они (по крайней мере, SGD обучение) основаны на поиске в идеале глобального, но на практике чаще разные виды локальных экстремумов в многомерном пространстве параметров. Нахождение в глобальной(локальной) точке экстремума может означать что угодно, в том числе разумность или выдавание того, что сеть раньше не видела. Это не статистика, это нечто совсем другое.


Современным нейросетям надо так много данных из-за несовершенства математики обучения — оно делается очень маленькими шагами вдоль градиента к точке экстремума. Поэтому нужно много повторений показа примеров. Если бы существовал способ сразу прыгнуть в эту точку, то обучение было бы на единственном примере. И такие методы существуют, например см. метод Ньютона второго порядка, да и сами оптимизации стандартного SGD алгоритма вроде adam, на самом деле просто адаптивно увеличивают длину шагов вдоль градиента, с разными ухищрениями чтобы не перепрыгнуть узловую точку. Подробнее можно почитать например тут. Но все это работает… Ну, как есть. Здесь может быть причина в фундаментальной сложности подобного рода оптимизаций.


Но нейросети действительно часто используются для отображения одного статистического распределения в другое. Это нормально и одна из возможностей. Однако статистические возможности вовсе не являются ограничительными для нейросетей.

Нам не нужен точный ответ как нейросеть пришла к своему выводу. Он и так есть — мы можем проследить прохождение каждого бита сквозь сеть. Нам нужен ответ в понятной/удобной нам форме. А что может быть лучше, чем ответ в простой разговорной форме?

Сейчас нейросети, управляющие автомобилем, говорят: «Поверните руль на 20 градусов влево». И все. Зачем, почему? Непонятно… Черный ящик! А если они будут говорить: «Поверните руль на 20 градусов влево, потому что иначе столкнетесь с автомобилем, приближающимся справа, а так вы займете свободную полосу слева от вас и все будет хорошо».

То это и будет достаточная интерпретируемость нейросетей. Хотя технически они, конечно, остаются черным ящиком (если вы это имеете ввиду). Эта разработка от OpenAI показала, что такое поведение от нейросети, выдающей только фразу «Поверните руль на 20 градусов влево» можно получить, приписав в конце этой фразы «потому что...». И сеть допишет объяснение сама, так как объяснение в этом случае будет наиболее естественным продолжением такого построения фразы.

Какая мотивация у нейросети давать полный и развернутый ответ? Такая же, по какой они получили близкие к рекордным ответы на задачи из разных доменов. Потому что в большинстве случаев на миллионных выборках после «потому что» дается здравый нормальный ответ, а не шутки или попытки обмана.

В каком-то смысле и та что есть, выдает осмысленный ответ. Смотря что считать осмысленностью. Если вы можете предоставить объективный численный критерий, по которому можно отличить осмысленный критерий от неосмысленного, то тогда можно будет сказать определеннее.


p.s. это был вопрос с подвохом, если что =)

Сейчас нейросети выдают результат в фиксированном числовом виде. Координаты x,y рамки вокруг объекта. Или говорят, что чтобы сделать шаг, выгоднее поднять правую ногу на 76%, чем левую на 24%. Почему они сделали такой вывод — неизвестно. Никакого способа это выяснить, кроме как копаться внутри внутренностей нейросети, отслеживая какой сигнал куда шел, не существует.


Но теперь представьте, что вместо этого нейросети будут выдавать результат в разговорном виде. То есть, обычным текстом. И будут способны поддерживать диалог, отвечая на уточняющие вопросы.


Тогда у такой нейросети всегда можно будет спросить: "А почему ты пришла к такому выводу?". Эта работа OpenAI с ее сеткой GPT-2 показывает, что простая генерация следующего слова в предложении, автоматически заставляет нейросеть давать правдивый ответ. Потому что он является логичным и естественным продолжением для такого ответа.


Настоящий сильный ИИ тут смог бы хитрить, специально давая запутанные и неверные ответы. Но если мы говорим о слабых формах ИИ (как все текущие нейронные сети), то такой подход вполне может стать ответом на проблему интерпретируемости. Представьте это как абсолютно наивного или доброго человека, не умеющего врать. На заданные вопросы он отвечает как есть, потому что у него просто нет мотивации юлить.

Плохо, что они тогда тоже будут использовать человеческие слабости. Ведь цель таких нейросетей, пишущих новости, будет увеличить прибыль издателям (владельцам нейросетей). А значит получим ту же желтуху и кликбейт, что и от обычных журналистов.

Какой выход из этой ситуации, я не знаю. Предполагается, что должны быть другие источники выгоды. Когда новостному агентству становится выгодно освещать новости правдиво, чтобы заслужить этим уважение читателей, чтобы они обращались именно к этому агентству за новостями. Но наблюдаем ли мы это в реальности? Не особо…

Information

Rating
Does not participate
Registered
Activity