Обновить
56
0

Пользователь

Отправить сообщение
Потому что очень близкие, практически идентичные вот этому ролику: www.youtube.com/watch?v=_jvW4QlvpbM результаты мы получили мимоходом (за 3-4 недели работы 1 человека), в качестве побочного результата, работая над одной системой для одной крупной компании. Ну и потом я еще много занимался как раз вопросом определения конечности по ряду признаков, кой-чего достиг. Правда, у меня на это было всего 2 месяца, так что не слишком многого, но если уж контур руки выделялся четко (а в случае 3д-камеры это так) — то отклик системы был 30мс.
Лучший на сегодняшний день — не значит хороший :) 100мс задержки — это никак не «быстро».
Скажите, а при работе с кинектом есть возможность получить исходное изображение с камеры глубины, не обработанное никакими ихними алгоритмами?
Для внятного анализа последовательности кадров нужно серьезно подумать, и разработать кое-что новое. У них с этим явно проблемы…
Да тут информации более чем достаточно. В том числе чтобы понять, что ценности в таком варианте у этого подхода — не слишком много. Без структурного распознавания практически невозможно добиться внятных результатов взаимодействия двух человек в кадре, да и с одним в некоторых ситуациях не избежать глюков…
Я очень внимательно следил за развитием этого проекта. Скачок произошел в тот момент, когда они отказались от распознавания изображения, и купили 3д-камеру (которая выдает глубину каждого пикселя, за счет ИК-сканирования — отличная технология, но заслуги разработчиков майкрософта тут ровно ноль).
Дальше они уткнулись в стандартную проблему понять где руки/ноги/голова у выделенного 3д-камерой силуэта, и решили ее весьма слабенько. Улучшение будет, если они еще какую-нибудь чужую технологию купят — т.к. их собственные разработки не впечатляют абсолютно.
>По наблюдениям на небольшой выборке, мой вариант обладает отличной различаемостью

Не факт, что это имеет существенное значение. Разделить 3 буквы — это совсем не то же самое, что 30.

>Во-первых, не везде ИНСетью будет выдана одинаковая вероятность

Выходы сети далеко не всегда можно рассматривать как вероятность, в реальных задачах куда чаще бывают ситуации, когда это неверно.

>Во-вторых, это задача контекстного анализа

Да, это поможет. Вопрос только, насколько именно это поможет.

>Длина звуков (даже в рамках одного аллофона) иногда различалась четырёхкратно

Ну тогда, если все, что вы предлагаете, будет работать при числе классов, соответствующем реальной речи, то собственно распознавание речи можно считать решенным. Вопрос, будет ли.
>Ведь у вас же в голове есть образ задачи, своего рода алгоритм

Так я вот все пытаюсь понять, как он у меня сформируется в рамках описанного механизма при чтении задания. И не понимаю.
Ок, перефразирую — за счет чего именно то состояние, когда я могу прочесть буквы с 3й по 8ю, будет эмоционально окрашено как «узнавание»? Почему такой флаг не получит состояние, когда я могу прочитать первые 3 буквы, или весь набор целиком?
Самое интересное вы как раз пропустили — как тот факт, что я прочел задание, приведет активность моих нейронных сетей к такому состоянию, что первые 3 буквы я пропущу, а следующие 5 буду читать?
Есть смутные опасения, что это не принципиальная ошибка…
Ну, если получится что-то толковое на эту тему — пишите обязательно :) Это действительно будет прорывом. Я крутил свою модель и так и эдак — но пока ничего существенного в этом плане сделать не вышло. Есть только очень общие идеи, в каком направлении копать.
Классический персептрон — слишком примитивная модель. Рекуррентный персептрон — тоже не отражает многих важных свойств, хотя возможно для описания работы эффекторной системы сойдет. А вот динамическая ассоциативная память — уже куда ближе, как минимум все механизмы памяти можно организовать на ней.
Мне такой вариант кажется маловероятным, но в любом случае — это на данный момент один из основных нерешенных вопросов, без ответа на него рассуждения могут иметь лишь небольшую ценность.
>у вопроса с ответом образуется ассоциативная связь

А в какой момент паттерн активности вдруг начинает считаться «ответом»?
Это интуитивно очевидные вещи, которые я не представляю себе как формализовать, а без такой формализации все рассуждения об ИИ мало чего стоят…
Нет, почему вопрос, на который получен ответ, становится неинтересным? Каким образом происходит «понимание» того, что ответ получен?
Ну в этой статье именно такой «подогрев» и делается (хотя и не очень явно — статью, которая детально описывает этот процесс, я как раз пишу) — зная, какой образ был предыдущим, правильно узнать следующий намного проще, даже при большом шуме.
Я ничего не имею против эмоций. Хотя я им отвожу несколько другую роль — но это не принципиально, описанная модель тоже имеет право на жизнь. Вопрос именно в построении процедуры мышления — этот вопрос сейчас ключевой, а различные виды ассоциативной памяти уже есть.
Свежие результаты я сейчас как раз оформляю в статью, пока не готов их показать, а вот доклад на конференции год назад — есть на нашем сайте (хотя пока и не дошли руки там сделать нормальный список публикаций, так что только по прямой ссылке доступен): ailen.org/wp-content/uploads/2010/10/Dynamic_associative_memory.pdf
Там ближе к концу, в экспериментальной части, есть две запомненные последовательности (для наглядности, представлены движущимися кругами — хотя в принципе это могут быть произвольные образы, там же есть и картинки для случая букв) — и если сети дать «для затравки» несколько входных образов, которые содержат элементы и одной, и другой последовательностей в равном количестве — то она сгенерирует некоторый гибрид из них, если же дать образы только из одной, или преимущественно из одной, то сеть восстановит именно ее.
В целом как раз весьма похоже на реализацию того, что автор обсуждаемой тут статьи написал, только без эмоций — чисто на воспоминаниях. И если выйдет ввести некий контролирующий механизм, который будет отделять «нужные» воспоминания от «ненужных» — то в совокупности получится модель, очень близкая к механизму мышления. Но я над этим уже пару лет думаю, и пока не придумал.
Как она называется — не имеет значения :) Как она действует — я уже описал.
Меня интересует, откуда она берется в этой модели? Каким образом к ней «привязываются» вопросы, и «отвязываются» от нее? (отвязываются точно — ведь вопрос, на который ответ уже получен, нас интересовать в роли вопроса больше неспособен, верно? Но как возникает «понимание» того, что на вопрос уже получен ответ? За счет чего запускается механизм «отвязки» вопроса от эмоции?).
>одна инс — одна буковка

А что делать в ситуации, когда ИНС «а» говорит «узнала!», и ИНС «о» на том же окне говорит «узнала!»?

>насчёт слов — а какая разница, поясните пожалуйста.

Если у вас все время было одно и то же слово, или слова одной длины — то сеть в качестве ключевого признака могла использовать вовсе не спектрограмму, а расстояние от тишины в начале/конце слова до каждой точки.

Информация

В рейтинге
Не участвует
Откуда
Киев, Киевская обл., Украина
Дата рождения
Зарегистрирован
Активность