Ну, я сейчас использую черно-белую визуализацию: активный нейрон черный (чем активнее, тем темнее), пассивный — белый, нейроны в некотором (удобном мне по ряду соображений) порядке отображаются на прямоугольную область экрана. Ну и в аналогичные области отображаются все те их прошлые состояния, которые непосредственно влияют на текущий паттерн активности. Получается очень удобно и интуитивно, при запоминании последовательностей образов я вижу все актуальные «кадры» этой последовательности одновременно.
см. ответ ниже — как получается, что логические рассуждения вызывают «эмоции» силы, несопоставимой со всем, что может дать память, и как они же эти «эмоции» мгновенно гасят?
А вот тут возникает проблема: я могу задаться некоторым вопросом, и прочитать текст. В зависимости от того, каким вопросом я задался, при чтении текста я буду обращать внимание на очень разные вещи. Получается, что «эмоция» от этого вопроса настолько сильна, что «забивает» эмоции, возникающие при чтении текста. Но… Откуда она такая сильная взялась, и куда она исчезает, когда я получаю ответ на вопрос, и как другой человек одной фразой может у меня ее вызвать (задав вопрос)? Я не понимаю математики, которая может за этим стоять, если мы используем подход ассоциативных сетей.
>Не совсем так, на выходе — сигнал с рисунка 2, в виде системы отсчётов.
На выходе на рис. 2 — степень принадлежности буквам «б», «а», и «к». Так вот — сколько этих букв всего было? Какова полная размерность выхода понятно, это не принципиально. Важно именно число букв.
>Когда я говорю, что добился запредельной точности, я имею в виду, что выходной образ соответствует ожиданию с погрешностью не более 10^7%
Если у вас нигде нет ошибки — то это исчерпывающее решение задачи распознавания речи, причем очень простым способом. Соответственно, у меня есть вполне естественные сомнения на этот счет :)
Для того, чтобы их подтвердить или развеять, расскажите, какие именно слова вы использовали для обучения и тестирования?
Я имею в виду размерность выхода системы классификации: ей на вход дают звук, на выходе она говорит, какая именно это фонема (или звук, или набор фонем — не суть важно). Так вот, сколько «вариантов ответа» есть у системы?
>валидационная выборка — ещё по одному-по два примера на аллофон, плюс ещё пяток «левых» аллофонов, другого типа, для контроля переобучения.
Ну, это конечно очень мало. Даже ошибка в 20% может спокойно пройти незамеченной при таком числе контрольных образов.
>Ну дык это ж научная работа, а не попытка построить коммерческий распознаватель речи.
К научной работе нужно подходить очень строго, в первую очередь, в плане корректности и полноты экспериментов.
>А я добился запредельных показателей точности. Конечно, в реальных условиях результат может быть хуже, но есть предположение, что точность в «тепличных» условиях кореллирует с точностью в «боевых».
Точность отнюдь не запредельная. Собственно, к решению основной задачи вы еще не подошли, это только подготовительный этап. И да — точность кореллирует, но, боюсь, в реальных условиях она будет порядка 50%, если не меньше.
>Последовательное мышление даст довольно простая обратная связь
Расскажите, как!
Я уже давно работаю с нейросетями с обратными связями, и сейчас вроде кое-что серьезное начинает получаться, но как раз с последовательным мышлением пока проблемы даже на концептуальном уровне — я не вижу способов «сконцентрировать внимание» на каком-то ассоциативном ряде, в тех моделях, которыми я оперирую, этого нет, и не очень ясно, как делать.
3 — по моим наблюдениям, нейросети с этим справляются только если очень крепко подумать над препроцессингом данных.
2 — ну я так понял, что предлагается бежать окном по звуку, и там где срабатывает один из распознавателей — ставить метку, что найден такой-то набор фонем? Если да — то в этом случае будет огромное количество ложных срабатываний, и я не уверен, что на этом фоне выйдет отфильтровать правильный результат.
Да, хороший ход мыслей. Но работать не будет. Простое запоминание на каждом шаге не даст сознания, да и последовательного мышления вообще. Тут нужен некоторый другой механизм, хотя я пока и не знаю, какой именно.
Несколько замечаний:
1. Нейросетям лучше давать спектр
2. Главная проблема не понять, какой звук в данном окне, а понять, где заканчивается один и начинается второй
3. Примеры для обучения — зависимы от диктора. Просто так от этой зависимости не избавиться, тут думать надо
Этот принцип элементарен, и давно известен еще в психологии (см. «пандемониум» применительно к шизофрении). О нем писали все, кому не лень. А динамическая ассоциативная память собственно его и реализует.
У Жданова несколько странный подход, я правда не очень старался разобраться, но в итоге так и не увидел потенциала этого метода, мне он показался просто специфической комбинацией существующих подходов.
>нейронные сети хороши только на бумаге, на деле с помощью них можно только анализировать статистические данные упрощая их и строя среднюю
Ну это уже давно неверно (в 80х — да, соглашусь). Сейчас с помощью нейросети нам удалось превзойти качество управления PID-контроллера на порядок, и добиться поддержки таких состояний объекта, которые PID вообще удерживать не может. Я не знаю альтернативного метода для решения этой задачи (ну, кроме тех, которые реализуют тот же принцип и ту же математику, что и нейросети, но само это слово не используют).
Но это очень важно. Собственно, вся ценность ваших рассуждений зависит от продуманности регулятора и механизма запоминания, остальное — давно обсуждалось.
Оставим пока в стороне вопросы возникновения сознания (для этого как минимум нужно, чтобы топология системы подразумевала рефлексию).
Но вот более простой вопрос: как обобщать воспоминания? Допустим, возможен миллион состояний нейронов (это в самый раз для маленькой системы). Мы знаем, что в состоянии А1, А2, А3, А4 были положительные эмоции (ну или там положительный сдвиг, короче, хорошо было), при этом человек, посмотрев бы на А1… А4 тут же сказал бы «ну, так очевидно, они объединены воооот таким признаком». Как соответствующее правило возникнет в этой системе? Очевидно, что мы не можем себе позволить перепробовать весь миллион состояний, чтобы каждое оценить эмоционально (такой организм безусловно эволюционно проиграет организму, способному к обобщению, если даже будет жизнеспособен в принципе). Как это реализовать?
Однако автором высказано немало интересных мыслей. Хотя и сумбурно, и общая их ценность не особо велика — но не равна нулю. Мне вполне интересно это читать.
Этот процесс действительно легко описать (ну, не так банально конечно — само по себе «воспоминание» — это далеко не запись в базе данных, а скорее система связанных динамических аттракторов в сетях мозга, соответственно и влияние этой штуки несколько нетривиальное — но по сути используемое упрощение кажется верным). Только все сложнее в случае принятия осознанных решений. А вот когда мы делаем что-то «на автомате», то да, там работает подобная схема (все же не только она — но, возможно, ее роль решающая).
Не, ну это бывает конечно, но у меня есть золотое правило: если я сделал гениальное «открытие» — то сегодня я делаю вид, что ничего не случилось, а завтра — перепроверяю. Работало десятки раз. Ну и еще пару раз работало второе правило: «перепроверил сам — покажи другу, который будет смеяться не слишком громко» :)
Так тут как раз с экспериментом проблема — один метод работает хорошо, один плохо, ну и стандартный тест в виде пид-контроллера — средне. Там где хорошо — вопросов нет: получить отличный результат из-за ошибки практически невозможно. А вот там где плохо — надо понять, это результат ошибки, или нет…
Т.е. публиковать статью «зацените, как круто получается» я уже могу смело, а вот статью «смотрите, насколько это круче того, что было» — как-то боязно :)
На выходе на рис. 2 — степень принадлежности буквам «б», «а», и «к». Так вот — сколько этих букв всего было? Какова полная размерность выхода понятно, это не принципиально. Важно именно число букв.
>Когда я говорю, что добился запредельной точности, я имею в виду, что выходной образ соответствует ожиданию с погрешностью не более 10^7%
Если у вас нигде нет ошибки — то это исчерпывающее решение задачи распознавания речи, причем очень простым способом. Соответственно, у меня есть вполне естественные сомнения на этот счет :)
Для того, чтобы их подтвердить или развеять, расскажите, какие именно слова вы использовали для обучения и тестирования?
Я имею в виду размерность выхода системы классификации: ей на вход дают звук, на выходе она говорит, какая именно это фонема (или звук, или набор фонем — не суть важно). Так вот, сколько «вариантов ответа» есть у системы?
>валидационная выборка — ещё по одному-по два примера на аллофон, плюс ещё пяток «левых» аллофонов, другого типа, для контроля переобучения.
Ну, это конечно очень мало. Даже ошибка в 20% может спокойно пройти незамеченной при таком числе контрольных образов.
>Ну дык это ж научная работа, а не попытка построить коммерческий распознаватель речи.
К научной работе нужно подходить очень строго, в первую очередь, в плане корректности и полноты экспериментов.
>А я добился запредельных показателей точности. Конечно, в реальных условиях результат может быть хуже, но есть предположение, что точность в «тепличных» условиях кореллирует с точностью в «боевых».
Точность отнюдь не запредельная. Собственно, к решению основной задачи вы еще не подошли, это только подготовительный этап. И да — точность кореллирует, но, боюсь, в реальных условиях она будет порядка 50%, если не меньше.
При каком количестве классов, на которые может быть разделен тестируемый участок? И какой был размер обучающей выборки, какой размер валидационной?
Расскажите, как!
Я уже давно работаю с нейросетями с обратными связями, и сейчас вроде кое-что серьезное начинает получаться, но как раз с последовательным мышлением пока проблемы даже на концептуальном уровне — я не вижу способов «сконцентрировать внимание» на каком-то ассоциативном ряде, в тех моделях, которыми я оперирую, этого нет, и не очень ясно, как делать.
2 — ну я так понял, что предлагается бежать окном по звуку, и там где срабатывает один из распознавателей — ставить метку, что найден такой-то набор фонем? Если да — то в этом случае будет огромное количество ложных срабатываний, и я не уверен, что на этом фоне выйдет отфильтровать правильный результат.
1. Нейросетям лучше давать спектр
2. Главная проблема не понять, какой звук в данном окне, а понять, где заканчивается один и начинается второй
3. Примеры для обучения — зависимы от диктора. Просто так от этой зависимости не избавиться, тут думать надо
Ну это уже давно неверно (в 80х — да, соглашусь). Сейчас с помощью нейросети нам удалось превзойти качество управления PID-контроллера на порядок, и добиться поддержки таких состояний объекта, которые PID вообще удерживать не может. Я не знаю альтернативного метода для решения этой задачи (ну, кроме тех, которые реализуют тот же принцип и ту же математику, что и нейросети, но само это слово не используют).
Но вот более простой вопрос: как обобщать воспоминания? Допустим, возможен миллион состояний нейронов (это в самый раз для маленькой системы). Мы знаем, что в состоянии А1, А2, А3, А4 были положительные эмоции (ну или там положительный сдвиг, короче, хорошо было), при этом человек, посмотрев бы на А1… А4 тут же сказал бы «ну, так очевидно, они объединены воооот таким признаком». Как соответствующее правило возникнет в этой системе? Очевидно, что мы не можем себе позволить перепробовать весь миллион состояний, чтобы каждое оценить эмоционально (такой организм безусловно эволюционно проиграет организму, способному к обобщению, если даже будет жизнеспособен в принципе). Как это реализовать?
Т.е. публиковать статью «зацените, как круто получается» я уже могу смело, а вот статью «смотрите, насколько это круче того, что было» — как-то боязно :)