В каком приближении вы описали нынешний подход к распознаванию. Но идея, которая описывается в статье предполагает как раз, что система видит всю картину. Сначала выделяет в ней какие-то особые группы пикселов, затем на следующем уровне иерархии эти группы пикселов объдединяются и формируют части, дале части образуют целое и т.д. в плоть до самого высокого уровня иерархии.
Да, вы правы проблема количества обучающих примеров довольно остра. Но все не стоит на месте. Есть такая база, называется Caltech 101, очень активно используемая разными научными командами для теста алгоритмов классификации. Так вот в этой базе на многие классы приходится всего 50 картинок, причем полностью отсутствует какая-либо нормализация. До недавнего времени лидерство пренадлежало Фильтрам Габора+SVM, но не так давно удалось на нейросетях добиться близких результатов (разница около 2%). Я думаю раскрою эту тему в будующем.
А по поводу танка — создание хорошей обучающей выборки тоже не простая задача.
Ну специально сводить тоже смысла нет. Это произойдет в неявном виде в ходе матричных операций. Я вообще имел ввиду, что на начальном этапе обучения многие сети таки функционируют в линейной области.
В любом случае мне нравится ваш ход мыслей, плюсанул. =)
Может конечно я не так понял. Но когда говорится алгебраический, у меня возникает ассоциация с методами линейной алгебры.
Это я к тому, что сигма-функция дифференцируема, но нелинейна. Точнее линейна на определенном своем участке. И вот если вся сеть функционирует только в этих участках, ее можно просто описать в матричном виде и соответственно вычислить значения весов методами линейной алгебры.
Я думаю смысл этого метода в том, что на начальном этапе правильно проинициализированная сеть вся фукнкционирует в линейной области сигмоида, поэтому ее в принципе можно лианеризовать и на первом шаге использовать алгебраические методы настройки параметров. Более того, для каких-то задач этого будет достаточно. Но фишка в том, что НС как раз используются там, где нужны сложные нелинейные преобразования, поэтому в дальнейшем все равно необходимо будет использовать градиентные или эвристические методы.
Я конечно извиняюсь, но вы абсолютно не правы. Причем тут обратная связь, когда главная задача — это умение выделять инвариантные признаки для заданного класса изображений, включая инвариантность к наклону, смещению, масштабу и повороту.
И сделать это можно двумя способами — либо на входе поставить жеско заданный (hard-wired) алгоритм выделения инвариантных признаков (например SIFT), а на выходе обучаемую систему (НС как частный случай), либо, что идеалогически красивее, обучать как выделению признаков, так и их классификации.
Другое дело, что ни одним из перечисленных в этой статье типов НС это эффективно сделать не удастся.
И, кстати, в довольно близкой задаче распознавания рукописных символов до сих пор НС держат лидерство.
Отлично. Занес в избранное.
Всегда верил, что вселенная дискретна, ибо наличие таких констант как скорость света наводит на мысль о невозможности бесконечности, выраженной в непрерывности.
К сожалению, не нашел этой статьи в свободном доступе. Однако, похоже, что эта цифра родилась путем умножения количества обучающих примеров, необходимых для обучения ASR одному слову, на количество слов в словарном запасе человека. Хотя обучаемая система, спроектированная в соответствии с идеалогией deep learning, будет выделять во входных данных признаки, наиболее общие для большого количества возможных входов, что приведет к тому, что распознаванию каждого следующего слова система будет обучаться быстрее, чем предыдущего.
«если бы детям для обучения речи требовалось бы столько же учебных данных, сколько компьютерным распознавателям, обучение детей языку заняло бы более 100 лет круглосуточных занятий» — весьма устаревшее, ИМХО, высказывание. Нынешние системы машинного обучения двигаются в сторону уменьшения количества элементов обучающих выборок с десятков тысяч до десятков и делают в этом успехи.
Да уж. При защите диссера список литературы из более 200 источников приходилось искусственно разбавлять русскоязычными, чтобы не обижать пожилых членов совета.
Давно хочу перейти на ТеХ. Но, блин, он все таки довольно нетривиален в освоении, и это потребует немало времени. Времени, которое нужно будет отобрать у своей основной деятельности. А его и так не хватает.
И что я получу на выходе. Будет потрачено много времени и усилий, буду писать статьи и отчеты красиво и по правильному, а в итоге шеф скажет, вышли мне в ворде, чтобы я мог отредактировать. Или конференция какая-нибудь доморощенная отечественная скажет мы не знаем, что это такое.
И все бы ничего, если бы только был нормальный конвертер. Но сколько ни читал на эту тему, везде пишут, что все равно придется дорабатывать напильником. А это опять же драгоценное время.
Не осилил все комментарии, но отмечусь, что сам в преподавательской практике использую такой подход. Вообще никакого труда не составляет понять, знает ли студент то, что написал.
Про серое и белое вещество — ерунда. Одно является просто каркасом для другого.
С некоторым упрощением правильнее будет сказать, что одно полушарие работает в параллельном режиме (подсознание), другое в последовательном (сознание, логика). Оба дополняют друг друга и советовать отказаться от одного в пользу другого — это все равно что советовать отказаться от левой руки в пользу правой.
Вот эти две фразы, как мне кажется, о многом говорят: «если разрешено пытаться клеить любое слово к любому другому, мы тут же выходим за все предусмотренные вежливостью нормы по объёму вычислений»
«При этом для той же чешской коллекции документов «не по зубам» этому ограниченному анализатору будет уже всего лишь 0.5% предложений.»
Я думаю, что здесь и кроется одна из главных проблем. Формализовать знания о языке в принципе можно. Но для использования на практике этой формализованной системы нужно будет слишком уж неприличные объемы вычислительных ресурсов, особенно в сравнении с системами, использующими мягкие вычисления, коими являются статистические и обучаемые системы.
Прежде всего спасибо за статьи, очень интересно, хотя тема и не совсем моя.
По делу. Согласен во многом с gmax, но хотел бы добавить.
Выше речь шла о том, что мол в мозгу есть на самом деле правила, которые просто не облечены в словесную форму и поэтому имеет смысл, делая разбор предложений, пытаться разгадать эти правила.
Но давайте не забывать, что язык порожден человеком и его мозгом. А мозг, тем и отличается от компьютера, что хорошо работает с трудноформализуемыми задачами. Именно поэтому в большинстве языков нет стройных и красивых правил, как в компиляторах, зато есть куча исключений и неоднозначностей. Так вот в чем хороша статистика, и вообще говоря machine learning — это в извлечении трудноформализуемых знаний. Поэтому мое мнение таково — обучаемая система могла бы лучше производить анализ текстов благодаря способности обобщать. Но это должна быть система глубокой архитектуры, способная оперировать паттернами различных уровней абстракции.
А по поводу танка — создание хорошей обучающей выборки тоже не простая задача.
В любом случае мне нравится ваш ход мыслей, плюсанул. =)
Это я к тому, что сигма-функция дифференцируема, но нелинейна. Точнее линейна на определенном своем участке. И вот если вся сеть функционирует только в этих участках, ее можно просто описать в матричном виде и соответственно вычислить значения весов методами линейной алгебры.
И сделать это можно двумя способами — либо на входе поставить жеско заданный (hard-wired) алгоритм выделения инвариантных признаков (например SIFT), а на выходе обучаемую систему (НС как частный случай), либо, что идеалогически красивее, обучать как выделению признаков, так и их классификации.
Другое дело, что ни одним из перечисленных в этой статье типов НС это эффективно сделать не удастся.
И, кстати, в довольно близкой задаче распознавания рукописных символов до сих пор НС держат лидерство.
Всегда верил, что вселенная дискретна, ибо наличие таких констант как скорость света наводит на мысль о невозможности бесконечности, выраженной в непрерывности.
И что я получу на выходе. Будет потрачено много времени и усилий, буду писать статьи и отчеты красиво и по правильному, а в итоге шеф скажет, вышли мне в ворде, чтобы я мог отредактировать. Или конференция какая-нибудь доморощенная отечественная скажет мы не знаем, что это такое.
И все бы ничего, если бы только был нормальный конвертер. Но сколько ни читал на эту тему, везде пишут, что все равно придется дорабатывать напильником. А это опять же драгоценное время.
С некоторым упрощением правильнее будет сказать, что одно полушарие работает в параллельном режиме (подсознание), другое в последовательном (сознание, логика). Оба дополняют друг друга и советовать отказаться от одного в пользу другого — это все равно что советовать отказаться от левой руки в пользу правой.
«При этом для той же чешской коллекции документов «не по зубам» этому ограниченному анализатору будет уже всего лишь 0.5% предложений.»
Я думаю, что здесь и кроется одна из главных проблем. Формализовать знания о языке в принципе можно. Но для использования на практике этой формализованной системы нужно будет слишком уж неприличные объемы вычислительных ресурсов, особенно в сравнении с системами, использующими мягкие вычисления, коими являются статистические и обучаемые системы.
По делу. Согласен во многом с gmax, но хотел бы добавить.
Выше речь шла о том, что мол в мозгу есть на самом деле правила, которые просто не облечены в словесную форму и поэтому имеет смысл, делая разбор предложений, пытаться разгадать эти правила.
Но давайте не забывать, что язык порожден человеком и его мозгом. А мозг, тем и отличается от компьютера, что хорошо работает с трудноформализуемыми задачами. Именно поэтому в большинстве языков нет стройных и красивых правил, как в компиляторах, зато есть куча исключений и неоднозначностей. Так вот в чем хороша статистика, и вообще говоря machine learning — это в извлечении трудноформализуемых знаний. Поэтому мое мнение таково — обучаемая система могла бы лучше производить анализ текстов благодаря способности обобщать. Но это должна быть система глубокой архитектуры, способная оперировать паттернами различных уровней абстракции.