Pull to refresh
95
0
Михаил Сиротенко @intelligenceAgent

Пользователь

Send message
В этой диаграмме очень странно получается, что специалист по machine learning отличается от специалиста по data science только знанием предметной области?
Сколько занимаюсь профессионально разработкой алгоритмов ML, всегда приходится очень глубоко вникать в предметную область. Так в чем разница?
На счет эмоций поддержу. Жутко коробит когда, говоря об ИИ, какую-то особую роль отводят эмоциям. Да ведь это просто социальный механизм, который, к тому же, очень консервативен в эволюционном смысле. У самых простейших животных имеются некие аналоги эмоций.

Я, в последнее время все больше прихожу к выводу, что главная задача мозга — это упрощение информации. Разложение ее в некоторый компактный базис, в котором решение любой задачи становится относительно простым.
Приятно находить все больше людей в русском интернете, которых тоже интересует эта тема.
По поводу оригинальной статьи есть ряд мыслей.
Авторы утверждают, что несверточный характер сети имеет преимущества — большую инвариантность детекторов фич. Собственно они на это указывают еще в статье про TiledCNN. Я пока не видел работ, которые бы прямо это доказывали. Да, есть страница на которой они показывают инвариантность к поворотам и масштабированию. Но это обязательно должно быть свойством pooling слоя. Почему бы эту задачу не решить следующему слою.
Кроме того, архитектура, когда локальные рецептивные поля не имеют связанных весов может привести к отсутствию независимости детектора от положения внутри входного изображения. Т.е. если в сверточном случае все ядра одинаково выделяют признаки вне зависимости от их расположения на входном изображении. То в случае TiledCNN тот же самый признак в углу картинки и в середине будет по разному выделен.
Там несколько отличий:
1. Не использование свертки. Они это выставляют как преимущество, мол ближе к биологии и позволяет учится другим инвариантам. Я с этим не согласен. (Подробнее в моем комментарии к статье). Сам подход впервые был описан в статье про Topographic Independent Component Analysis.
2. Т.н. L2-pooling в котором они берут корень квадратный из суммы квадратов.
3. Функцию ошибки задают как в TICA. У ЛеКуна для разряженных автоенкодеров используются методы predictive sparse decomposition.
Несмотря на то, что в одной из статей есть слово filtering, алгоритмы sparse coding не являются алгоритмами фильтрации.
Критерий полезности сводится к критерию компактности.
А какие вы знаете критерии полезности?
Sparse coding
Compressive_sensing
Sparse Filtering, Jiquan Ngiam, Pangwei Koh, Zhenghao Chen, Sonia Bhaskar and Andrew Y. Ng. In NIPS*2011
Unsupervised learning models of primary cortical receptive fields and receptive field plasticity, Andrew Saxe, Maneesh Bhand, Ritvik Mudur, Bipin Suresh and Andrew Y. Ng. In NIPS*2011

Ну и вообще если вы следите за конференциями CVPR, ICML, NIPS, там часто публикации по этой теме встречаются.
Еще можно по ученым работающим в этой области посмотреть: Andrew Ng, Yann LeCun, Guelmo Sapiro
Есть такое направление в Машинном обучении и обработке сигналов — sparse coding.
Идея в том, что большинство информации с которой люди имеют дело на самом деле по натуре очень разряженная. Нужно просто найти правильный базис. Нахождение такого базиса и есть извлечение полезной информации без учителя.
Пример: количество вариантов 8-битных изображений размером 65x65 равно 10^10000. Это больше чем атомов во вселенной. Очевидно в реальности мы не встречаем и тысячной доли этих вариантов. Следовательно можно разложить всю визуальную информацию в очень компактный базис, каждая точка в котором будет представлять собой некий релевантный признак. А дальше уже оперировать этими признаками как пожелается. Например тесты Бонгарда проходить :)
Решение тестов Бонгарда это та же задача, но сложнее. Нужно разложить входное изображение на некий вектор признаков и найти общие и различные признаки. Сложность в том, чтобы признаки были высокого уровня абстракции.
По поводу цитаты, вот пример когда система обучается на ходу распознаванию новых объектов:
www.cs.nyu.edu/~yann/research/objreco/index.html
Если трактовать вашу фразу в общем и говорить о неявном сравнении с эталоном, то да, всегда что-то с чем то сравнивается. Тогда ваш ответ можно свести к такому: «все системы распознавания используют ПАМЯТЬ». Но это же очевидно, почти любой алгоритм
Если трактовать более конкретно, то нет — с эталоном ничего не сравнивается. Из входных данных извлекается полезная информация и она уже используется для получения требуемого результата.
Вы ведь шутите?
Определить номинал монетки по ее весу и распознать цифры написанные от руки — это мягко говоря разного уровня задачи.
А не проще ли разделить эти задачи? Как это обычно и делают в Machine learning.
Т.е. есть задача распознавания образов, а есть обработки естественного языка.
Одна система учится распознавать символы и выдавать вектор вероятностей.
А другая наборы этих векторов и выстраивает слова.
Ну т.е. не понятно какую информацию несет в себе бинарный символ кроме той что он с вероятностью P1 похож на букву A, вероятностью P2 похож на букву B, и т.д.
Есть еще информация о взаимном расположении этих символов, но она ведь абсолютно независима от изображения индивидуальных символов.
По поводу применений НС, посмотрите мой ответ выше.
По сути вашей разработки:
Правильно ли я понимаю, вы решаете задачу распознавания бинарных изображений символов на основе контекста?
Т.е. если текущий символ сильно зашумлен, то его можно распознать за счет соседей.
Это почему же нет?
Уже 20 лет как есть различные коммерческие применения.
Вот навскидку только из моей области интересов (сверточные сети):
1. AT&T в 93м году выпустила банкоматы с автоматическим распознаванием чеков в Европе и США. Распознавание реализовано с помощью ConvNets. К концу 90-х эта сеть считывала 10% всех чеков в США.
2. Microsoft использует их в своем MS Document Imaging OCR.
3. Google Street View использует их же для детекции лиц и номерных знаков.
4. NEC применяет их в своих системах слежения в супермаркетах для распознавания возраста и пола.
5. Vident Technologies использует их в системах слежения, установленных в нескольких аэропортах в США.
6. Canon разработали VLSI чип для аппаратной реализации сверточных сетей.
Странно. Неужели только у я получаю огромное удовольствие от Г+.
Качество контента в Г+ и фейсбуке или других сетях не сравнимо.
Море полезной информации по своей профессии и увлечениям из первых рук. В чем то лента Г+ заменила мне Хабр.
Есть правда небольшой минус, почти все это на английском.
Это по сути FRC — frame rate convertor. Исследования в этой области идут уже лет 10 как. Почти во всех современных телевизорах есть чипы, которые делают такое преобразование. Правда не идеально.
Проблемы всех этих подходов в 90% — оклюзии при оценке движения. Пока полностью побороть их не удается.
В таком случае укажите, пожалуйста, свою рекомендацию автору. Но постарайтесь сделать это 1) не в стиле КО: "- Учите основы! — Спасибо Кэп!" и 2) так, чтобы автору захотелось последовать вашему совету, а не послать вас.
И еще не забывайте что все люди разные, и путь к успеху у всех совершенно разный. Это, кстати, должен понимать любой хороший преподаватель.
Судя по всему Александр просто отсекает часть студентов (тех, которые, о ужас, любят забегать вперед) как бракованных, не пытаясь направить их энергию на изучение тех же основ.
Я имел опыт работы с подобным устройством. И тот выигрыш в скорости который оно дает для очень многих задач перевешивает недостатки.
Например если вы небольшой коллектив, результатом работы которого является постоянное производство больших объемов данных (видео, научные данные), которые как можно раньше должны быть доступны всем, то это, идеальное решение.
Не туда ответил.
В ответ могу только сказать, что мой опыт несколько иной. Я имею в виду чтение лекций в университете. Есть много толковых студентов, которые горят желанием что-то делать, создавать, у них рождаются идеи. И пусть эти идеи и не выдерживают критики профессионала, и если поддержать эту энергию, позже они могут вылиться во что-то более реальное.
Я много видел примеров, когда преподаватели использовали студентов для доказательства собственной состоятельности. Тешили свое эго, путем жесткой критики непрофессионалов. Это начисто обрубает всякий интерес и мотивацию у людей.
Вас так пугает что автор будет доказывать свою идею? Пусть доказывает, для этого ему придется ее реализовать. А для этого в свою очередь изучить фундамент. Мы же не на защите диссертации.
Поймите — изучать фундамент ради изучения фундамента есть наискучнейшее занятие.
В ответ могу только сказать, что мой опыт несколько иной. Я имею в виду чтение лекций в университете. Есть много толковых студентов, которые горят желанием что-то делать, создавать, у них рождаются идеи. И пусть эти идеи и не выдерживают критики профессионала, и если поддержать эту энергию, позже они могут вылиться во что-то более реальное.
Я много видел примеров, когда преподаватели использовали студентов для доказательства собственной состоятельности. Тешили свое эго, путем жесткой критики непрофессионалов. Это начисто обрубает всякий интерес и мотивацию у людей.
Вас так пугает что автор будет доказывать свою идею? Пусть доказывает, для этого ему придется ее реализовать. А для этого в свою очередь изучить фундамент. Мы же не на защите диссертации.
Поймите — изучать фундамент ради изучения фундамента есть наискучнейшее занятие.

Information

Rating
Does not participate
Location
New York, New York, США
Works in
Date of birth
Registered
Activity