Pull to refresh

Формирование высокоуровневых признаков с помощью широкомасштабного эксперимента по обучению без учителя

Algorithms *Image processing *
В статье Распознавание лиц человеческим мозгом: 19 фактов, о которых должны знать исследователи компьютерного зрения упоминался экспериментальный факт: в мозге примата имеются нейроны, селективно реагирующие на изображение морды лица (человека, обезьяны и т.п.), причем средняя задержка составляет около 120 мс. Из чего в комментарии я сделал дилетантский вывод о том, что зрительный образ обрабатывается прямым распространением сигнала, и количество слоёв нейронной сети — около 12.

Предлагаю новое экспериментальное подтверждение этого факта, опубликованное concretely нашим любимым Andrew Ng.
Читать дальше →
Total votes 68: ↑64 and ↓4 +60
Views 24K
Comments 68

Реализация Restricted Boltzmann machine на c#

.NET *Data Mining *
Привет. Закончился курс по нейронным сетям. Хороший курс, но мало практики. Так что в этом посте мы рассмотрим, напишем и протестим ограниченную машину Больцманастохастическую, генеративную модель нейронной сети. Обучим ее, используя алгоритм Contrastive Divergence (CD-k), разработанный профессором Джеффри Хинтоном, который кстати и ведет тот курс. Тестировать мы будем на наборе печатных английских букв. В следующем посте будет рассмотрен один из недостатков алгоритма обратного распространения ошибки и способ первоначальной инициализации весов с помощью машины Больцмана. Кто не боится формулок и простыней текста, прошу под кат.

Читать дальше →
Total votes 38: ↑35 and ↓3 +32
Views 40K
Comments 20

Алгоритм Self-Organizing Incremental Neural Network (SOINN)

Algorithms *

Введение


Одной из задач обучения без учителя является задача нахождения топологической структуры, которая наиболее точно отражает топологию распределения входных данных. Существует несколько подходов решения этой задачи. Например, алгоритм Самоорганизующихся Карт Кохонена является методом проецирования многомерного пространства в пространство с более низкой размерностью (как правило, двумерное) с предопределенной структурой. В связи с понижением размерности исходной задачи, и предопределенной структурой сети, возникают дефекты проецирование, анализ которых является сложной задачей. В качестве одной из альтернатив данному подходу, сочетание конкурентного обучения Хебба и нейронного газа является более эффективным в построении топологической структуры. Но практическому применению данного подхода препятствует ряд проблем: необходимы априорные знания о необходимом размере сети и сложность применения методов адаптации скорости обучения к данной сети, излишняя адаптация приводит к снижению эффективности при обучении новым данным, а слишком медленная скорость адаптации вызывает высокую чувствительность к зашумленным данным.

Для задач онлайн обучения или длительного обучения, перечисленные выше методы не подходят. Фундаментальная проблема для таких задач — это как система может приспособиться к новой информации без повреждения или уничтожения уже известной.

В данной статье рассматривается алгоритм SOINN, который частично решает озвученные выше проблемы.
Читать дальше →
Total votes 32: ↑31 and ↓1 +30
Views 22K
Comments 7

Как помочь детям учить иностранные языки? Воспользоваться мобильными приложениями, конечно!

Kinderfox corporate blog Website development *Development for iOS *

Пользоваться мобильными гаджетами дети учатся раньше, чем писать от руки или считать. Так почему бы не направить их игровые увлечения в образовательное русло с помощью обучающих программ?

Позволить малышам играть и веселиться, одновременно изучая иностранный язык, просто – разработчики выпускают много полезных приложений каждый день. Довольно большая части из них — бесплатные. Представляем обзор самых популярных и эффективных детских приложений для изучения английского языка.

Читать дальше →
Total votes 22: ↑11 and ↓11 0
Views 22K
Comments 13

О бедном Puzzle замолвите слово. Обзор представителей самой популярной категории детских приложений

Kinderfox corporate blog Website development *Development for iOS *
Recovery mode

Puzzle, наверное, самый популярный жанр приложений для детей. Такой проект есть почти у всех начинающих разработчиков. Логика проста — дети любят пазлы, техническая реализация сравнительно не сложная — почему бы и нет. К сожалению, в итоге, количество низкокачественных поделок на эту тему в AppStore зашкаливает и родителям очень сложно найти что-то достойное и полезное для своих детей.
Поэтому, заручившись поддержкой большинства читателей в первом обзоре полезных детских приложений, предлагаем вашем вниманию три наиболее привлекательные и эффективные в плане обучения игры-пазлы, выпущенные в 2013 году.
Читать обзор
Total votes 11: ↑3 and ↓8 -5
Views 2.1K
Comments 1

Два проекта массового онлайн-сотрудничества

Studying in IT
На дворе 21 век. По предсказаниям писателей-фантастов 20 века мы должны жить с летающими автомобилями за окном и роботами, которые делают все за нас, а то и вообще уже лететь к другим звездным системам. К сожалению это не так. Но кое-что фантасты предсказать не сумели, точнее не смогли предсказать влияние, которое оказал интернет на общество и цивилизацию в целом. Я не смогу описать влияние интернета на общество, для этого потребуется не одна сотня «хабрапостов», а то и больше, но я выделю интересное для меня направление, а именно краудсорсинг.

Начну я пожалуй с рассказа о проекте CAPTCHA. Этот проект знаком не только специалистам IT, но и каждому пользователю интернета. Он всех раздражает, но без него наша жизнь была бы ужасна. Кол-во спама было бы в разы больше. Но именно такой раздражающий всех проект как CAPTCHA подтолкнул Луиса фон Ана из университета Карнеги — Меллон к созданию проекта reCAPTCHA. Этот проект также нес в себе функцию защиты от ботов. Добавилась одна составляющая, невидимая для обычных пользователей — помощь в оцифровке текстов книг. Теперь при вводе текста с картинки, пользователю предлагается ввести два слова. Первое уже известно системе, а второе слово системе неизвестно и она не способна его распознать программой распознавания текста. Второе слово берется из источника, требующего распознавания (например, книги). Проверка и прохождение «капчи» осуществляется по тому слову, которое известно системе. Неизвестное слово вводить необязательно, так как результат закрепляется на основе статистики, а не ответа одного пользователя, что позволяет выбрать верный вариант. В сентябре 2009 года reCAPTCHA была приобретена компанией Google. А весной 2012 года Google запустил эксперимент по распознаванию изображений из Google Maps и Google Street View с помощью сервиса reCAPTCHA.

Продолжение читайте под катом.
Читать дальше →
Total votes 39: ↑20 and ↓19 +1
Views 17K
Comments 4

Метод обучения программированию: «конспектирование»

Website development *Programming *
Sandbox
Эта статья для тех, кто задумался или только начал изучать программирование. В ней я бы хотел поделиться выбранным мною способом изучения программирования, который заключается в конспектировании базовых принципов. Способ имеет один существенный недостаток — существенные затраты времени. Однако, у него есть и плюсы.
Читать дальше →
Total votes 15: ↑8 and ↓7 +1
Views 38K
Comments 9

Бесплатная библиотека Self-learning – более 20 курсов по ключевым направлениям Software Engineering

Luxoft corporate blog IT systems testing *Web services testing *
Самообучение – это одно из самых необходимых умений будущему и уже работающему IT-специалисту. Для того чтобы успешно выполнять работу и претворять в жизнь свои собственные проекты, необходимо постоянно самостоятельно учиться и совершенствоваться.

Благодаря библиотеке Self-learning сегодня получать знания и развивать различные навыки по ключевым направлениям Software Engineering можно не только на очных курсах, но и сидя за домашним компьютером.
Подробности
Total votes 16: ↑11 and ↓5 +6
Views 17K
Comments 9

6 золотых правил изучения чего угодно за рекордное время

MBA Consult corporate blog GTD *
Translation
image

Скорость, с которой мы что-то познаем, способна определить качество нашей жизни.
Бесчисленные эксперты в области обучения и исследователи выявили, что изучить что-то на порядок быстрее среднего расчетного времени возможно. Все дело лишь в соблюдении верных принципов. Итак, я не обещаю никаких чудес. Вам придется потом и кровью зарабатывать право попасть туда, куда вы стремитесь.
Но если вы решите серьезно отнестись к этим 6 приемам и внедрить их в учебный процесс, то окажетесь там гораздо быстрее.
Читать дальше →
Total votes 23: ↑12 and ↓11 +1
Views 8.6K
Comments 4

«Айсберг вместо Оскара!» или как я пробовал освоить азы DataScience на kaggle

Studying in IT
Tutorial
В моей прошлой статье посвящённой освоению науки о данных (или по заграничному — Data Science) с абсолютного нуля (даже ниже чем -273 градуса по Кельвину) я обещал, что подготовлю материал о том, как я осваивал kaggle (буду писать с маленькой буквы, как у них на логотипе).

Для тех, кто так же, как и я только начинает знакомится с данным вопросом, поясню что как я понял kaggle это сайт, посвящённый соревнованиям и в некоторой степени обучению в области Data Science, где каждый может совершенно бесплатно и используя любые доступные инструменты, сделать прогноз по той или иной задаче.

Если вам интересно что же в итоге у меня из всего это вышло прошу под кат.

UPD: На свежую голову добавил небольшие пояснения про вкладку «данные» и про переобучение модели.


Читать дальше →
Total votes 17: ↑15 and ↓2 +13
Views 22K
Comments 3

ИИ учит язык: зачем нужен хакатон по машинному переводу

Московский физико-технический институт (МФТИ) corporate blog Hackathon Machine learning *
image

18 декабря стартовал отборочный тур для участия в хакатоне DeepHack.Babel от Лаборатории нейронных систем и глубокого обучения МФТИ. Акцент будет сделан на нейросетевой машинный перевод, набирающий популярность в исследовательском сообществе и уже использующийся в коммерческих продуктах. Причем обучить систему машинного перевода нужно будет, вопреки общепринятой практике, на непараллельных данных — то есть, в терминах машинного обучения, без привлечения учителя. Если вы еще размышляете над регистрацией, рассказываем, зачем это нужно.
Читать дальше →
Total votes 15: ↑15 and ↓0 +15
Views 4.1K
Comments 0

Открытая научная школа хакатона DeepHack.Babel

Московский физико-технический институт (МФТИ) corporate blog Abnormal programming *Hackathon Machine learning *Studying in IT
image

Перед новым годом мы рассказывали, зачем нужен хакатон по машинному переводу. Уже на следующей неделе 50 участников, прошедших отбор, приедут в Долгопрудный, чтобы поучаствовать в обучении системы на непараллельных данных. Помимо многочасового брейншторминга в поиске решения поможет научная школа — серия лекций от ведущих мировых специалистов по машинному переводу. Хабр, приглашаем тебя посетить интересующие выступления! Они пройдут на Физтехе с 29 января по 4 февраля, не забудьте зарегистрироваться. Ну, а если в морозный зимний вечер выходить из дома не хочется, то можно посмотреть трансляции на канале DeepHack.
А пока рассказываем о ключевых спикерах
Total votes 9: ↑9 and ↓0 +9
Views 2.1K
Comments 0

Обзор нового алгоритма уменьшения размерности UMAP. Действительно ли он лучше и быстрее, чем t-SNE?

New Professions Lab corporate blog Data Mining *Big Data *Data visualization *Machine learning *
Привет, Хабр! Задача снижения размерности является одной из важнейших в анализе данных и может возникнуть в двух следующих случаях. Во-первых, в целях визуализации: перед тем, как работать с многомерными данными, исследователю может быть полезно посмотреть на их структуру, уменьшив размерность и спроецировав их на двумерную или трехмерную плоскость. Во-вторых, понижение размерности полезно для предобработки признаков в моделях машинного обучения, поскольку зачастую неудобно обучать алгоритмы на сотне признаков, среди которых может быть множество зашумленных и/или линейно зависимых, от них нам, конечно, хотелось бы избавиться. Наконец, уменьшение размерности пространства значительно ускоряет обучение моделей, а все мы знаем, что время — это наш самый ценный ресурс.

UMAP (Uniform Manifold Approximation and Projection) — это новый алгоритм уменьшения размерности, библиотека с реализацией которого вышла совсем недавно. Авторы алгоритма считают, что UMAP способен бросить вызов современным моделям снижения размерности, в частности, t-SNE, который на сегодняшний день является наиболее популярным. По результатам их исследований, у UMAP нет ограничений на размерность исходного пространства признаков, которое необходимо уменьшить, он намного быстрее и более вычислительно эффективен, чем t-SNE, а также лучше справляется с задачей переноса глобальной структуры данных в новое, уменьшенное пространство.

В данной статье мы постараемся разобрать, что из себя представляет UMAP, как настраивать алгоритм, и, наконец, проверим, действительно ли он имеет преимущества перед t-SNE.


Читать дальше →
Total votes 24: ↑22 and ↓2 +20
Views 16K
Comments 3

IGNG — инкрементальный алгоритм растущего нейронного газа

Data Mining *Algorithms *Mathematics *Machine learning *


При написании статьи о разработке детектора аномалий я реализовывал один из алгоритмов, который называется "Инкрементальный растущий нейронный газ".


В советской литературе российском сегменте Интернета эта тема освещена достаточно слабо, и нашлась только одна статья, да и то с прикладным применением данного алгоритма.


Итак, что же такое — алгоритм инкрементального растущего нейронного газа?

Читать дальше →
Total votes 26: ↑25 and ↓1 +24
Views 8.4K
Comments 3

Обучение без учителя: любопытный ученик

Artificial Intelligence
Translation
За последнее десятилетие машинное обучение беспрецедентно продвинулось в таких разных областях, как распознавание образов, робомобили и сложные игры типа го. Эти успехи в основном были достигнуты через обучение глубоких нейросетей с одной из двух парадигм – обучение с учителем и обучение с подкреплением. Обе парадигмы требуют разработки человеком обучающих сигналов, передающихся затем компьютеру. В случае обучения с учителем это «цели» (к примеру, правильная подпись под изображением); в случае с подкреплением это «награды» за успешное поведение (высокий результат в игре от Atari). Поэтому пределы обучения определяются людьми.

И если некоторые учёные считают, что достаточно обширной программы тренировок – к примеру, возможность успешно выполнить широкий набор задач – должно быть достаточно для порождения интеллекта общего назначения, то другие думают, что истинному интеллекту потребуются более независимые стратегии обучения. Рассмотрим, к примеру, процесс обучения младенца. Его бабушка может сесть с ним и терпеливо показывать ему примеры уток (работая обучающим сигналом при обучении с учителем) или награждать его аплодисментами за решение головоломки с кубиками (как при обучении с подкреплением). Однако большую часть времени младенец наивным образом изучает мир, и осмысливает окружающее через любопытство, игру и наблюдение. Обучение без учителя – это парадигма, разработанная для создания автономного интеллекта путём награждения агентов (компьютерных программ) за изучение наблюдаемых ими данных безотносительно каких-то конкретных задач. Иначе говоря, агент обучается с целью обучиться.
Читать дальше →
Total votes 14: ↑11 and ↓3 +8
Views 10K
Comments 2

Нейросеть — обучение без учителя. Метод Policy Gradient

Python *Algorithms *Machine learning *Artificial Intelligence
🔥 Technotext 2020

Доброго времени суток, Хабр


Настоящей статьей открываю цикл статей о том, как обучать нейронные сети без учителя.
(Reinforcement Learning for Neuron Networks)

В цикле планирую сделать три статьи по теории и реализации в коде трех алгоритмов обучения нейронных сетей без учителя. Первая статья будет по Policy Gradient, вторая по Q-learning, третья статья заключительная будет по методу Actor-Critic.

Приятного чтения.

Статья Первая — Обучение без учителя методом Policy Gradient
(Policy Gradient for Reinforcement Learning)


Введение


Среди алгоритмов машинного обучения особое место занимают алгоритмы машинного обучения где алгоритм учится решать поставленную задачу самостоятельно без участия человека, напрямую взаимодействуя со средой в которой он обучается.

Такие алгоритмы получили общее название — алгоритмы обучения без учителя, для таких алгоритмов не нужно собирать базы данных, не нужно производить их классификацию или разметку.

Алгоритму обучающемуся без учителя достаточно только давать обратный отклик на его действия или решения — хороши они были или нет.
Читать дальше →
Total votes 12: ↑11 and ↓1 +10
Views 19K
Comments 17

Метод главных компонент: аналитическое решение

Python *Mathematics *Machine learning *Studying in IT Artificial Intelligence
Tutorial


В этой статье мы залезем под капот одному из линейных способов понижения размерности признакового пространства данных, а именно, подробно ознакомимся с математической стороной метода главных компонент (Principal Components Analysis, PCA).
Читать дальше →
Total votes 4: ↑4 and ↓0 +4
Views 12K
Comments 0

Самоучитель клингонского

«Антиплагиат» corporate blog Semantics *Mathematics *Machine learning *Natural Language Processing *

Пару лет назад мы рассказали о том, как в системе Антиплагиат устроен поиск русского перевода английских статей. Естественно, без машинного переводчика в алгоритме не обойтись. В основе машинного переводчика, конечно, лежит машинное обучение, которое, в свою очередь, требует весьма значительного количества «параллельных предложений», т.е. одинаковых по смыслу предложений, написанных на двух языках. Значительное количество — это миллионы предложений, и чем больше, тем лучше. Понятно, что для русско-английской пары найти такую базу (в том числе и в открытом доступе) реально. А что делать с теми языковыми парами, для которых параллельных предложений принципиально не может быть слишком много?


Казалось бы, не имея в распоряжении большого объема обучающих примеров, обучить систему машинного перевода невозможно. Но на помощь приходит идеология Unsupervised Learning, или «обучение без учителя». Ну а чтобы задача была действительно интересной (особенно порадует она фанатов вселенной Стартрека), мы будем обучать наш машинный переводчик для пары языков «английский – клингонский».


Источник картинки: Собственное творчество от команды Антиплагиата


А самым подходящим девизом к дальнейшему рассказу о применении Unsupervised Learning будет знаменитая выдержка из Инструкции клингонского почетного караула «Если не можешь контролировать себя, тебе не дано командовать другими».


bISeH'eghlaH'be'chugh latlh Dara'laH'be'
Total votes 12: ↑12 and ↓0 +12
Views 7.2K
Comments 0

Как правильно учиться в IT — сфере. ТОП ошибок при обучении. Конкретные советы начинающим

Studying in IT IT career
В этой статье я постараюсь дать конкретные советы, как, на мой взгляд, правильно обучаться в IT-сфере. В том числе, разберем частые ошибки, мешающие эффективному обучению. Поговорим как про бесплатное самообразование, так и обучение на платных курсах и в университетах. Поехали!

Total votes 9: ↑2 and ↓7 -5
Views 28K
Comments 7

Как учиться быстрее: пять научно доказанных способов ускорить запоминание информации и формирование навыков

Brain

Я много лет интересуюсь эффективными методами обучения и тем, как поставить этот процесс на правильные рельсы. Особенно у себя дома, когда на тебя не давит социальная ответственность и чуткий взгляд преподавателя.

Читать далее
Total votes 19: ↑17 and ↓2 +15
Views 15K
Comments 10
1