Комментарии / Профиль lightcaster / Хабр

Пользователь

ПрофильСтатьи6ПостыНовостиКомментарии380

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

lightcaster 22 окт 2013 в 12:41

По качеству, вы бы меня убедили, участвуюя в соответсвующих контестах.
Но в любом случае, из вашего ответа, все не так уж плохо. Удачи в вашем деле!

Голосовой поиск «по-русски»

lightcaster 22 окт 2013 в 12:28

Я написал в той теме ответ. Сейчас я в отпуске, и у меня лирическое настроение, так что не воспринимайте категорично :)

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

lightcaster 22 окт 2013 в 12:25

Ну наконец-то, в первый раз на хабре вижу в ссылках имя Mohri, написанное не мной :). Риспект. Но все же яндекс очень отстает в ASR. Во-первых, ничего не сказано про языковые модели. Скорей всего вы делаете это старыми добрыми n-gramm'ами, но RNN-модели работают гораздо лучше. Во-вторых, после RBM уже появилось довольно много способов тренировки «глубокой» нейронной сети. Странно что у нас почти нет статей на эту тему. В тетьих — появляются медоды получения фич минуя MFCC и прочие костыли. Вы это пробовали?
Спасибо.

Разработка нечеткой нейронной сети NEFClass M

lightcaster 17 окт 2013 в 16:28

Во-вторых
Сами изображения для обучения используют редко, обычно используют некие дескрипторы (см HOG, LBP, Haar)

Это не совсем так. Сейчас сильно развиваются методы representation learning, которые спосбоны выучить эффективные признаки из сырых данных.

Голосовой поиск «по-русски»

lightcaster 3 окт 2013 в 05:31

А что под капотом? Стандартный HMM-GMM и взвешенные автоматы для декодинга? В качестве языковой модели — n-gramm'ы? Как работаете с фонемами?

Не думаю что это такая уж закрытая информация. С другой стороны, интенресно же :).
Спасибо.

Создание автономного робота Frank. Часть первая

lightcaster 27 авг 2013 в 14:44

Ну тогда вопрос — при чем здесь роботы? :)

Если вы хотите понять принципы работы нервной системы, тогда нужно ей и заниматься. И к роботу приступить, лет через 50, когда хоть что-то станет понятно :). А что касается «моделирования мозга» — воссоздание динамики работы ЦНС еще ничего не дает. Я уже не помню сколько раз кричали о создании симуляции мозга крысы-кролика-человека. Ок, приблизительно воссоздали динамику активаций. Что дальше-то?

Я бегло посмотрел книгу. Там описываются принципы работы нейронов нервной системы. Вы можете более конкретно описать, как это может в конкретном случае — например, при навигации, или распознавании объектов?

Создание автономного робота Frank. Часть первая

lightcaster 27 авг 2013 в 14:07

Почему не динамические системы, HMM, SVM, или какие-нибудь марковские поля? Почему нейронные сети?

То что они чуть ближе к биологическим системам это не значит того, что именно так работает мозг человека. Да и в конце концов, почему алгоритмы робота должны быть подобны биологическим системам?

Ну допустим, вы возьмете все же нейронные сети. Для каких задач будете использовать? Если это моделирование последовательностей, опять куча вопросов. Это рекуррентная сеть? Как тренировать, ведь обычный сильно BPTT лажает? Какая инициализация, сколько слоев, какие длины последовательностей, регуляризация?

Создание автономного робота Frank. Часть первая

lightcaster 27 авг 2013 в 12:21

Учитывая то, что процесс зрительного восприятия у людей многоуровневый (различные уровни наших нейронных сетей обрабатывают разные свойства изображения), то мне пришла идея использовать несколько плат BeagleBone Black или Parallela, соединенных иерархически. Каждая плата будет выполнять свой алгоритм, максимально утилизирующий мощность процессора и количество свободной памяти, передавая данные дальше по цепочке для дальнейшей обработки

Какие именно алгоритмы? Почему нейронные сети? Зачем соединять иерархически?

Способы представления словарей для автоматической обработки текстов

lightcaster 26 авг 2013 в 13:13

Согласен. Иногда лучше вообще не минимизировать :). Вообще, там есть такая штука, как ленивая композиция. Очень эффективная, когда приходится строить композицию больших автоматов, а потом искать кратчайший путь. Но ее тяжеловато использовать — функция не вынесена в шелл-скрипты, и документации мало.

Способы представления словарей для автоматической обработки текстов

lightcaster 26 авг 2013 в 10:05

Для трансдьюсера не существует способа минимизации. То есть минимизировать можно, но автомат в результате не будет гарантированно минимальным (и единственно возможным). Чтобы детерминировать трансдьюсер, нужно чтоб выполнялось свойство проективности, а это на практике редкость (на моей, по крайней мере). Но есть разные обходные пути, типа воспринимать пару символов a:b как оду метку, минимизировать как обычный акцептор.

А чем вам OpenFST не нравится? Ребята хорошо потрудились. Правда, в погоне за универсальностью вышло тяжеловесно. Но вцелом, работает.

Вероятностные модели: борьба с циклами и вариационные приближения

lightcaster 3 авг 2013 в 10:22

Сергей, у вас отличные посты. Продолжайте в том же духе.

Вопрос по loopy belief propagation. Я несколько раз сталкивался с граф. моделями, и все никак не мог понять «легитимность» этого алгоритма.

Обычно, в книжках рассуждается так. Вот есть задача марджинализации. В лоб — нерешаемо, придумываем умный способо суммирования пользуясь факторизацией графа. Называем блоки произведений-суммирований «сообщениями» и передаем эти «сообщения» вдоль графа чтобы маргинализовать нужную переменную (или группу переменных).

А потом, внезапно, берут те же «сообщения» и применяют к циклическому графу. Но ведь изначальный смысл маргинализации при этом как-то теряется, и получается что мы оперируем придумаными терминами типа «message passing», забыв откуда это вообще взялось. Так было, к примеру, в курсе pgm на курсере. И еще где-то втречал такой подход…

Не могли бы вы пояснить этот момент, ну или дать ссылку на хорошее описание этого алгоритма.

Решение задачи кластеризации методом градиентного спуска

lightcaster 3 авг 2013 в 06:57

Автор сам и ответил :).

Вобщем, да, minibatch — это разновидность стохастического градиентного спуска, где мы считаем следующий шаг спуска на основе части выборки, а не на всем объеме данных, как в классическом градиентном спуске. Это во-первых, ускоряет обсчет градиента, во-вторых позволяет (теоретически) избежать локальных минимумов.

Ну а параллелить можно так — разбить данные на куски, взять несколько кусков в пулл и обсчитывать параллельно. Обновлять параметры по мере обсчета каждого из кусков. Хотя, думаю, есть и другие способы распараллеливания.

Решение задачи кластеризации методом градиентного спуска

lightcaster 2 авг 2013 в 15:02

Хорошая статья.

В общем математически то оба алгоритма стоят на одной ступени, но мы то знаем что один чуть выше -)

Т.е. градиент выше, или EM? :) Вообще градиентный спуск хорош тем, что его можно превратить в стохастический или minibatch и хорошенько распараллелить. Не уверен что с EM так же просто получится.

Летающий робот к конкурсу и куча грабель с ним

lightcaster 16 июл 2013 в 12:10

Понятно, спасибо. Было бы интересно почитать о реализации подробней.

Летающий робот к конкурсу и куча грабель с ним

lightcaster 16 июл 2013 в 09:45

Можете все же подробней про алгоритмы? Как устроена навигация, прокладка маршрута? Строите ли карту? Есть ли какой-нибудь высокоуровневый планировщик? Как сглаживаете шум датчиков?

В статье уклон в железо, хотя по мне это не самое интересное.

Раз вы вне конкурса, то небольшой спойлер не повредит :).

Предобучение ограниченными машинами Больцмана для распознавания реальных изображений

lightcaster 11 июл 2013 в 19:47

Было бы интересно, спасибо.

Предобучение ограниченными машинами Больцмана для распознавания реальных изображений

lightcaster 11 июл 2013 в 19:43

А, понял, ок. Подумалось, что вы попадаете на переобучение.

Предобучение ограниченными машинами Больцмана для распознавания реальных изображений

lightcaster 11 июл 2013 в 19:42

Ну смысл предварительной настройки весов вобщем-то понятен. Но я немного о другом. В той статье что я привел (да и в куче последующих у коллег Хинтона) используется не вычисление градиента как в стандартном backprop, а вычисление гессиана. Точнее, не гессиана а его приближения, т.к. сам гессиан конечно никто считать не будет. Т.е. фактически инициализация весов не важна — важен сам способ оптимизации.

По-моему в питоновском theano все функции для этого есть. Нужно попробовать.

Предобучение ограниченными машинами Больцмана для распознавания реальных изображений

lightcaster 11 июл 2013 в 19:18

И еще один момент. Вроде как товарищи из той же компании что и Хинтон говорят что можно достичь хорошего обучения и без при-тренинга через один из квазиньютоновских методов. Не пробовали, случаем?

Вот статья: Martens, J. (2010). Deep learning via hessian-free optimization

ps я практически не занимался дип ленингом и нейросетями, просто интересно

Предобучение ограниченными машинами Больцмана для распознавания реальных изображений

lightcaster 11 июл 2013 в 19:07

Замечание о графиках: поскольку нас фактически интересует способность сети правильно распознавать эмоции, а не минимизировать функцию ошибки, обучение продолжается, пока эта способность улучшается, даже после того, как функция ошибки начинает расти.

Не понял этот момент. А как вы понимаете что способность распознавать эмоции все еще улучшается?

1 2 ...

5 6

8 9 ...

18 19