Обновить
100
0

Пользователь

Отправить сообщение
Я прекрасно это видел. Если вы глянете выше — моя реплика была на комментарий «в яндексе круто работать». И если уж тут сравнивать работодателей, то из всех возможных.
Я согласен. В своей сфере яндекс — лучшая в России. Но рынок глобален. И я не могу понять, почему люди, работающие в яндексе, не переберутся в какой-нибудь гугл/фейсбук/твиттер/амазон, выиграв при этом по всем параметрам (зарплата, социалка, комфорт). Вот и пытаюсь понять — это патриотизм, или привычка, или имидж самого яндекса.
Умные люди есть не только в яндексе.

Давайте так. Есть ли какие-либо приемущества работы в яндексе по сравнению каким-нибудь VC-backed стартапом или компанией в штатах? Конечно, помимо того, что это в России и «рядом».
Эм…, это не ответ. Сложность прохождения собеседования не является критерием хорошей компании. А вот зарплаты ниже рынка у лидера индустрии — это странно.
> Дело в том, что людям, поработавшим в Яндексе, больше в России деваться попросту некуда.
$400 билет в штаты или китай
Ну 7-мь слоев у Зайлера это все таки довольно «глубоко» :).
Я слушал доклад Зайлера на прошлой неделе на NIPS2013. На сколько я понял, архитектура такая ж что и у Крижевского. Но подход c deconvolutional слоями ему явно помог в отладке.

Кстати, когда его прямо спросили, что он там сделал такое, что позволило обойти модель Крижевского, он отказался отвечать :).
Все они в той или иной мере используют сверточные нейронные сети с несколькими скрытыми слоями для извлечения (трейнинга) фич.

На сколько я знаю OpenCV использует более традиционный подход к дизайну фич, и до representation/deep learning еще не добрался.
как с бесконечномерным векторным пространством, на котором определено некоторым образом умножение (аналогично тому, как это происходит у многочленов: (a0, a1, a2, ...) * (b0, b1, b2) = (a0b0, a0b1 + a1b0, a2b0 + a1b1 + a0b2, ...) )


Еще б доказать, что ничего никуда не вылезает за пределы кольца. То что существует деление, и можно определить дифференцирование.

В ряд она действительно раскладывается только на круге сходимости (-1 < x < 1), но формальное равенство степенных рядов (1 — x) * (1 + x + x^2 + ...) = (1, -1, 0, 0, ...) * (1, 1, 1, 1, ...) = 1 по описанному выше правилу умножения верно само по себе.


Но это лучше показать явно. Вы можете дать ссылку на учебник, где-это более строго расписывается?
Чувствую себя идиотом. Вроде как математика строгая и формальная, но куда не ткнись пытаются объяснять «интуитивно». Хотя, может просто не везло с преподами :)
Спасибо за статью. Заставила залезть в учебник.

Но тут много неясных моментов. Без введения формальных алгебраических структур это напоминает шаманство.
1) С первых формул вводится деление, хотя это еще вопрос, допускает ли эта структура обратный элемент по произведению
2) Чудесным образом ряд раскладывается по сумме геометрической прогрессии. Но, как правильно заметили выше, это требует введения пределов. Аргумент что Z — это формальная переменная какой-то не очень «математический». Понятно, что сумма будет существовать, но лучше это показать или хотя б пояснить почему она существует.

Все же, вы можете дать строгое определение формального ряда, и вывести тоже самое без использование геометрической прогрессии (хотяб схематично)? А то есть чувство, что где-то обманывают :)
В вашей статье больше вопросов, чем ответов. Не понимаю что вы имеете ввиду под смыслом, и «жадным» классификатором. Давайте так — получите результаты — напишите об этом.
Ну перед тем как пускаться во все тяжкие, посмотрите что народ уже успел понапридумывать за 60 лет в компьютерной лингвистике.

Ваш способ, как и n-gram'ы уткнется в комбинаторную сложность. И никуда от нее не денетесь. Частично, эту проблему снимают рекуррентные нейронные сети (см Mikolov — RNN Based Language Models)
Я не понял, вы пытаетесь изобрести n-gram'ные языковые модели?
Крайне рекомендую sklearn для таких фокусов. Там есть довольно много видов разложений, в т.ч. и рандомизированные, которые подойдут для больших наборов данных.
Вы не поняли. Против формул я ничего не имею, и очень даже за. Вопрос в том, что я ранее не встречался с кодами Грея. Мне интересно, но абсолютно непонятно откуда это и как применить. Даже в математических текстах есть abstract, где дается контекст проблемы.
Автор, не обижайтесь, но из-за такого изложения многие и не любят математику. Мне понравилось что вы последовательно расписали теоремы, и вам плюс за статью. Но плохо понятно их применение, и главное, зачем вы об этом пишите. Какие у вас мотивы? Если показать пример, как математически формулировать алгоритмы, то так и напишите. Хабр ж не лекториум, где профессор должен наболтать лекцию на 2, а студенты законспектировать.

За статью спасибо.
«официальная наука» — разве бывает другая? :)
Я пробовал LSTM для сглаживания градиента. Но эффект был незначительный. Не исключаю, что я где-то ошибся :). Но гораздо более интересно, что методы ESN работают очень неплохо. Попробуйте в рекуррентной сети нормализовать hidden-to-hidden matrix на спектральный радиус. Наверняка произойдет прирост в качестве.
Еще добавлю, что RNN работают довольно хорошо, как по качеству, так и по скорости декодинга. Если интересно, могу опубликоват свою модель на github (тренировал на википедии). Минус в том, что тренируются очень медленно, но если задействовать GPU, то все не так уж плохо.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность