Готовое решение вряд ли найдёте, но можно «собрать» его по кусочкам. Посмотрите в сторону обучения ранжированию (Learning to rank) — там стоит похожая задача: есть очень много объектов, возможно, релевантных пользователю, хочется первым делом показать самые релевантные, при этом релевантность мы рассчитывать не умеем, но можем оценить с привлечением человека.
Средненькие люди, давайте будем откровенны, вообще мало кому нужны
Не знаю никого, кто бы сразу родился звездой программирования. Все когда-то были такими средненькими людьми. В моём представлении, если человек нашёл этот пост, он именно таким и является.
Быстрее чем за месяц можно получить достаточно знаний, чтобы попасть на стажировку хоть куда-нибудь
В вашем исходном комментарии об этом ни слова.
Дышите спокойнее, прошу Вас, никто Вам тут ничего не должен
Безусловно. Однако, Ваш совет для целевой аудитории данного поста без дальнейшего пояснения бесполезен, на что я и обратил внимание.
Бросьте, все эти ядерные методы не требуют ни капли функционального анализа. Представить себе бесконечномерное векторное пространство со скалярным произведением можно, зная лишь конечномерную линейную алгебру.
С каких пор в джуниоры всех подряд берут? Топик адресован школьникам и абитуриентам — вряд ли кого-нибудь из них прямо сейчас возьмут на работу кроме как кофе носить.
Я не утверждаю, что обязательно сидеть в вузе 4-6 лет (более того, я считаю иначе), однако утверждать, что идти учиться на программиста школьнику нужно на работу, неправильно. Никому средний школьник не нужен. В любом случае придётся сперва чему-то научиться самому дома, а потом уже подаваться в те же джуниоры. И вот такой совет, имхо, и должен был быть написан в комментарии R0ckwi11
Машинное обучение — понятие растяжимое. Есть исследовательская составляющая, куда, вообще говоря, без PhD не войти, а есть прикладная. В последней обширных теоретических знаний не требуется, а больше важен сам процесс: достать данные, принести их в другое место, почистить (заполнить пропуски, например), обучить модельку и интегрировать с остальным кодом.
Да и модели там зачастую простые и стандартные. Какая-нибудь логистическая регрессия, например. И я бы сказал, что в этом случае машинное обучение есть лишь инструмент в руках человека, занимающегося Data Science.
Как правило, компаниям не нужен Machine Learning специалист, им нужен Data Scientist — тот, кто извлечёт смысл из данных, а не будет целыми днями крутить формулы так и сяк ради выигрыша в пятом знаке точности ценой двукратного роста затрачиваемого времени. Позволить себе Machine Learning отдел (например, FAIR или DeepMind) могут большие компании, которые могут инвестировать в research.
Как часто средний выпускник специальности «математическое обеспечение и администрирование информационных систем» будет ковыряться в малопонятных статьях? Мне кажется, Вы путаете разработчика и «исследователя».
Не вижу проблемы в том, чтобы разобраться в чём угодно, имея на руках учебник, сборник задач и доступ к интернету.
Там нейросети используются для решения PDE, а не дифуры возникают в процессе обучения нейросетей.
Я верю в то, что при желании хоть спиновые стёкла из статистической физики или алгебраическую геометрию можно приплести к изучению этой области, но это же research, а не то, что каждый должен знать.
образование должно формировать кругозор человека, а не ограничиваться только развитием полезных для работодателя навыков
Это всё здорово, вот только ограниченность ресурсов (время, деньги) никак не учитывает. У студента конечное количество времени, которое он(а) хочет тратить не только на обучение, но и на другие приятные занятия вроде еды и развлечений. У университета, в свою очередь, конечное количество денег, которое можно потратить на зарплаты преподавателям.
Было бы здорово дать студенту не только полезных навыков, но и сформировать его / её кругозор, рассказав хотя бы одну пятую программы Вербицкого, а ещё всю современную физику, химию, историю, литературу, право, экономику. Вот только зачем? На это уйдёт уйма времени с незначительным выхлопом.
А работодатели хотят сферического выпускника школы в вакууме обучать, тратя на него уйму денег? Кажется, перед работой в любом случае придётся немало поучиться где-нибудь в другом месте.
Мало потому что неясно, с какой позиции и на каких основаниях вы делаете такие утверждения. Может, вам булочки в местном кафе не понравились.
Не говоря уже о том, что глупо предполагать стационарность, пусть даже когда речь идёт о такой неповоротливой штуке как российская система образования. Ваш опыт, полученный, допустим, 5 лет тому назад может оказаться совершенно нерелевантен реалиям сегодняшнего дня.
Что? Где в backprop'е какие-нибудь дифуры? Обычный chain rule с первого курса.
Я не утверждал, что знание непрерывной математики не нужно, тред начался с 2 конкретных предметов. Функциональный анализ, например, изучает бесконечномерные функциональные пространства — на произвольный вектор у нас даже памяти не хватит.
Картинки — те же сигналы, только не во временном домене, а в пространственном. Мне кажется, что Фурье-теорию можно изучить и без обобщенных функций, Соболевских пространств, уравнений Фредгольма или решений задачи Дирихле для уравнения Пуассона.
В алгоритмах, которые лежат в основе этой и подобных работ очень много разных параметров. Например, способ инициализации начального приближения (границы для равномерного распределения или среднее и отклонение для нормального) или даже seed генератора псевдослучайных чисел. Путём варьирования этих параметров можно улучшить качество алгоритма (уменьшить ошибку), однако стоит быть осторожным, ведь уменьшение ошибки не влечёт низкую ошибку на новых данных: действительно, всегда можно просто запомнить ответы для данных, для которых ответ известен, и выдавать его, а на остальных данных выдавать что-нибудь произвольное. Ура — ошибка стала нулевой, но, очевидно, для практических целей такой алгоритм не очень годится (по крайней мере в задачах компьютерного зрения).
К сожалению, данных для тестирования всегда конечное число, а нам хотелось бы, чтобы алгоритм хорошо работал на бесконечном множестве «таких же» данных (генеральной совокупности). Поэтому, чтобы не обмануть самих себя, не следует подбирать параметры на тестовых данных. Для того, чтобы исследователи не использовали систему оценки ImageNet как «оракул», выдающий качество модели, для оптимизации, было введено ограничение на количество запросов (в неделю, кажется). Ребята из Baidu же завели несколько аккаунтов и обошли это ограничение.
Нейросети в их описании замечены не были, но в конце они говорят
We use Caffe features [17], which are deep image representations obtained at layer fc7 of a convolutional neural network, for all LME baselines and our variants.
Что может означать, что они таки используют глубокие сети для извлечения признаков из картинок.
Koller09 – Probabilistic Graphical Models: Principles and Techniques
Bishop06 – Pattern Recognition and Machine Learning
Bengio14 – не совсем верно, т.к. книга ещё не вышла, но (пока ещё) можно почитать черновик.
В вашем исходном комментарии об этом ни слова.
Безусловно. Однако, Ваш совет для целевой аудитории данного поста без дальнейшего пояснения бесполезен, на что я и обратил внимание.
Я не утверждаю, что обязательно сидеть в вузе 4-6 лет (более того, я считаю иначе), однако утверждать, что идти учиться на программиста школьнику нужно на работу, неправильно. Никому средний школьник не нужен. В любом случае придётся сперва чему-то научиться самому дома, а потом уже подаваться в те же джуниоры. И вот такой совет, имхо, и должен был быть написан в комментарии R0ckwi11
Да и модели там зачастую простые и стандартные. Какая-нибудь логистическая регрессия, например. И я бы сказал, что в этом случае машинное обучение есть лишь инструмент в руках человека, занимающегося Data Science.
Как правило, компаниям не нужен Machine Learning специалист, им нужен Data Scientist — тот, кто извлечёт смысл из данных, а не будет целыми днями крутить формулы так и сяк ради выигрыша в пятом знаке точности ценой двукратного роста затрачиваемого времени. Позволить себе Machine Learning отдел (например, FAIR или DeepMind) могут большие компании, которые могут инвестировать в research.
Тем не менее, где там и для чего использовать уравнения в частных производных или бесконечномерные функциональные пространства?
Не вижу проблемы в том, чтобы разобраться в чём угодно, имея на руках учебник, сборник задач и доступ к интернету.
Я верю в то, что при желании хоть спиновые стёкла из статистической физики или алгебраическую геометрию можно приплести к изучению этой области, но это же research, а не то, что каждый должен знать.
Это всё здорово, вот только ограниченность ресурсов (время, деньги) никак не учитывает. У студента конечное количество времени, которое он(а) хочет тратить не только на обучение, но и на другие приятные занятия вроде еды и развлечений. У университета, в свою очередь, конечное количество денег, которое можно потратить на зарплаты преподавателям.
Было бы здорово дать студенту не только полезных навыков, но и сформировать его / её кругозор, рассказав хотя бы одну пятую программы Вербицкого, а ещё всю современную физику, химию, историю, литературу, право, экономику. Вот только зачем? На это уйдёт уйма времени с незначительным выхлопом.
Не говоря уже о том, что глупо предполагать стационарность, пусть даже когда речь идёт о такой неповоротливой штуке как российская система образования. Ваш опыт, полученный, допустим, 5 лет тому назад может оказаться совершенно нерелевантен реалиям сегодняшнего дня.
Я не утверждал, что знание непрерывной математики не нужно, тред начался с 2 конкретных предметов. Функциональный анализ, например, изучает бесконечномерные функциональные пространства — на произвольный вектор у нас даже памяти не хватит.
Картинки — те же сигналы, только не во временном домене, а в пространственном. Мне кажется, что Фурье-теорию можно изучить и без обобщенных функций, Соболевских пространств, уравнений Фредгольма или решений задачи Дирихле для уравнения Пуассона.
К сожалению, данных для тестирования всегда конечное число, а нам хотелось бы, чтобы алгоритм хорошо работал на бесконечном множестве «таких же» данных (генеральной совокупности). Поэтому, чтобы не обмануть самих себя, не следует подбирать параметры на тестовых данных. Для того, чтобы исследователи не использовали систему оценки ImageNet как «оракул», выдающий качество модели, для оптимизации, было введено ограничение на количество запросов (в неделю, кажется). Ребята из Baidu же завели несколько аккаунтов и обошли это ограничение.
Нейросети в их описании замечены не были, но в конце они говорят Что может означать, что они таки используют глубокие сети для извлечения признаков из картинок.