Как стать автором
Обновить
150
0
Vladimir Iglovikov @ternaus

CEO

Отправить сообщение

Нормальный там бакалвариат, но сильные вузы США с точки зрения бакалавриата не выше МГУ, МФТИ и прочих сильных Российских вузов. Особенно если говорить про физику, математику.


Поэтому учится в бакалавриате в хорошем вузе в России на бюджете, а в аспирантуре в хорошем американском вузе за счет принимающей стороны — это с финансовой и прочих точек зрения рабочий вариант. Более симпатичный, нежели за свой счет в бакалавриате в США.


Аспирантура в США и правда хороша, мне понравилось. Хотя, конечно, там тоже непаханное поле неэффективностей и простора для улучшений.


В Российской не учился, не знаю. Но сама идея хорошо двигать науку и в это же время зарабатывать деньги — выглядит малореалистично. Это была одна из причин почему мой выбор пал на американскую.

Я бы делал чуть по-другому.


Учиться в бакалавриате в США не очень понятно зачем. Сложно поступить без оплаты. Если же поступать с оплатой из своего кармана, то дорого. При этом по качеству обучения бакалвриат в США — так себе. А вот аспирантура впереди планеты всей.


Так что если было бы желание заниматься наукой, то поступать надо было бы в американскую аспирантуру, причем делать, начиная со 2 курса бакалавриата. Магистрский диплом не дает никаких преимуществ при поступлении в аспирантру, так что идти в Беларуси туда не надо было бы. И заниматься экзменами TOEFL, GRE + всеми этими essey нужно было бы на 2-3 курсе бакалавриата.


Во время обучения в бакалавриате я бы подавал бы на стажировки в различные компании Google, Facebook и т.п.


Это и деньги и знания и строчки в резюме.


Rebryk как раз на днях выпустил интервью Вике Бородиной о своих интернатурах. На фоне того, что он рассказывает, и тех дверях, что это открывает бакалавриат в США выглядит блекло.


https://www.youtube.com/watch?v=WNhHDgfnb9o

Так и есть. Но вот мои одногруппники, которые привыкли жить на $25k в год в аспирантуре считали за счастье, когда им предлагали $40-60, или же были эпизоды, когда они озвучивали $100k, а работодатель им в ответ: "Ну у тебя же опыта работы нет, поэтому мы тебе будем платить вот столько-то, зато дадим laptop и ты у нас многому научишься и вообще наша контора не такая как все" и они на это покупались.


Но у них у всех было общее, что наглости было маловато, и то, что они не желали сутками учиться, закрывая дыры в знаниях, а хотели как-то чтобы их наняли исключительно с тем, что у них было после окончания вуза.

Наброшу, как человек с зашкаливающим ЧСВ.


Сразу после выпуска с универа по специальности физика, то есть имея 0 лет стажа, начал искать работу в Data Science. Вакансии с окладом меньше $10,000 грязными в месяц я не рассматривал, ибо не смешно.


Как ни странно, работу я нашел, правда на галере, и даже текст на эту тему написал на хабр.


Одногруппники, которые искали похожего типа позиции так сильно борзометр подручивать не стали и рассматривали гораздо менее высокооплачиваемые позиции, которые они и получили в итоге.


Это я к тому, что дерзость и прочее ЧСВ это не всегда плохо, а скорее даже хорошо, ибо рынок все выровняет и кому-то прийдется поднимать зарплаты работникам, а кому-то понижать свои зарплатные ожидания до адекватного уровня и начинать активно заниматься самообучением.


Через 8 месяцев я поменял работу, во-первых, потому что работать на галерах — это не мое, а во-вторых, потому что выяснилось, что $10,000 грязными в месяц — это сильно ниже рынка для моего набора навыков. Не последнюю роль сыграло то, что контора использовала MatLab, что среди Data Science в 99% случаев будет рассматриваться, как устаревшая технология, а очень хотелось качать скилы в чем-то более модном, молодежном, эффективном и востребованном.


Но в целом, этот комментарий, конечно, наброс, потому что у меня дело происходило в Кремниевой долине, а тут своя специфика.

А какие есть школы в США такого же уровня по смежной тематике?

Я думаю, что 11 классники с физмат школ по уровню математики потянут. За все школы не скажу, но то, что нам давали в ФМЛ 239 должно хватить и на курс и на то, чтобы в топ Kaggle уйти.

Крест ставить ни в коем случае не надо! Дорогу осилит идущий.


Каждое свое публичное выступление я затачиваю под какое-то послание. Когда лекции в универе читал мне хотелось, чтобы мои студенты мало того, чтобы поняли и запомнили ту физику, что я им рассказываю, так еще и поняли, что физика, да и наука вообще — это круто и интересно.


Когда я выступаю перед англоязычной аудиторией я стараюсь рассказывать больше по технической части, это приводит к расширению сети знакомых, которым эта тема интересна, ну и работу, конечно, чуть проще искать, если светишь лицом среди правильной аудитории и говоришь по делу.


Данное же вступление в Yandex имело своей целью убедить аудиторию, что в весь этот ML / DL порог вхождения гораздо ниже, чем может показаться после прочтения всех тех блог постов в которых маректологи жонглируют красивыми словами про искусственный интеллект.


Так вот, в DL мало железа не бывают, и, чтобы быстро итерировать, а это необходимое условие, для ухода в топ, наверно, лучше что-то помощнее.


Но если стоит вопрос:"Как начать решать задачи в DL?", то 960M — это нормально.


И не надо забывать про всяческие программы и бонусы, которые иногда падают от Google Cloud и AWS.


А если есть немного лишних денег, то за 99 евро на Hetzner можно арендовать машину c GTX 1080.


P.S. Послание, кстати, зашло. После того выступления Александр Буслаев решил попробовать соревнования по компьютерному зрению и за прошедшие два месяца достиг очень впечатляющих результатов. Так что, как минимум одного человека я убедил.

Пару недель назад у меня таки дошли руки написать более развернутую, при этом менее техническую, версию событий связанных с этой задачей, но с политотой и байками: "Британские спутниковые снимки 2: как все было на самом деле"

Я и сам толком не знаю. Единственная задча с которой я сталкивался для плотно упакованных объектов — это задача про подсчет морских котиков, а в июне я как раз в отпуске в Питере был, так что на задачу смотрел по диагонали и обчитаться литературой на эту тему не успел.


Можно попробовать посмотреть выступление Кости Лопухина в Yandex, он рассказывает про свой подход и упоминает решения других участников.


Или, более фундаментальный вариант — присоединится к слаку ods.ai и спросить в профильном канале #deep_learning, наверняка кто-то по работе или по науке с этим сталкивался.

  • Количество эпох.
  • Другая реализация. В Faster RCNN море параметров. Такое ощущение, что в реализации от MXNet все мелкие детали лучше выверены.

Но прямого сравнения я не делал, возможно, при правильной тренировке и одинаковых параметрах обе реализации показали бы одинаковую точность.


На последней задаче которую я решал, попробовал PyTorch. Пока очень нравится. Порог вхождения чуть выше, чем в Keras, но внятная документация, удобно осуществляется Data Parallelization, удобно сделан batch generator, сильно подкупает. Очень всем рекомендую.

Спасибо. Меня это действительно искренне радует.

Спасибо. Поправил.

Немного офтопик, но вчера наша команда взяла седьмое место в задаче Planet: Understanding the Amazon from Space


Там как раз спутниковые снимки. На тему нашего решения тоже будет блог пост, правда не сейчас, а чуть позже. Другое дело, что там не было никакой драмы, а было много нейронных сетей, которые склеили в ансамбль. Так что текст будет технический.

Когда я думал над названием, была мысль не называть снимки спутниковыми, но с одной стороны cтатья позиционируется как нетехническая, а с другой, очень хотелось не потерять связь с первой частью, в которой как раз спутниковые снимки и были.


Но это дейтствительно аэрофотосъемка. Удивительно, что вы первый, кто указал на эту неточность.

Можно было делать valid. Про размазывание crop2d с кропом в один пиксель после конволюций c same — это я спросоня написал :)


Но valid неудобно именно по соображениям, что написал Костя — надо думать про размеры, что замедляет скорость итераций.


Очень хотелось проверить, что будет на краях, если вместо same использовать reflection padding и как это скажется на краевых эффектах, но руки не дошли.

Я пробовал делать так, как описано в оригинальной статье, где они начинают с 512x512 и добавляют crop2d после каждого конволюционного блока и на выходе получают 388x388.


В чем логика выбора размера кропа я не разбилася, но кропают они там очень агрессивно.


И, так делать не надо. Работает плохо. Все более поздние работы, которые основаны на этой архитектуре поступают по другому. Более адекватный и менее ресурсоемкий вариант — забить, как Марко и сделал по ссылке, которую вы указали. А предсказывать с перехлестом, который позволяют вычислительные ресурсы.


Наверное можно, размазать наш crop2d на 16 пикселей на весь encoding block (16 crop2d, которые кропают по одному пикселю), но было лень. Хотя в следующий раз я, возможно, озадачусь. Это позволит слегка уменьшить число вычислений.


Хотя вычислять все-таки можно. Например, на картинке которую вы указали используется 5x5 conv, то есть 2 пикселя по краям после этой свертки убиваются и их можно кропнуть.


При написании этого поста, мне было лень рисовать нашу сеть, но при подготове текста на Kaggle cepera_ang все-таки ее изобразил. То, что мы по фaкту использовали, выглядит так:


image

Когда мы добиваем нулями по краям края плывут. Тут можно говорить про то, что они меняют распределение. (Где-то мне попадалось Andrew Karpathy на эту тему переживал)


Интуитивно, если использовать свертки 3x3 — то каждый раз, один краевой пиксель портится => 16 сверток => 16 пикселей пролетает. Этой логикой мы и руководствовались. При напсиании поста на kaggle хотелось добавить структуры к повествованию, так что мы сделали то, до чего руки не доходили раньше — мы замерили это все и получилось вот так:


image


То есть да, 16 пикселей по краям — беда.


Была идея применить reflection padding, вместо ZeroPadding, тем более, что он есть в Tensorflow, но опять же руки не дошли.


На тему пикселей и receptive field => нам попадались статья, где как раз исследовалось, как точность убывает к краям. Там было много красивых слов, но по факту они просто замерили для какой-то архитектуры сети на каких-то данных, построили графики и этого хватило на статью.


Списывать падение точности предсказания к краям только на zeropadding будет не правильно. Банально число путей добраться из любого пикселя на входе в любой пиксель на выходе как раз и будет функцией от того, как далеко этот выходной пиксель на выходе. Под это дело можно придумать много математики и написать что эта функция ни что иное как гауссиана, или еще что-нибудь.


Но на практике достаточно прогнать сеть, посмотреть как точность на train убывает к краям и эти края перехлестывать или обрезать. Или и то и другое. Теории, лучше чем подсчитать число padded pixels на всем пути нет.


Как усреднять перехлест — я бы делал через геометрическое среднее, на практике, обычно, хоть и не всегда, это работает лучше, чем арифметическое. Хотя тут можно много чего накрутить.

Kaggle — это не все, и даже и не рядом. Но это очень много. И с грамотным наставником или в сильном коллективе все это идет гораздо лучше — это факт.


Про менторство понятно, у тебя в описании профиля написано. А вот в разрезе соревновательного машинного обучения. Не мог бы ты поделиться ссылкой на свой Kaggle profile?


Вот если сейчас выяснится, что ты сам крут неимоверно на соревнованиях и рассуждаешь, обладая знаниями по ML, собранными и на работе, и в академической среде, и на соревнованиях — я думаю, что всем это будет очень интересно обсудить.


Вот пока, с дивана, эта твоя реплика выглядит как:"Пастернака не читал, но осуждаю", что очень печально, тем более, что ты кого-то чему-то за деньги учишь.

Классная статья, жаль не могу второй плюс поставить.


Но есть вопрос: VW силен тем, что может быстро и может online, что позволяет рыботать на больших объемах данных.


А вот если таких ограничений нет? И данных не так много — пара десятков миллионов записей и online обучение не требуется, какие есть альтернативы к VW, которые могут показать большую точность на том же типа данных?


Банально, те же отзывы IMDB, точно так же почищенные данные, но вместо VW, использовать Tf-Idf + logistic regression, как соотносится точность модели?

Информация

В рейтинге
Не участвует
Откуда
San Francisco, California, США
Зарегистрирован
Активность