All streams
Search
Write a publication
Pull to refresh
151
0
Vladimir Iglovikov @ternaus

CEO

Send message

Нормальный там бакалвариат, но сильные вузы США с точки зрения бакалавриата не выше МГУ, МФТИ и прочих сильных Российских вузов. Особенно если говорить про физику, математику.


Поэтому учится в бакалавриате в хорошем вузе в России на бюджете, а в аспирантуре в хорошем американском вузе за счет принимающей стороны — это с финансовой и прочих точек зрения рабочий вариант. Более симпатичный, нежели за свой счет в бакалавриате в США.


Аспирантура в США и правда хороша, мне понравилось. Хотя, конечно, там тоже непаханное поле неэффективностей и простора для улучшений.


В Российской не учился, не знаю. Но сама идея хорошо двигать науку и в это же время зарабатывать деньги — выглядит малореалистично. Это была одна из причин почему мой выбор пал на американскую.

Я бы делал чуть по-другому.


Учиться в бакалавриате в США не очень понятно зачем. Сложно поступить без оплаты. Если же поступать с оплатой из своего кармана, то дорого. При этом по качеству обучения бакалвриат в США — так себе. А вот аспирантура впереди планеты всей.


Так что если было бы желание заниматься наукой, то поступать надо было бы в американскую аспирантуру, причем делать, начиная со 2 курса бакалавриата. Магистрский диплом не дает никаких преимуществ при поступлении в аспирантру, так что идти в Беларуси туда не надо было бы. И заниматься экзменами TOEFL, GRE + всеми этими essey нужно было бы на 2-3 курсе бакалавриата.


Во время обучения в бакалавриате я бы подавал бы на стажировки в различные компании Google, Facebook и т.п.


Это и деньги и знания и строчки в резюме.


Rebryk как раз на днях выпустил интервью Вике Бородиной о своих интернатурах. На фоне того, что он рассказывает, и тех дверях, что это открывает бакалавриат в США выглядит блекло.


https://www.youtube.com/watch?v=WNhHDgfnb9o

Так и есть. Но вот мои одногруппники, которые привыкли жить на $25k в год в аспирантуре считали за счастье, когда им предлагали $40-60, или же были эпизоды, когда они озвучивали $100k, а работодатель им в ответ: "Ну у тебя же опыта работы нет, поэтому мы тебе будем платить вот столько-то, зато дадим laptop и ты у нас многому научишься и вообще наша контора не такая как все" и они на это покупались.


Но у них у всех было общее, что наглости было маловато, и то, что они не желали сутками учиться, закрывая дыры в знаниях, а хотели как-то чтобы их наняли исключительно с тем, что у них было после окончания вуза.

Наброшу, как человек с зашкаливающим ЧСВ.


Сразу после выпуска с универа по специальности физика, то есть имея 0 лет стажа, начал искать работу в Data Science. Вакансии с окладом меньше $10,000 грязными в месяц я не рассматривал, ибо не смешно.


Как ни странно, работу я нашел, правда на галере, и даже текст на эту тему написал на хабр.


Одногруппники, которые искали похожего типа позиции так сильно борзометр подручивать не стали и рассматривали гораздо менее высокооплачиваемые позиции, которые они и получили в итоге.


Это я к тому, что дерзость и прочее ЧСВ это не всегда плохо, а скорее даже хорошо, ибо рынок все выровняет и кому-то прийдется поднимать зарплаты работникам, а кому-то понижать свои зарплатные ожидания до адекватного уровня и начинать активно заниматься самообучением.


Через 8 месяцев я поменял работу, во-первых, потому что работать на галерах — это не мое, а во-вторых, потому что выяснилось, что $10,000 грязными в месяц — это сильно ниже рынка для моего набора навыков. Не последнюю роль сыграло то, что контора использовала MatLab, что среди Data Science в 99% случаев будет рассматриваться, как устаревшая технология, а очень хотелось качать скилы в чем-то более модном, молодежном, эффективном и востребованном.


Но в целом, этот комментарий, конечно, наброс, потому что у меня дело происходило в Кремниевой долине, а тут своя специфика.

А какие есть школы в США такого же уровня по смежной тематике?

Я думаю, что 11 классники с физмат школ по уровню математики потянут. За все школы не скажу, но то, что нам давали в ФМЛ 239 должно хватить и на курс и на то, чтобы в топ Kaggle уйти.

Крест ставить ни в коем случае не надо! Дорогу осилит идущий.


Каждое свое публичное выступление я затачиваю под какое-то послание. Когда лекции в универе читал мне хотелось, чтобы мои студенты мало того, чтобы поняли и запомнили ту физику, что я им рассказываю, так еще и поняли, что физика, да и наука вообще — это круто и интересно.


Когда я выступаю перед англоязычной аудиторией я стараюсь рассказывать больше по технической части, это приводит к расширению сети знакомых, которым эта тема интересна, ну и работу, конечно, чуть проще искать, если светишь лицом среди правильной аудитории и говоришь по делу.


Данное же вступление в Yandex имело своей целью убедить аудиторию, что в весь этот ML / DL порог вхождения гораздо ниже, чем может показаться после прочтения всех тех блог постов в которых маректологи жонглируют красивыми словами про искусственный интеллект.


Так вот, в DL мало железа не бывают, и, чтобы быстро итерировать, а это необходимое условие, для ухода в топ, наверно, лучше что-то помощнее.


Но если стоит вопрос:"Как начать решать задачи в DL?", то 960M — это нормально.


И не надо забывать про всяческие программы и бонусы, которые иногда падают от Google Cloud и AWS.


А если есть немного лишних денег, то за 99 евро на Hetzner можно арендовать машину c GTX 1080.


P.S. Послание, кстати, зашло. После того выступления Александр Буслаев решил попробовать соревнования по компьютерному зрению и за прошедшие два месяца достиг очень впечатляющих результатов. Так что, как минимум одного человека я убедил.

Пару недель назад у меня таки дошли руки написать более развернутую, при этом менее техническую, версию событий связанных с этой задачей, но с политотой и байками: "Британские спутниковые снимки 2: как все было на самом деле"

Я и сам толком не знаю. Единственная задча с которой я сталкивался для плотно упакованных объектов — это задача про подсчет морских котиков, а в июне я как раз в отпуске в Питере был, так что на задачу смотрел по диагонали и обчитаться литературой на эту тему не успел.


Можно попробовать посмотреть выступление Кости Лопухина в Yandex, он рассказывает про свой подход и упоминает решения других участников.


Или, более фундаментальный вариант — присоединится к слаку ods.ai и спросить в профильном канале #deep_learning, наверняка кто-то по работе или по науке с этим сталкивался.

  • Количество эпох.
  • Другая реализация. В Faster RCNN море параметров. Такое ощущение, что в реализации от MXNet все мелкие детали лучше выверены.

Но прямого сравнения я не делал, возможно, при правильной тренировке и одинаковых параметрах обе реализации показали бы одинаковую точность.


На последней задаче которую я решал, попробовал PyTorch. Пока очень нравится. Порог вхождения чуть выше, чем в Keras, но внятная документация, удобно осуществляется Data Parallelization, удобно сделан batch generator, сильно подкупает. Очень всем рекомендую.

Спасибо. Меня это действительно искренне радует.

Немного офтопик, но вчера наша команда взяла седьмое место в задаче Planet: Understanding the Amazon from Space


Там как раз спутниковые снимки. На тему нашего решения тоже будет блог пост, правда не сейчас, а чуть позже. Другое дело, что там не было никакой драмы, а было много нейронных сетей, которые склеили в ансамбль. Так что текст будет технический.

Когда я думал над названием, была мысль не называть снимки спутниковыми, но с одной стороны cтатья позиционируется как нетехническая, а с другой, очень хотелось не потерять связь с первой частью, в которой как раз спутниковые снимки и были.


Но это дейтствительно аэрофотосъемка. Удивительно, что вы первый, кто указал на эту неточность.

Можно было делать valid. Про размазывание crop2d с кропом в один пиксель после конволюций c same — это я спросоня написал :)


Но valid неудобно именно по соображениям, что написал Костя — надо думать про размеры, что замедляет скорость итераций.


Очень хотелось проверить, что будет на краях, если вместо same использовать reflection padding и как это скажется на краевых эффектах, но руки не дошли.

Я пробовал делать так, как описано в оригинальной статье, где они начинают с 512x512 и добавляют crop2d после каждого конволюционного блока и на выходе получают 388x388.


В чем логика выбора размера кропа я не разбилася, но кропают они там очень агрессивно.


И, так делать не надо. Работает плохо. Все более поздние работы, которые основаны на этой архитектуре поступают по другому. Более адекватный и менее ресурсоемкий вариант — забить, как Марко и сделал по ссылке, которую вы указали. А предсказывать с перехлестом, который позволяют вычислительные ресурсы.


Наверное можно, размазать наш crop2d на 16 пикселей на весь encoding block (16 crop2d, которые кропают по одному пикселю), но было лень. Хотя в следующий раз я, возможно, озадачусь. Это позволит слегка уменьшить число вычислений.


Хотя вычислять все-таки можно. Например, на картинке которую вы указали используется 5x5 conv, то есть 2 пикселя по краям после этой свертки убиваются и их можно кропнуть.


При написании этого поста, мне было лень рисовать нашу сеть, но при подготове текста на Kaggle cepera_ang все-таки ее изобразил. То, что мы по фaкту использовали, выглядит так:


image

Когда мы добиваем нулями по краям края плывут. Тут можно говорить про то, что они меняют распределение. (Где-то мне попадалось Andrew Karpathy на эту тему переживал)


Интуитивно, если использовать свертки 3x3 — то каждый раз, один краевой пиксель портится => 16 сверток => 16 пикселей пролетает. Этой логикой мы и руководствовались. При напсиании поста на kaggle хотелось добавить структуры к повествованию, так что мы сделали то, до чего руки не доходили раньше — мы замерили это все и получилось вот так:


image


То есть да, 16 пикселей по краям — беда.


Была идея применить reflection padding, вместо ZeroPadding, тем более, что он есть в Tensorflow, но опять же руки не дошли.


На тему пикселей и receptive field => нам попадались статья, где как раз исследовалось, как точность убывает к краям. Там было много красивых слов, но по факту они просто замерили для какой-то архитектуры сети на каких-то данных, построили графики и этого хватило на статью.


Списывать падение точности предсказания к краям только на zeropadding будет не правильно. Банально число путей добраться из любого пикселя на входе в любой пиксель на выходе как раз и будет функцией от того, как далеко этот выходной пиксель на выходе. Под это дело можно придумать много математики и написать что эта функция ни что иное как гауссиана, или еще что-нибудь.


Но на практике достаточно прогнать сеть, посмотреть как точность на train убывает к краям и эти края перехлестывать или обрезать. Или и то и другое. Теории, лучше чем подсчитать число padded pixels на всем пути нет.


Как усреднять перехлест — я бы делал через геометрическое среднее, на практике, обычно, хоть и не всегда, это работает лучше, чем арифметическое. Хотя тут можно много чего накрутить.

Kaggle — это не все, и даже и не рядом. Но это очень много. И с грамотным наставником или в сильном коллективе все это идет гораздо лучше — это факт.


Про менторство понятно, у тебя в описании профиля написано. А вот в разрезе соревновательного машинного обучения. Не мог бы ты поделиться ссылкой на свой Kaggle profile?


Вот если сейчас выяснится, что ты сам крут неимоверно на соревнованиях и рассуждаешь, обладая знаниями по ML, собранными и на работе, и в академической среде, и на соревнованиях — я думаю, что всем это будет очень интересно обсудить.


Вот пока, с дивана, эта твоя реплика выглядит как:"Пастернака не читал, но осуждаю", что очень печально, тем более, что ты кого-то чему-то за деньги учишь.

Классная статья, жаль не могу второй плюс поставить.


Но есть вопрос: VW силен тем, что может быстро и может online, что позволяет рыботать на больших объемах данных.


А вот если таких ограничений нет? И данных не так много — пара десятков миллионов записей и online обучение не требуется, какие есть альтернативы к VW, которые могут показать большую точность на том же типа данных?


Банально, те же отзывы IMDB, точно так же почищенные данные, но вместо VW, использовать Tf-Idf + logistic regression, как соотносится точность модели?

Information

Rating
Does not participate
Location
San Francisco, California, США
Registered
Activity