Как стать автором
Обновить
20
0
Dmytro Panchenko @roryorangepants

Senior ML Engineer

Отправить сообщение
а их в питоне нет

Они есть и так, просто неявно. А с static type checking, который активно пропагандируется в последних версиях питона типы есть и явно.
Плюс, если говорить об инфраструктуре numpy/pandas, например, то там ещё начинают играть роль сишные типы из numpy.
Все задачи, решаемые с помощью ML, относятся к одной из следующих категорий.

Как вам указали раньше, sequence2sequence, например, в вашу категоризацию не попадает. Как и не попадает большинство генеративных моделей или, к примеру, ранжирование.
При этом задача выявления аномалий зачастую конечной задачей как раз не является — она обычно формализуется через другие задачи.

качество вина при слепом тестировании

Такое удобно формализовать бинарной классификацией или ранкингом, а не регрессией.

Задача кластеризации – распределение данных на группы: разделение всех клиентов мобильного оператора по уровню платёжеспособности, отнесение космических объектов к той или иной категории (планета, звёзда, чёрная дыра и т. п.).

Описать кластеризацию и привести в качестве примера классификацию — это фиаско. Вам бы основы подучить перед написанием гайдов.

Различие лишь в том, что при обучении с учителем есть ряд гипотез, которые необходимо опровергнуть или подтвердить.

Откуда вы эту чушь взяли?

Основные алгоритмы моделей машинного обучения

За этот раздел вообще двойка. Вы мешаете в кучу модели (например, логрег) и алгоритмы построения моделей (МНК), пишете про деревья решений, но описываете не ML-алгоритм, а бизнес-метод с аналогичным названием, и даже не упоминаете про то, что отдельные деревья сейчас никто не использует (повсюду используют ансамбли).

Я уж не говорю про Naive Bayes, который вы явно вытащили из какого-то туториала для начинающих, потому что если бы вы были практикующим ML-инженером, вы бы понимали, что его никто не использует в реальности для упомянутых вами определения спама, рубрикации и тем более распознавания лиц. То же самое касается SVM. Учите матчасть, прежде чем пытаться учить других.

Кластеризировать объекты можно по разным алгоритмам. Чаще всего используют следующие:

… И дальше идет список из случайных бессвязных слов, часть из которых — надмозговой перевод реальных алгоритмов, а часть родилась на задворках сознания автора.

Последний раздел читать не стал, пожалел свою психику. Не пишите, пожалуйста, ничего больше, пока сами не поработаете в ML хотя бы годика два.
Во-первых, mxnet — в целом не самый лучший фреймворк.
Во-вторых, два года назад и на питоне многие deep learning фреймворки чувствовали себя не самым лучшим образом. TF был крайне нестабильным. Второй Keras вообще только вышел в основную ветке.
В-третьих, переадресую вам тот же вопрос, что и предыдущему комментатору: «Разумеется, мы сейчас говорим об инференсе сетей, правда?»
Нет, в коде теста загружается ImageNet претрейн.
Ну это ещё не так плохо. Вы backward pass сделайте, там всё наверняка будет ещё хуже (не говоря уже о повторении этого бенчмарка на какой-нибудь машине с Threadripper + 2x1080ti, например, где заиграют такие вещи, как I/O, распараллеливание на несколько карточек и т.п.).
по-русски можете говорить?

Я и говорю. Это общепринятая терминология, которую используют, например, такие лидеры индустрии, как Nvidia.

поздравляю

Ваш сарказм неуместен. Я же серьёзно пишу, что есть фреймворки глубокого обучения отлично работают на плюсах.

Да откуда вы это взяли?
Я использую нейросети на плюсах в ежедневной работе и нормально себя чувствую.
Разумеется, мы сейчас говорим об инференсе сетей, правда? Потому что если вы хотите обучать сети на плюсах, то вам стоит пересмотреть свои взгляды на мир.

Это уже третий или четвертый раз, когда я читаю статью Отуса в хабе «Машинное обучение», и в ней, разумеется, нет ни слова про машинное обучение. И перевод как обычно не очень хороший.
Это уже вторая ваша статья по QA, которая почему-то помечена хабом «Машинное обучение».
Что касается замечания по переводу, вот тут как раз не гугл транслейт, а скорее «художественный» перевод с сохранением смысла. Гугл транслейт выглядит так: «Он ограничен бэкэндами Tensorflow, CNTK и Theano.

Вы не поверите, но здесь перевод от гугла как раз сохраняет смысл, потому что имеется в виду, что Керас ограничен своими бекендами, которыми могут быть TF, Theano или CNTK.
Конечно же, эксперты назвали множество ее плюсов:

  • Она проигрывает по скорости работы в эталонных тестах, в сравнении с CNTK и MXNet, например;
  • Она имеет более высокий входной порог для начинающих, чем PyTorch или Keras. Голая Tensorflow достаточно низкоуровневая и требует много шаблонного кода, и режим «определить и запустить» для Tensorflow значительно усложняет процесс дебага.


Во-первых, это не плюсы. Во-вторых, можно пруф для первого?

Он еще не готов для полноценного выхода в продакшн, однако дорожная карта к версии 1.0 выглядят действительно впечатляюще;

Дорожная карта *фейспалм* Он уже давно вышел в версии 1.0 и к выводу в продакшен вроде как готов.

Вынужден находиться на задворках TensorFlow, CNTK и Theano.

It is constrained to Tensorflow, CNTK, and Theano backends.

В очередной раз Отус «радует» гугл транслейтным переводом.

Да и в целом, в статье много сомнительных сравнений. Например, в плюсах PyTorch написан репозиторий предобученных моделей? Так он есть и для TF/Keras. В плюсах Keras написана поддержка GPU? Так она у всех есть.
Кейсы использования фреймворков также взяты из головы — все они используются для любых DL задач.
Есть конкурсы и с реальными задачами. Например, в Human Protein Atlas был отдельный призовой трек для «быстрого» решения в продакшен.
Конкретно у того, может, 1.43. Я не знаю, какой конкретно кернел был тогда топовым, к сожалению.
Но вот, например, паблик кернел на топ-21.
Там явный оверфиттинг

Ну, там тоже плохая валидация, само собой, но ничем не хуже, чем у автора статьи. А по результатам текущего ЛБ куда лучше даже.
Вероятно, перекрестная валидация не очень подходит, так как поведение рынка сильно отличается на ранних этапах тренировочных данных и на оценочном периоде.

Почитайте что ли про time series cross-validation.

а также заменив метрику на ROC AUC

Если вы говорите не про таргет для оптимизации, а просто про метрику, по которой вы отбирали модель, то, что ROC AUC у вас лучше коррелировал с ЛБ, скорее всего означает, что у вас была неудачная валидация.

Таким образом, для этой задачи тонкая настройка не очень подходит, так как приводит к переобучению модели.

Или, опять таки, вы плохо сделали валидацию.
Ну, хотя настраивать сеть hyperopt-ом — это и правда в целом не лучшее решение, наверное.

Конкурс оказался сложным, но мы смогли не ударить в грязь лицом.

максимальный score публичного решения так же ~0.69, чуть больше моего.

Пардон, но если у вас скор ниже лучшего паблик кернела, я бы не называл это «удалось не ударить в грязь лицом».
Исследователи разработали архитектуру плотной нейронной сети (dense neural network, DNN)

Я понял, что сверточные нейронные сети очень гибкие

Когда уже гиктаймовские научпоп-статьи из хаба «Искусственный интеллект» перестанут постить в хаб «Машинное обучение», куда люди заходят про алгоритмы почитать?
Работает отлично, только учить надо не под BCE, а под смесь Focal + Dice, например, или под что-то подобное.
Вы не поверите. Self-driving cars — это тот домен, который крайне активно драйвит развитие сегментации (особенно в контексте видео).
1. Берем игрушечный датасет (почему-то потом обобщаем это на реальные задачи)
2. Генерируем ошибки разметки так, чтобы они были максимально не похожи на бОльшую часть разметки
3. Показываем, что сеть ошибается на этих картинках чаще

Ты чёртов гений, рядовой Гамп!

А если серьезно, то ценность статьи околонулевая. Абсолютно очевидное утверждение проверяется на совершенно искусственной задаче, после чего делаются далекоидущие выводы, и всё это подаётся как невероятное откровение и чуть ли не открытие автора.

Поливаем водой типа этой:
Если в каком то придуманном мире истина всегда четырёхугольная, а ложь овальная и какая то неизвестная сущность решила исказить правду и назвала некоторые эллипсы истиной, а четырёхугольники ложью, то, воспользовавшись искусственным интеллектом и природным умением составлять шпаргалки, местная инквизиция быстро и легко найдёт и искоренит ложь и коварство полностью и подчистую.

Готово, мы получили мусорную статью.
Под сегментацией «они» подразумевают то, что называется задачей семантической сегментации.
Удивительно, что вы пишете про автономную езду, не зная про стандартные виды задач CV, которые повсеместно используются в этом домене.

Информация

В рейтинге
Не участвует
Откуда
Харьков, Харьковская обл., Украина
Зарегистрирован
Активность