Pull to refresh
20
0
Dmytro Panchenko @roryorangepants

Senior ML Engineer

Send message
Все упирается в задачу распознавания дороги, она технически гораздо сложнее, чем принятие решений на основе нейросети и зависит от условий.

На самом деле, нет.
Если у вас была приличная база неразмеченных картинок, то разметить пару десятков кадров, а потом обучить Unet с псевдолейблингом до приемлемой точности — это решаемая задача.
Хаб «Машинное обучение» пропустили
правда про MXNet

Я уже кидал распределение использования фреймворков, да?

примеры на julia и scala вроде

Почему-то не вижу Java в этом предложении.

Я пока склоняюсь к «почитать теорию в любой из книг про tensorflow» и потом по tutorial-ам deeplearning4j (там и жаба и скала и интеграция с остальным жабохозяйством хорошая)

Так флаг вам в руки. Никто не мешает делать DL на Java. Просто пройти тот же путь на Python было бы быстрее и проще.
Вопрос можно переформулировать: почему книги про ML ориентированы не на квалифицированных ынтерпрайз кодеров (где жаба безусловный стандарт), а на околокомпьютерный сброд (студенты, менеджеры и прочие не осилившие компилятор и нормальную IDE)?

Переформулирую: книги по ML ориентированы не на галерный ынтерпрайз сброд (где Java — безусловно один из стандартных языков), а на математиков и алгоритмистов, понимающих, что язык надо выбирать под задачу.

То что жабка самый (либо топовый) универсальный язык (очень мало отстающий от плюсов по скорости.) это тоже аксиома.

Это не аксиома и это требует доказательства. Предоставить его, боюсь, будет трудновато.

Судя по их сайту, отлично. Но не проверял.

Я бы удивился, если бы хоть один фреймворк на сайте честно писал, мол, «да, ребят, у нас интерфейс не очень удобный, но вы держитесь».
Скорость у жабки в разы выше.

ML-фреймворки используют под капотом математику на C/C++/Fortran, а DL-фреймворки вообще с GPU работают, так что сравнение скорости Java vs Python тут не актуально.

Ну неправда же. :) У tensorflow есть java API хоть и нестабильное.

У вас в двух предложениях сразу же противоречие, только вы его не замечаете.

И про deeplearning4j я сразу написал. Судя по skymind.ai/wiki/comparison-frameworks-dl4j-tensorflow-pytorch они лучше всех :)

Во-первых, напрямую сравнения dl4j с TF+Keras / PyTorch там нет, только обзор этих фреймворков. Во-вторых, статистика использования на ресурсах, не топящих за JVM-based платформы, говорит другое.
Скажите, пожалуйста, почему ML == python?

Частично — потому что питон позволяет быстро писать код и легко манипулировать данными (во многом из-за динамической типизации), что ускоряет итерации по экспериментам.
Частично — эффект снежного кома: чем больше людей использует питон для ML, тем больше делается фреймворков для ML на питоне, и тем больше людей начинает учить ML на питоне.

И deeplearning4j вроде как местами лучше tensorflow и конкурентов.

Ох лол.
Вы, наверное, не особо работали с DL-фреймворками, да?
Если выражаться в терминах нейросетей, то у человека как раз таки гигантская обучающая выборка — мы видим тысячи кадров ежедневно, и всё это работает как мощный transfer learning.
Обычно когда я читаю фразу в духе «более хитрая нейросеть» в статье, где нет ни слова про технические детали, алгоритмы и архитектуры, мой мозг это автоматически трансформирует в фразу «градиентный бустинг».
Its going to be an amateur journeyman's adventure, a fight with The Windmill of Overfitting with the only tool the wanderer has — a bigger model (e.g. deep NN, remember, no manual feature engineering!)

It is more common to fight with overfitting by using simpler models, not bigger.
If you increase size of your model, you move from underfitting to overfitting on bias-variance curve.
Ну, возможно, потому что человек инвайт должен не за перевод получать, а за оригинальный контент?
в целом всё равно проигрывает полной реализации на одном Фортране.

Да не проигрывает же.

То есть всё таки собственно вычисления делают модули написанные совсем не на Питоне.

Само собой. Но ресерчер в результате пишет код на питоне и фортрана может не знать вообще.
Ну не на Питоне же с Джавой писать модели решающие системы дифуров.

Высокоуровневые вычисления неплохо писать как раз таки на Питоне, пользуясь библиотеками, написанными на C и том же Фортране.
Десктопные приложения? — У нас есть javafx, електрон, kivy и еще ряд других штук.

Перечислили технологии для десктопа и не назвали ни одной из .net-стека, что, мягко говоря, странно, если учесть, что это самый топовый стек для десктопной разработки под Windows, а Windows — самая популярная десктопная ОС.
не самой компании, а стороннего подрядчика;

С каких пор украинский офис Ring'а — это сторонний подрядчик?

не тренировочным датасетам, а видео живых пользователей;

Видео живых пользователей для этой задачи и являются тренировочным датасетом.

не части пользователей (скажем, тестеров), а вообще всех;

Сейчас бы датасет из тестеров собирать. У них там петабайты данных для обучения — такие объемы физически невозможно отснять с тестировщиков.

ролики не анонимны, а с привязкой ко всем персональным данным пользователей.

Вот, да, в этом реально критическая ошибка Ринга.
Ещё немного про оригинальную новость от Intercept, на которую ссылается статья.
A never-before-published image from an internal Ring document pulls back the veil of the company’s lofty security ambitions: Behind all the computer sophistication was a team of people drawing boxes around strangers, day in and day out, as they struggled to grant some semblance of human judgment to an algorithm.

У журналистов открылись глаза, что, оказывается, ЧТОБЫ УЧИТЬ АЛГОРИТМЫ, НАДО РАЗМЕТИТЬ ДАННЫЕ!11
Источник говорит, что к помощи украинских специалистов пришлось прибегнуть из-за слабости собственной системы машинного зрения Ring.

Как бы киевский офис как раз эту систему и разрабатывал последние пару лет

Потому что коммиты проблем можно привазывать к Issue и организованно работать над выявленными проблемами.

Коммиты удобно привязывать там, где один коммит фиксит один issue.
Если же у вас десяток проблем в одном issue, это уже неудобно. А если это не просто десять одинаковых предупреждений PVS, а десять разных, то совсем неудобно.
Судя по статье, всё было взято готовым с разных гитхабов, и соединено вместе, чтобы работало

Software engineering in 2018 in a nutshell.
Что тут такого?
Очень круто.
Думаю, многие компании имеют что-то подобное в качестве внутреннего инструмента (мне и самому приходилось писать утилиту такого плана для одного проекта), но обычно это так и остается в пределах компании.

Information

Rating
Does not participate
Location
Харьков, Харьковская обл., Украина
Registered
Activity