Comments 42
Но тут как всегда «слишком много если». Есть ситуации когда такой трекинг может быть и проще… :) Например если камеры 3D и можно создать плотное поле. Мне кажется, что у Amazon Go примерно так и должно быть реализовано. Напихали 3d камер сверху с шагом полтора метра — и стабильный трекинг готов!
А можно на нормальном русском переписать или хотя бы в Word с проверкой перед отправкой засовывать?
</GN-offtopic>
Напоминаю, что минусование критики поднимает только собственное ЧСВ, а не грамотность.
Если ошибок и опечаток мало — лучше писать автору в личку.
Если ошибок и опечаток много и вы бы перечислили в своём посте эти косяки — вам наверное и плюсы бы ставили. Сейчас же ваш комментарий с критикой есть, но критика эта не предметная, неконструктивная, и как следствие — бесполезная. Информационный шум. Говоря вашими же словами, ваш комметарий "поднимает только собственное ЧСВ, а не грамотность".
А если я напишу автору: ну исправит он (возможно) в одной статье все (возможно) ошибки, но в остальных-то статьях ничего исправлять не станет.
А так я надеюсь, что пост прочитает неединичное множество будущих авторов и задумаются, что писателю статей надо быть подкованным не только в технической стороне, но и, как всякому писателю, в языке, на котором пишешь…
Так почему же заботу о глазах всех читателей Хабра надо называть поднятием собственного ЧСВ?
Хотя могли бы историю комментариев посмотреть и увидеть, что мне на неё чихать с высокой башни. А вот на русский язык не чихать.
Интересно, технические учебники от МинОбра вы написанными падонкоффским слэнгом видеть готовы? Для своих детей? Так-то наверняка тут многие на подобных статьях учились, пока учебников не было.
много тут народу, которые считают, что полезную техническую информацию© можно хоть падонкаффским езыком песадь, от неё не убудет.
Лично я так считаю. Язык для меня это способ обмениваться информацией, в данной статье я информацию понял.
У меня по поверхности плывут пузыри (их много), надо получить скорости этих пузырей вдоль нужных координат. Сейчас рассматриваем видео и дальше ручками, но хочется как-то автоматизировать.
www.quora.com/What-is-the-best-image-labeling-tool-for-object-detection
2) Обучить любую детекционную сетку. Например — YOLOv4 — github.com/AlexeyAB/darknet#how-to-train-to-detect-your-custom-objects
Или сетку попроще. В Tensorflow detection API много разных есть, тренируются они наверное попроще — towardsdatascience.com/custom-object-detection-using-tensorflow-from-scratch-e61da2e10087
3) Использовать мой пример который в конце статьи, где используется SORT. Он склеит детекции в треки
статья приятная, спасибо
Взять хотя бы что OpenCV инференс нейронок эффективнее чем на дефолтном TensorFlow или PyTorch.
И это не считая OpenVino.
Захват камер опять же. Простые подготовки/преобразоваия изображений.
И работает почти везде.
Года полтора назад всё хуже было. А сейчас если конвертится в ONNX — скорее всего заработает.
Нужно ли делать инференс на OpenVino? У нас есть задачи где так и делается. НО не уверен что это везде применимо.
На случай если нет железок, то у Интел есть DevCloud: https://devcloud.intel.com/edge/ (Xeon, Atom, Core, FPGA, VPU, HDDL).
Не совсем понял мысль. На то он и удаленный доступ к железу чтобы сделать измерения и сравнить производительность, стоимость, энергопотребление. Разработчику не приобретут всех конфигураций на руки потому что он выберет только одну в итоге. Тут — зашёл и замерил.
Трансформер всё же достаточно большой и нетривиальный. Подкатывать его ради минимального улучшение точности можно только если это какая-то уже хорошо вылизанная задача. Чтобы получить последние единицы точности. Его и прикрутить сложно. И обучить. И датасет должен быть огромным.
Я думаю что такие статьи уже появились, или вот-вот должны появиться. Но смысла использовать в продакшне такие эксперименты первое время точно не будет.
Мне кажется, что пока единственный удачный эксперимент в применении Transformer к картинкам был вот этот — arxiv.org/pdf/2005.12872.pdf (я даже по его поводу небольшую статью накатал — cv-blog.ru/?p=310 )
А Repulsion Loss (21 Nov 2017) / CVPR 2018 arxiv.org/abs/1711.07752v2 или Soft-IoU layer (CVPR 19) arxiv.org/abs/1904.00853v3 потом не пробовали для обнаружения в толпах?
Это ещё до появления этих статей.
И там и там сделали вполне рабочий бизнес прототип который позволял внедрить его в бизнес. В одной фирме, как я слышал, следующие года два вообще ничего не меняли, у них даже не было на поддержке специалистов по DL. Во второй активно развивали, но вроде основная структура тоже пару лет продержалась. Может быть потом они что-то аналогичное вкрутили, но мы им только другие части продукта помогали развивать.
Статьи хорошие, сейчас если бы хоть по одной был пример исходников — взял бы пробовать в первую очередь. Но сейчас выбор есть. Я часто натыкался на сети/подходы которые могут решить эту задачу.
Плюс тут есть ещё такая штука. Мы в своих работах обычно не занимаемся большим ресёрчем. У нас в большинстве своём не очень большие, ограниченные договора, в рамках которых надо максимально быстро сделать прототип. Мы стараемся максимально заложить в договор разные вариации на случай если что-то не будет работать, но сверять 5-6 сетей обычно сил и рук нет. Обычно берём 2-3 подхода, которые выглядят наиболее перспективными. И как только на каком-то достигаем продуктовой точности — останавливаемся, решаем другие вопросы эксплуатации.
Есть одна практическая задача, которую, наверное, никто не решал, но она не перестает быть интересной.
В прыжках с парашютом есть дисциплина — Wingsuit формации, когда несколько человек прыгают в Wingsuit-ах.
В этой дисциплине устанавливаются свои рекорды — по количеству человек. Но здесь важно не просто собрать как можно больше людей, но и сделать так, чтобы каждый летел в своём секторе.
Только когда это случилось рекорд считается установленным.
Фиксируется это так — все выпрыгивают из самолета, над формацией летит оператор и снимает весь полет сверху.
Затем специально обученные люди просматривают видео кадр за кадром и пытаются наложить сверху сетку так, чтобы не было пересечений линий людьми.
Такие просмотры могут быть очень долгими, а не заметить какой-нибудь случайный кадр — легко. В итоге уходит драгоценное время на повторные попытки, и высок риск упустить тот самый кадр.
Кажется, что задача складывается из нескольких — трекинг людей на движущемся фоне или распознавание на каждом кадре и установка сетки.
Но это и не суть. Сделать стабильное решение для такой задачи + запилить интерфейсы — может без проблем стоить несколько миллионов рублей. При этом 100% стабильного решения оно не даст + будет требовать человека на поддержку время от времени.
Как результат — такие проекты не окупаются.
Куда проще такие задачи делаются через понижение цены работы разметчика. Сделать разметку через Толоку, и всё. Это по цене и стабильности будет на порядок лучше нейронки, будет устойчивой к странным костюмом и кривой съёмке.
Но я думаю что даже это не выгодно будет.
Может быть теперь понятно почему selfdriving cars в продакшн никогда не будет.
Самая сложная задача в Computer Vision