All streams
Search
Write a publication
Pull to refresh
469
0
Мальцев Антон @ZlodeiBaal

Computer Vision, Machine Learning

Send message
Сколько-сколько там лет осталось до наноприращений?
Я очень долго вдуплял о чём эта статья, смотря на соседнюю: habrahabr.ru/post/182554/
«Как уже могло появится руководство?...» — крутилось у меня в голове…
Проморгал, спасибо:)
Статья интересная, хотя, конечно, подход не тот что я выше описал, а с другой стороны. Всё же я предлагал использовать больше вайвлетов и применять их вместо построения спектрограммы, напрямую к сигналу. Любопытно, что одни и те же методы машинного зрения приводят к разной версии алгоритма.

Да, ещё сегодня вспомнилось, возможно вам будет любопытно. Когда вы ищите похожую на сэмпл картину пиков в базе то это очень похоже на две классические задачи для которых придумано огромное количество методов. Первая — привязка снимка к звёздному небу. Вторая — сравнение отпечатков пальцев. Может быть пригодится.
Решил оценить сколько голосов было вброшено. Оно, конечно, условно, погрешность порядочная, но порядок видно. Построил два графика. Сначала график на котором почти ничего не видно. Это гистограмма величин abs(Голоса[t]-Голосах[t+1]). На ней видно насколько часто голосуют N человек одновременно за 10 минут. По оси x — количество голосов за 10 минут, по оси y — количество таких событий.
image
Синий график — голосование за инициативу по автомобилям, красный за инициативу по промилле. В принципе видно, что красный график чуть более растянут, но пока не понятно. А теперь построим график Y=X*F(X). Интеграл по такому графику будет давать полное количество голосов за инициативу.
image
Это уже интереснее. Видно, что до величины 15 голосов в 10 минут графики имеют практически идентичную структуру. А вот после этой величины график алкоголя резко берёт верх. Это говорит нам, что вероятно именно там начались вбросы. Количество голосов от 0 до 15 для синего графика ~15тыс, для красного ~10тыс.
Дальше сделаем предположение, что честное голосование должно быть пропорционально и для всех остальных величин. Это, конечно, смелое предположение, но если постулировать, что вбросы были, то оно вполне реально. Построим график Y=Xс-(0.66*Xк). Интеграл по такому графику для величин более 15 должен давать величину вброса. Получается ~9800 голосов.

Конечно, натянуто и криво, но порядок думаю там такой и есть.
Всегда было любопытно — а нельзя ли эту задачу решать комбинацией двух алгоритмов. Сначала применить набор из N вейвлет для каждого фрагмента трека, где N это достаточно большое число. Под вейвлетами я подразумеваю не совсем классическое определение, а просто коротенькие фрагменты звука. Они могут быть от нескольких миллисекунд до секунд, могут представлять собой нарезку инструментов, могут быть нарезкой постоянной частоты, а могут классические, такие как Хаар, Шляпа, Гаусс. Эта операция спозиционирует фрагмент в N-мерное пространство. При этом устойчивость к шумам и инвариантность должна быть значительно выше классического Фурье-спектра: спектральный шум не сильно влияет на вейвлет, а за счёт большой базы сэмплов даже пара полностью выпадших вейвлетов не будет критична.
Ну а потом произвести поиск ближайшего вектора в N-мерном пространстве. Там есть много хороших и быстрых алгоритмов. Тот же SVM наверняка можно приспособить.
Просто аналогичные способы периодически использую в распознавании объектов на изображениях. Возможно есть какая-то их применимость и к аудиопотоку.
Вот упадёт у них метеорит, потом жалеть будут, что запретили!
20 комментариев и ни одного упоминания трактора…
Я помню, когда я был ребёнком и впервые поиграл в IceWind Dale 2 и Planescape, то я часами потом обсуждал со своими друзьями воображаемые миры, устройство вселенной Planescape, рассуждал о её мифологии, о том какие планы где расположены. И я не знаю, что меня затянуло больше: Властелин Колец, прочитанный за два года до этого, в 6-ом классе, или PS:T, в который я рубал в 8ом.
Круто! Но всё же любопытны задачки для которых используется такая платформа. Выглядит она всё же по игрушечному, не понятно что за серьёзные задачки. Или она для обучения студентов?
Именно рисунок радужки не меняется с возрастом, что подтверждено многочисленными исследованиями. Немножко плывёт только цветность и общий контраст.
Там на картинке FRR, а не ERR. При неизвестном уровне FAR:)
Да вы, как я посмотрю, хамло. Идеальный кандидат для того, чтобы делать рекламу новому продукту.
Нет, почему. 3D лицо и радужка — самые надёжные биометрические характеристики. Про лицо и про такую систему даже на Хабре как-то писали — habrahabr.ru/company/croc/blog/151680/
Конкретно в этой системе вроде не мгновенное снятие, а секунда требуется. Но всё равно это значительно быстрее, чем через палец. А для глаз видел систему (правда живьём не щупал и отчётов по использованию не читал), которая вообще умеет без остановки человека снимать. При этом имеет FAR и FRR свойственные именно глазу.
В любом случае, для получения той же достоверности, что и по лицу требуется не менее трёх-четырёх пальцев. Время их съёма на таких сканерах, которые представлены в этой статье будет измерятся десятком секунд если человек не тормозит. При этом метод по пальцам — контактный.
Это куда медленнее, чем в той статье, на которую я ссылку дал.
Конечно схлопочете!:)
Сейчас есть системы идентификации по радужке и по лицу которые вообще не требуют чтобы человек останавливался:)
Всё зависит от уровня знаний. Если студент знает достаточно, то почему бы не дать 50т.р.

Мы сделав на 4ом курсе биометрию по глазам со статистикой не хуже, чем та, что представлена на рынке разбирались в этой тематике на том уровне, на котором в этой стране от силы 100 человек разбирается. Почему-то к нам не возникало вопроса «а почему мы столько запрашиваем», хотя запрашивали мы переодически и больше «50 т.р.».
Простите, а вы хотя бы знаете что такое FAR и FRR, если такое пишете?
Одно без второго не имеет ни малейшего смысла. Более того, FRR — это отказы доступа, а не ложные пропуски. Отказы доступа куда чаще зависят от некачественной работы сканера чем от алгоритма. В больших тестированиях база обычно вычищается от таких снимков.
Квадратик будет иметь какой-то смысл, если, будет дан уровень FAR для которого строится FRR.

К тому же, стоит отметить что оси без подписи величин это вообще смешно. Если по оси y откладывается вероятность отказа доступа, то это что, получается, что все алгоритмы отсеивают более 20% пользователей?
А если это откладывается процент при одинаковом уровне FAR, то получается, что все алгоритмы имеют практически идентичные характеристика. Разница в 0.5 процента для величины FAR при 0.0001% FRR обычно не существенна.
Опять биометрия без статистики? Только после того как выведена статистика статья имеет смысл к прочтению и обсуждению, а не является очередной «95% индентификацией человека!1!!1».

1) Во-первых, какие у вас FAR FRR по одному пальцу. Какая статистическая независимость при съёмке пальцев одного человека между пальцами.
2) Во-вторых, какой процент брака при съёмке пальца на ваших сканерах. Когда мы занимались этой проблематикой, то внезапно выяснялось, что в среднем 5% пальцев выдают регулярные отказы (при этом у одного человека могут сразу много пальцев плохо распознаваться). Для работников химических предприятий процент отказа уже порядка 30%. При проектировании системы более, чем на 100 человек это уже критические величины.
3) В-третьих, какое время съёмки одного пальца до получения стабильного результата у неподготовленного человека. Если это 15 секунд, то на съёмку пусть даже трёх пальцев уйдёт порядка минуты(с временем на смену), что сделает потоковую идентификацию невозможной, а следовательно, опять же, сильно сужает спектр применимости.
4) В-четвёртых. Хвалебная статья без сравнения с конкурентами выглядит как-то странно. В чём преимущества и недостатки со сравнением вен рук, сравнением радужек и.т.д.

P.S.
AndreyDaeron всё очень грамотно расписал парой постов выше. В принципе мой комментарий даже немного лишний теперь.
А зачем? Были же уже исследования, где делали ультрозвуковой сонар + два микрофона на шапке. В уши подаётся сигнал непосредственно с микрофонов, подвинутый по частоте в слышимую область и усиленный. Мозг в таком случае достаточно быстро учится воспринимать грубую пространственную картинку окружения. При этом оно куда точнее получается и имеется возможность воспринимать объём. Где-то на Хабре даже было, не могу найти.
По используемой электронике там не сильно сложнее схема была, зато куда более эффективная и практичная.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Date of birth
Registered
Activity