По ip не забанили, думаю им не выгодно, так как я просматриваю рекламу при каждом её появлении. Может позже это пофиксят. Через request вполне могут забанить, но стоит попробовать, спасибо!
Проект начинался больше года назад на оборудовании, имеющемся в университете.
Признаюсь, про Maixduino я не знал; про esp32 cam слышал, но не рассматривал его как базу для проекта – распа гораздо удобнее и функциональнее. Насчет «полного аналога» - не думаю, что на esp удастся реализовать работу функционального бота в ТГ параллельно с распознаванием лиц + постоянное обращение к БД. И этого точно там нет «из коробки».
Тестирование на ORL приведено исключительно для сравнения быстродействия. Именно этот набор данных был выбран, поскольку он легкий и был сверху в результатах поискового запроса.
С фактом устаревания Dlib спорить не буду, скажу лишь что его вполне достаточно для решения задач, изначально поставленных перед проектом. Для работы модуля face-recognition, ничего не нужно обучать – он и так находит лица, справляется с их векторным преобразованием и сравнением. Ошибок при внесении векторов лиц в базу – нет, ведь предполагается самостоятельная загрузка фотографий пользователем через бот (можно добавить пометку а-ля «фотография не должна быть смазанной, лицо должно быть отчетливо видно»).
Спасибо, что напомнили про недостатки - они и правда есть. Например, невозможно распознать лицо человека на расстоянии более 5м (разрешение картинки на входе режется для быстрой обработки) и в темноте. Отсутствие возможности переобучения алгоритма распознавания за недостаток не считаю – проект делался не для сложных исследований, а для простых задач.
ЗЫ: большое спасибо за совет с MediaPipe. Потрогаю и внедрю в систему, если будет возможность.
Добрый день. Сравнение с BERTopic не проводилось. Но кажется, BERTopic показал бы лучший результат за счет более детальной обработки эмбеддингов, полученных из модели.
Обычно звуковой сигнал делится на микросэмплы, например по 10-100мс, для каждого семпла рассчитывается MFCC. Полученная последовательность признаков и есть то самое представление буквы А или И. Эти последовательности подаются на вход рекуррентной нейронной сети, и уже сама сеть учится определять какая последовательность соответствует одному звуку, а какая другому
На сколько я знаю dash Enterprise предоставляет компаниям услуги поддержки, хостинг, развертывания и аутентификации в приложениях dash. Но вроде как эти функции существуют за пределами экосистемы. Так dash вроде как выпущен под лицензией MIT и является бесплатным
Тест у вас интересный! Но, как справедливо уже замечено другими, такое даже человек не всегда сможет правильно разобрать, а нейросетевые технологии пока только стремятся к тому, чтобы сравниться с людьми в распознавании объектов на фотографиях. Успехи конечно уже есть, например, на конкурсе ImageNette по классификации изображений алгоритмы глубокого обучения уже превзошли в точности человека, но в области распознавания рукописных текстов машины пока что не настолько продвинулись, чтобы распознать любой текст. Но работы ведутся днями и ночами, и, может быть, в относительно скором времени и самые страшные почерки врачей научим нейросети распознавать лучше людей, чем спасём, возможно, многих))
Да, данный метод применим для сегментации внутренних органов человека. Например в конкурсе на Kaggle “Data Science Bowl 2018” решалась медицинская задача – идентификация клеточных ядер с целью анализа реакции клеток на различные обработки. Исходные данные состоят из картинок сегментированных ядер.
Edge detection используется с помощью встроенной библиотеки OpenCV, где можно использовать разные методы распознавания границ объектов. Однако U-Net сможет распознать более зашумленные изображения или более мелкие, благодаря своей архитерктуре.
Не пробовал.
По ip не забанили, думаю им не выгодно, так как я просматриваю рекламу при каждом её появлении. Может позже это пофиксят. Через request вполне могут забанить, но стоит попробовать, спасибо!
Проект начинался больше года назад на оборудовании, имеющемся в университете.
Признаюсь, про Maixduino я не знал; про esp32 cam слышал, но не рассматривал его как базу для проекта – распа гораздо удобнее и функциональнее. Насчет «полного аналога» - не думаю, что на esp удастся реализовать работу функционального бота в ТГ параллельно с распознаванием лиц + постоянное обращение к БД. И этого точно там нет «из коробки».
Тестирование на ORL приведено исключительно для сравнения быстродействия. Именно этот набор данных был выбран, поскольку он легкий и был сверху в результатах поискового запроса.
С фактом устаревания Dlib спорить не буду, скажу лишь что его вполне достаточно для решения задач, изначально поставленных перед проектом. Для работы модуля face-recognition, ничего не нужно обучать – он и так находит лица, справляется с их векторным преобразованием и сравнением. Ошибок при внесении векторов лиц в базу – нет, ведь предполагается самостоятельная загрузка фотографий пользователем через бот (можно добавить пометку а-ля «фотография не должна быть смазанной, лицо должно быть отчетливо видно»).
Спасибо, что напомнили про недостатки - они и правда есть. Например, невозможно распознать лицо человека на расстоянии более 5м (разрешение картинки на входе режется для быстрой обработки) и в темноте. Отсутствие возможности переобучения алгоритма распознавания за недостаток не считаю – проект делался не для сложных исследований, а для простых задач.
ЗЫ: большое спасибо за совет с MediaPipe. Потрогаю и внедрю в систему, если будет возможность.
Добрый день. Сравнение с BERTopic не проводилось. Но кажется, BERTopic показал бы лучший результат за счет более детальной обработки эмбеддингов, полученных из модели.
Сквозь натянутую улыбку Гарольда пробивается глубокая скрытая боль.
Да, абсолютно верно. В первом фрагменте с тестовым набором должно быть n_features = 30. Спасибо, за замечание. Опечатка исправлена.
Имеется в виду Непараметрический метод гистограммной калибровки. Он кратко описан в данной статье https://dyakonov.org/2020/03/27/проблема-калибровки-уверенности/. В ней также есть ссылка на оригинальное исследование на английском языке
Действительно так, модели энкодеры в этом плане могут отлично дополнить asr, спасибо!
Обычно звуковой сигнал делится на микросэмплы, например по 10-100мс, для каждого семпла рассчитывается MFCC. Полученная последовательность признаков и есть то самое представление буквы А или И. Эти последовательности подаются на вход рекуррентной нейронной сети, и уже сама сеть учится определять какая последовательность соответствует одному звуку, а какая другому
Эту задачу можно решить как раз используя MFCC. То есть, в качестве векторов признаков будут использоваться мел-кепстральные коэффициенты.
Спасибо за дополнение! Возможно, в будущем будет написана статья-продолжение с более глубоким рассмотрением формирования MFCC и кастомных эмбеддингов.
Спасибо за интересный дайджест! очень полезно.
Приведена основная часть кода
Спасибо за интерес к статье, временно рабочий пример предоставить не можем.
На сколько я знаю dash Enterprise предоставляет компаниям услуги поддержки, хостинг, развертывания и аутентификации в приложениях dash. Но вроде как эти функции существуют за пределами экосистемы. Так dash вроде как выпущен под лицензией MIT и является бесплатным
Замечательная разработка, встречали парочку. Спасибо за статью.
Тест у вас интересный! Но, как справедливо уже замечено другими, такое даже человек не всегда сможет правильно разобрать, а нейросетевые технологии пока только стремятся к тому, чтобы сравниться с людьми в распознавании объектов на фотографиях. Успехи конечно уже есть, например, на конкурсе ImageNette по классификации изображений алгоритмы глубокого обучения уже превзошли в точности человека, но в области распознавания рукописных текстов машины пока что не настолько продвинулись, чтобы распознать любой текст. Но работы ведутся днями и ночами, и, может быть, в относительно скором времени и самые страшные почерки врачей научим нейросети распознавать лучше людей, чем спасём, возможно, многих))
Вот могу показать несколько примеров отработки алгоритма.
Да, данный метод применим для сегментации внутренних органов человека. Например в конкурсе на Kaggle “Data Science Bowl 2018” решалась медицинская задача – идентификация клеточных ядер с целью анализа реакции клеток на различные обработки. Исходные данные состоят из картинок сегментированных ядер.
Edge detection используется с помощью встроенной библиотеки OpenCV, где можно использовать разные методы распознавания границ объектов. Однако U-Net сможет распознать более зашумленные изображения или более мелкие, благодаря своей архитерктуре.