Статьи / Закладки / Профиль Mdm3 / Хабр

@Mdm3

Пользователь

ПрофильСтатьи3ПостыНовостиКомментарии60

Dumbris 1 фев 2018 в 18:21

Бесплатная GPU Tesla K80 для ваших экспериментов с нейросетями

6 мин

74K

*nix*GPGPU*Google Cloud Platform*Машинное обучение*

Около месяца назад Google сервис Colaboratory, предоставляющий доступ к Jupyter ноутбукам, включил возможность бесплатно использовать GPU Tesla K80 с 13 Гб видеопамяти на борту. Если до сих пор единственным препятствием для погружения в мир нейросетей могло быть отсутствие доступа к GPU, теперь Вы можете смело сказать, “Держись Deep Learning, я иду!”.

Я попробовал использовать Colaboratory для работы над kaggle задачами. Мне больше всего не хватало возможности удобно сохранять натренированные tensorflow модели и использовать tensorboard. В данном посте, я хочу поделиться опытом и рассказать, как эти возможности добавить в colab. А напоследок покажу, как можно получить доступ к контейнеру по ssh и пользоваться привычными удобными инструментами bash, screen, rsync.

Читать дальше →

+40

iovodov 31 мая 2022 в 13:34

Система распознавания шрифта Брайля. Читаем написанное белым по белому

13 мин

13K

Блог компании Open Data ScienceМашинное обучение*Accessibility*Обработка изображений*

В 2018 году мы взяли из детдома в семью слепую девочку Анжелу. Тогда я думал, что это чисто семейное обстоятельство, никак не связанное с моей профессией разработчика систем компьютерного зрения. Но благодаря дочери через два года появилась программа и интернет-сервис для распознавания текстов, написанных шрифтом Брайля - Angelina Braille Reader.

Сейчас этот сервис используют сотни людей и в России, и за ее пределами. Тема оказалась хайповой, сюжет о программе даже показали в федеральных новостях на ТВ. Но что важнее - за свою многолетнюю карьеру в ИТ ни в одном проекте я не получал столько искренних благодарностей от пользователей.

Ниже расскажу о том, как делалась эта разработка и с какими трудностями пришлось столкнуться. Более развернутое описание приведено в публикациях [1,2].

Возможно, кто-то захочет внести в проект свой вклад.

+147

ZlodeiBaal 10 мая 2022 в 14:23

Как улучшить распознавание скелетов в MediaPipe

5 мин

5.8K

Блог компании RecognitorИскусственный интеллектМашинное обучение*Обработка изображений*Алгоритмы*

Туториал

Я очень люблю скелетные детекторы из Mediapipe. Чтобы запустить их нужно всего несколько минут. Работает на разных платформах (мобильные, pc, embedded, и.т.д.). И выдает достаточное качество для многих применений.

Но надо признать что не всюду его можно брать и использовать. Давайте я расскажу как небольшими силами можно его улучшить. Приведенная тут логика будет построена вокруг Mediapipe, но она им не ограничена. Применяя аналогичные подходы можно улучшить практически любой скелетный алгоритм.

+14

Greiv656 10 мая 2022 в 03:56

Не Raspberry единым: мощные и не очень одноплатники конца весны 2022 года

4 мин

39K

Блог компании SelectelПроизводство и разработка электроники*Компьютерное железоГаджетыDIY или Сделай сам

Мы часто пишем о «малинках», поскольку являемся поклонниками этой линейки устройств. Но кроме Raspberry есть и другие одноплатники, на которые стоит обратить внимание. Среди них есть как не очень производительные системы, так и устройства, которые вполне способны на решение серьезных задач. О тех и о других сегодня поговорим — все самое интересное под катом.

Читать дальше →

+65

Kwent 8 дек 2020 в 09:02

Не царская у тебя физиономия! Функции потерь для задачи распознавания лиц

10 мин

19K

Блог компании NtechLabМашинное обучение*Обработка изображений*

Кадр из фильма "Иван Васильевич меняет профессию"

Помните этот момент из легендарного произведения Гайдая? Удивительно, насколько по-разному может восприниматься один и тот же человек с одним и тем же лицом. А когда речь идет о миллионах разных людей и нужно найти одного единственного — даже человек уже бессилен, а сверточные нейросети продолжают справляться. Такое большое количество лиц вынуждает искать новые подходы к разграничению. Один из таких подходов — модификации функций потерь, которые помогают нам не потонуть в огромных датасетах при распознавании лиц, довольно точно определяя, кто есть кто.

Под катом мы рассмотрим различные модификации кросс-энтропии для задачи распознавания лиц.

Читать дальше →

+15

NewTechAudit 21 июл 2021 в 11:07

Streamlit. Поиск кратчайшего пути

3 мин

33K

Машинное обучение*Программирование*Визуализация данных*Python*

Самое длинное приключение начинается со слов «Я знаю короткую дорогу».

Интересно о чем это? Читай дальше!

asozykin 3 мая 2022 в 11:19

Развертывание моделей машинного обучения. Часть первая. Размещаем Web-приложение в облачной платформе Heroku

11 мин

11K

Облачные вычисления*Машинное обучение*Учебный процесс в ITDevOps*Искусственный интеллект

Туториал

В этой серии статей мы рассмотрим, как на основе готовых моделей создавать приложения, использующие машинное обучение, и организовывать доступ пользователей к ним. Начнем с создания Web-приложения для классификации изображений на Streamlit и развертывания его на облачной платформе Heroku в бесплатном аккаунте. Этот подход подойдет для прототипов и персональных или учебных проектов.

DmitrySpb79 19 июл 2019 в 22:57

NVIDIA Jetson Nano: тесты и первые впечатления

5 мин

91K

DIY или Сделай самPython*ГаджетыКомпьютерное железоПрограммирование*

Привет, Хабр.

Относительно недавно, в этом, 2019 году, NVIDIA анонсировала одноплатный компьютер совместимого с Raspberry Pi форм-фактора, ориентированный на AI и ресурсоемкие расчеты.

После его появления в продаже, стало интересно посмотреть, как это работает и что на нем можно делать. Стандартные бенчмарки использовать не так интересно, так что придумаем свои, для всех тестов в тексте приведены исходники. Для тех, кому интересно что получилось, продолжение под катом.

Читать дальше →

+39

athmath 12 апр 2022 в 12:49

OCR за час? — Не думаю

4 мин

22K

Блог компании Инфосистемы ДжетПрограммирование*Машинное обучение*Искусственный интеллектАлгоритмы*

Одним прекрасным вечером коллега попросил подумать над алгоритмом поворота серийных номеров на металлических брусках. Но глобально задача предполагала именно распознавание номеров. Казалось бы, современные коробочные решения должны легко решить нашу задачу. О том, что было на самом деле, и пойдет речь в этой статье.

+29

ternaus 7 апр 2017 в 14:00

Kaggle: Британские спутниковые снимки. Как мы взяли третье место

22 мин

42K

Блог компании Open Data ScienceОбработка изображений*Машинное обучение*Алгоритмы*Python*

Сразу оговорюсь, что данный текст — это не сухая выжимка основных идей с красивыми графиками и обилием технических терминов (такой текст называется научной статьей и я его обязательно напишу, но потом, когда нам заплатят призовые $20000, а то, не дай бог, начнутся разговоры про лицензию, авторские права и прочее.) (UPD: https://arxiv.org/abs/1706.06169). К моему сожалению, пока устаканиваются все детали, мы не можем поделиться кодом, который написали под эту задачу, так как хотим получить деньги. Как всё утрясётся — обязательно займемся этим вопросом. (UPD: https://github.com/ternaus/kaggle_dstl_submission)

Так вот, данный текст — это скорее байки по мотивам, в которых, с одной стороны, всё — правда, а с другой, обилие лирических отступлений и прочей отсебятины не позволяет рассматривать его как что-то наукоемкое, а скорее просто как полезное и увлекательное чтиво, цель которого показать, как может происходить процесс работы над задачами в дисциплине соревновательного машинного обучения. Кроме того, в тексте достаточно много лексикона, который специфичен для Kaggle и что-то я буду по ходу объяснять, а что-то оставлю так, например, вопрос про гусей раскрыт не будет.

+74

Arseny_Info 28 окт 2020 в 19:38

Шесть степеней свободы: 3D object detection и не только

7 мин

8.9K

Блог компании Open Data ScienceАлгоритмы*Обработка изображений*Машинное обучение*

В компьютерном зрении часто приходится работать с двумерными изображениями, и значительно реже - с 3D объектами. Из-за этого многие ML инженеры чувствуют себя неуверенно в этой области: много незнакомых слов, непонятно, куда тут применить старых друзей Resnet и Unet. Поэтому сегодня я хотел бы немного поговорить о 3D на примере задачи определения шести степеней свободы, что в каком-то виде синонимично 3D object detection. Я разберу одну из свежих работ на эту тему с некоторыми отступлениями.

Кратко о задаче

Для начала давайте определимся, что такое шесть степеней свободы (6 DoF - degrees of freedom). Представим себе некоторый ригидный (неизменяемый, т.е. при трансформации все точки будут оставаться на той же дистанции друг от друга) объект в трехмерном мире. Чтобы описать его положение относительно наблюдателя понадобится 6 измерений: три будут отвечать за повороты по разным осям, а еще три - за смещение по соответствующим осям. Соответственно, имея эти шесть чисел, мы представляем, как объект расположен относительно какого-то базиса (например, точки, с которой ведется фотосъемка). Эта задача является классической для робототехники (где находится объект, который нужно схватить роборукой?), дополненной реальности (где нарисовать маску в MSQRD, ушки в Snapchat или кроссовки в Wanna Kicks) , беспилотных автомобилей и других доменов.

Я буду рассматривать статью MobilePose: Real-Time Pose Estimation for Unseen Objects with Weak Shape Supervision (Hou et al., 2020). Эта статья, написанная авторами из Google Research, предлагает надежный и, что немаловажно, быстрый пайплайн для решения задачи, будет уместно разобрать его по частям.

+38

boygenius 14 фев 2022 в 13:30

Проблемы современного машинного обучения

41 мин

44K

Блог компании Open Data ScienceМашинное обучение*Научно-популярноеИскусственный интеллектNatural Language Processing*

Технотекст 2021

Во многих популярных курсах машинного и глубокого обучения вас научат классифицировать собак и кошек, предсказывать цены на недвижимость, покажут еще десятки задач, в которых машинное обучение, вроде как, отлично работает. Но вам расскажут намного меньше (или вообще ничего) о тех случаях, когда ML-модели не работают так, как ожидалось.

Частой проблемой в машинном обучении является неспособность ML-моделей корректно работать на большем разнообразии примеров, чем те, что встречались при обучении. Здесь идет речь не просто о других примерах (например, тестовых), а о других типах примеров. Например, сеть обучалась на изображениях коровы, в которых чаще всего корова был на фоне травы, а при тестировании требуется корректное распознавание коровы на любом фоне. Почему ML-модели часто не справляются с такой задачей и что с этим делать – мы рассмотрим далее. Работа над этой проблемой важна не только для решения практических задач, но и в целом для дальнейшего развития ИИ.

+102

Tati_dr 2 дек 2020 в 12:12

Переводит и показывает нейросеть: из устной речи в жестовую

3 мин

10K

Блог компании SelectelНаучно-популярноеМашинное обучение*Искусственный интеллектВизуализация данных*

Британские ученые обучили ИИ трансформировать устную речь в видео с виртуальным сурдопереводчиком. Алгоритм самостоятельно оценивает качество работы. Нейросеть поможет людям с частичной или полной потерей слуха улучшить восприятие контента и свободнее чувствовать себя на публичных мероприятиях.

В мире десятки миллионов глухих и слабослышащих людей, использующих жестовый язык как основное средство коммуникации. С одной стороны, в онлайн-мире проблема общения для слабослышащих людей решается при помощи субтитров. Но с другой — популярные сейчас вебинары, стримы и прочий контент приходится переводить на жестовый язык в режиме реального времени. Ученые давно исследуют эту проблему и ищут решение.

Читать дальше →

+20

ternaus 9 дек 2021 в 15:59

Рождение Albumentations

15 мин

8.2K

Блог компании Open Data SciencePython*Алгоритмы*Обработка изображений*Машинное обучение*

В этом посте я расскажу историю появления Open Source библиотеки Albumentations как я ее запомнил. Я не буду углубляться в технические детали. Основная задача текста - логирование, то есть надо написать историю, которую мне будет интересно прочитать через 20 лет.

История будет затянутая, с лишними подробностями, более того - основная часть будет о том, как все начиналось, а уже процесс итеративных улучшений будет покрыт меньше.

+57

brain_leo 18 сен 2020 в 11:01

Машинное обучение. Нейронные сети (часть 3) — Convolutional Network под микроскопом. Изучение АПИ Tensorflow.js

10 мин

18K

Машинное обучение*TensorFlow*

В предыдущих статьях, использовался только один из видов слоев нейронной сети – полносвязанные (dense, fully-connected), когда каждый нейрон исходного слоя имеет связь со всеми нейронами из предыдущих слоев.

Чтобы обработать, например, черно-белое изображение размером 24x24, мы должны были бы превратить матричное представление изображения в вектор, который содержит 24x24 элементов. Как можно вдуматься, с таким преобразованием мы теряем важный атрибут – взаимное расположение пикселей в вертикальном и горизонтальном направлении осей, а также, наверное, в большинстве случаев пиксел, находящийся в верхнем левом углу изображения вряд ли имеет какое-то логически объяснимое влияние друг на друга в большинстве случаев.

Для исключения этих недостатков – для обработки изображений используют сверточные слои (convolutional layer, CNN).

Основным назначением CNN является выделение из исходного изображения малых частей, содержащих опорные (характерные) признаки, такие как ребра, контуры, дуги или грани. На следующих уровнях обработки из этих ребер можно распознать более сложные повторяемые фрагменты текстур (окружности, квадратные фигуры и др.), которые дальше могут сложиться в еще более сложные текстуры (часть лица, колесо машины и др.).

Например, рассмотрим классическую задачу – распознавание изображения цифр. Каждая цифра имеет свой набор характерных для них фигур (окружности, линии). В тоже самое время каждую окружность или линию можно составить из более мелких ребер (рисунок 1)

ZlodeiBaal 19 июл 2021 в 11:43

ComputerVision и стиль

9 мин

25K

Блог компании RecognitorАлгоритмы*Обработка изображений*Машинное обучение*Искусственный интеллект

Несколько месяцев назад я писал статью про тихую революцию в ComputerVision - про трансформеры. А сейчас я хочу поговорить про другую революцию в CV. Уже не такую тихую (статьи тут куда более известные). Рассказ будет про GAN'ы. Как ими сегодня умеют управлять, и что достигли. В первую очередь это StyleGan и его производные.
В последний год-полтора появилось много различных способов управлять GAN-сетями и улучшилось их качество. Ещё чуть чуть и… Что? Можно будет генерить фильмы по описанию? Игры? Нужно ли будет рисовать крутые текстуры, или их можно будет создать?Попробую показать куда дошла современная технология, и чего ожидать от GAN’ов.

+66

apelsyn 24 дек 2021 в 06:42

Распознавание номерных знаков. Как все ускорить

8 мин

22K

Python*Искусственный интеллектМашинное обучение*

Nomeroff Net. Как ускорить распознавние номерных знаков.

После запуска моделей на прод рано или поздно приходит понимание того, что Ваши сервисы популярны и что KPI растут. Вместе с популярностью приходят тормоза и нестабильность. В этой статье речь пойдет о прикладном аспекте оптимизации быстродействия алгоритмов/моделей на примере движка распознавания автомобильных номеров “Nomeroff Net”. Буду делиться опытом, полученным на протяжении 2-х летней разработки. Если коротко: нам удалось ускорить время распознавания 1 фото более чем в 10 раз.

“Чел догадался в свой сервер вставить RTX 3090” подумаете Вы… Приблизительно так и было, только если взять замеры до установки GPU то все ускорили в 100+ раз :).
Не будет детального описания архитектуры моделей (они давно известны в узких кругах), хочу поделиться важными моментами, на которые стоит обратить внимание при оптимизации ваших ML-сервисов.

Читать дальше →

+20

grigoryvp 19 дек 2018 в 12:02

Pylint изнутри. Как он это делает

15 мин

24K

Блог компании Конференции Олега Бунина (Онтико)Python*Веб-разработка*Совершенный код*

Разные помощники в написании классного кода нас просто окружают, линтеры, тайпчекеры, утилиты для поиска уязвимостей, всё с нами. Мы привыкли и используем не вдаваясь в детали, как «черный ящик». Например, мало кто разбирается в принципах работы Pylint — одного из таких незаменимых инструментов для оптимизации и улучшения кода на Python.

А вот Максим Мазаев знает, насколько важно понимать свои инструменты, и нам рассказал на Moscow Python Conf++. На реальных примерах показал, как знание внутреннего устройства Pylint и его плагинов помогло уменьшить время code review, улучшить качество кода и вообще повысить эффективность разработки. Ниже расшифровка-инструкция.

+37

dairok 12 мая 2020 в 10:01

MASK-RCNN для поиска крыш по снимкам с беспилотников

11 мин

8.4K

Блог компании ГК ЛАНИТPython*Искусственный интеллектМашинное обучение*Обработка изображений*

В белом-белом городе на белой-белой улице стояли белые-белые дома… А как быстро вы можете найти все крыши домов на этой фотографии?

Все чаще можно слышать про планы правительства провести полную инвентаризацию объектов недвижимости с целью уточнения кадастровых данных. Для первичного решения этой задачи можно применить простой способ, основанный на расчете площади крыш капитальных строений по аэрофотоснимкам и дальнейшее сопоставление с кадастровыми данными. К сожалению, ручной поиск и расчет занимает много времени, а поскольку новые дома сносятся и строятся непрерывно, то расчет требуется повторять снова и снова. Сразу возникает гипотеза, что этот процесс можно автоматизировать с помощью алгоритмов машинного обучения, в частности, Computer Vision. В этой статье я расскажу о том, как мы в «НОРБИТ» решали эту задачу и с какими сложностями столкнулись.

Читать дальше →

+83

prickly_u 26 авг 2018 в 18:36

Mask R-CNN: архитектура современной нейронной сети для сегментации объектов на изображениях

13 мин

100K

Искусственный интеллектМашинное обучение*Обработка изображений*

Времена, когда одной из самых актуальных задач компьютерного зрения была способность отличать фотографии собак от фотографий кошек, уже остались в прошлом. На данный момент нейронные сети способны выполнять куда более сложные и интересные задания по обработке изображений. В частности, сеть с архитектурой Mask R-CNN позволяет выделять на фотографиях контуры («маски») экземпляров разных объектов, даже если таких экземпляров несколько, они имеют различный размер и частично перекрываются. Сеть так же способна к распознаванию поз людей на изображении.

Читать дальше →

+19

1 2 ...

8 9