Результаты поиска по запросу «[umap]» / Хабр

Публикации Хабы Компании Пользователи Комментарии

a-pichugin 6 мар 2018 в 12:59

Обзор нового алгоритма уменьшения размерности UMAP. Действительно ли он лучше и быстрее, чем t-SNE?

6 мин

24K

Блог компании New Professions LabData Mining*Big Data*Визуализация данных*Машинное обучение*

Привет, Хабр! Задача снижения размерности является одной из важнейших в анализе данных и может возникнуть в двух следующих случаях. Во-первых, в целях визуализации: перед тем, как работать с многомерными данными, исследователю может быть полезно посмотреть на их структуру, уменьшив размерность и спроецировав их на двумерную или трехмерную плоскость. Во-вторых, понижение размерности полезно для предобработки признаков в моделях машинного обучения, поскольку зачастую неудобно обучать алгоритмы на сотне признаков, среди которых может быть множество зашумленных и/или линейно зависимых, от них нам, конечно, хотелось бы избавиться. Наконец, уменьшение размерности пространства значительно ускоряет обучение моделей, а все мы знаем, что время — это наш самый ценный ресурс.

UMAP (Uniform Manifold Approximation and Projection) — это новый алгоритм уменьшения размерности, библиотека с реализацией которого вышла совсем недавно. Авторы алгоритма считают, что UMAP способен бросить вызов современным моделям снижения размерности, в частности, t-SNE, который на сегодняшний день является наиболее популярным. По результатам их исследований, у UMAP нет ограничений на размерность исходного пространства признаков, которое необходимо уменьшить, он намного быстрее и более вычислительно эффективен, чем t-SNE, а также лучше справляется с задачей переноса глобальной структуры данных в новое, уменьшенное пространство.

В данной статье мы постараемся разобрать, что из себя представляет UMAP, как настраивать алгоритм, и, наконец, проверим, действительно ли он имеет преимущества перед t-SNE.

Читать дальше →

+20

Sildream 29 апр 2020 в 11:28

Мария Попова: «Некоторые впервые узнали про OpenStreetMap благодаря тому, что отмечали борщевик на карте»

8 мин

10K

Open source*OpenStreetMap*Геоинформационные сервисы*Социальные сети и сообществаИнтервью

Мария Попова — художник и основатель общественного движения “Антиборщевик”. Не так давно она перевела карту своего проекта на сервис uMap, который работает с картами OpenStreetMap. Почему она это сделала, как быстро освоила uMap и зачем борется с борщевиком — обо всем этом она рассказала в интервью.

Читать дальше →

+17

skleg 13 янв 2022 в 13:45

Кластеризация изображений с помощью нейросети CLIP

5 мин

5.9K

Блог компании FUNCORPPython*Обработка изображений*Машинное обучение*Data Engineering*

В статье пойдёт речь о том, как можно автоматически разделить датасет изображений на кластеры, которые поделены по качественному контекстному признаку, благодаря эмбедингам из нашумевшей нейронной сети CLIP от компании Илона Маска. Расскажу на примере контента из нашего приложения iFunny.

Кластеризация считается unsupervised задачей — это значит, что нет никакой явной разметки целевых значений, то есть нет «учителя». В нашем случае мы загружаем некий датасет картинок и хотим произвольно, но качественно побить его на кластеры.

Например, набор изображений животных может разделиться на кластеры по виду, по полосатости, по количеству лап или другим признакам. В любом случае ожидается понятная логика разбивки, которую можно дальше использовать для других задач.

Под катом расскажу, как мы построили логичную кластеризацию с помощью библиотеки HDBSCAN и векторов из нейронной сети CLIP, и каких результатов добились на выходе.

+51

NewTechAudit 14 фев 2022 в 14:10

Снижаем размерность

3 мин

4.8K

Python*Программирование*Визуализация данных*

Всем привет! Рассмотрю два популярных алгоритма уменьшения размерности, а именно T-distributed Stochastic Neighbor Embedding (t-SNE) и Uniform Manifold Approximation and Projection (UMAP). Их удобно использовать, когда необходимо визуализировать данные с большим количеством параметром (также будем называть это размерностью данных).