Articles / Bookmarks / Profile of berng / Habr

@berng

User

ProfileArticles2PostsNewsComments202

OFITSEROVLAD Aug 23 2024 at 08:00

ICML 2024: как это было и куда движется индустрия

15 min

5.6K

Яндекс corporate blogMachine learning*Conferences

Привет! Меня зовут Владислав Офицеров, и я отвечаю за развитие нейронных технологий в международном Поиске в Яндексе. Недавно я впервые побывал на одной из крупнейших международных конференций по машинному обучению — ICML (The International Conference on Machine Learning). Конференция проходила в Вене, и в этом году от Яндекса туда приехала большая делегация — нас было 46 человек. Конференция продолжалась целую неделю, на ней в разных секциях представили 2600 статей. Масштабные конференции, такие как ICLR и ICML, всегда собирают огромное количество участников и гостей из академии, ведущих компаний в отрасли и перспективных стартапов — все стремятся понетворкаться, послушать интересные доклады и посетить воркшопы.

+33

Siarshai Oct 13 2017 at 05:56

Нестандартная кластеризация 4: Self-Organizing Maps, тонкости, улучшения, сравнение с t-SNE

13 min

26K

Data Mining*Algorithms*Mathematics*Machine learning*

Часть первая — Affinity Propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — Self-Organizing Maps (SOM)
Часть пятая — Growing Neural Gas (GNG)

Self-organizing maps (SOM, самоорганизующиеся карты Кохонена) — знакомая многим классическая конструкция. Их часто поминают на курсах машинного обучения под соусом «а ещё нейронные сети умеют вот так». SOM успели пережить взлёт в 1990-2000 годах: тогда им пророчили большое будущее и создавали новые и новые модификации. Однако, в XXI веке SOM понемногу уходят на задний план. Хоть новые разработки в сфере самоорганизующихся карт всё ещё ведутся (большей частью в Финляндии, родине Кохонена), даже на родном поле визуализации и кластеризации данных карты Кохонена всё чаще уступает t-SNE.

Давайте попробуем разобраться в тонкостях SOM'ов, и выяснить, заслуженно ли они были забыты.

Читать дальше →

+14

YarIkGU Sep 10 2023 at 11:30

Создание библиотеки Python: полный гайд

Medium

7 min

39K

Python*

From sandbox

Создайте свою библиотеку для Python и загрузите на PyPi, сейчас!

В этом туториале я максимально понятно и подробно расскажу о том, как создать свою библиотеку для Python и загрузить её на PyPi, для того, что бы её мог использовать любой!

nagadit Sep 7 2023 at 09:04

«SAM и тут и сям»: Segment Anything Model в задачах компьютерного зрения (часть 2)

Medium

6 min

4.1K

SberDevices corporate blogData Mining*Image processing*Machine learning*Artificial Intelligence

В предыдущей части мы разобрали, как можно улучшить качество предсказаний SAM и ускорить её работу. Мы уже упоминали, что SAM — это фундаментальная модель, а значит, она может использоваться не только для сегментации, но и легко адаптироваться для решения других задач компьютерного зрения. Сегодня мы рассмотрим, как SAM может применяться для решения таких задач, как Image Inpainting, Object Tracking, 3D-сегментация и 3D-генерация, а также увидим, как SAM работает на датасетах из медицинской сферы и сравним дообученную модель с базовыми весами. А еще мы поделимся своим опытом и расскажем, как SAM облегчила нам разметку данных при сборе датасета бьютификации изображений.

SAM и тут и сям...

+12

StepKsu Sep 6 2023 at 13:01

Зарплаты и конкуренция на IT-рынке труда в России сегодня

Easy

6 min

29K

hh.ru corporate blogResearch and forecasts in IT*

Analytics

Всем привет! Каждый год мы в hh.ru проводим множество исследований рынка труда и традиционно делимся с вами самыми горячими результатами. В этот раз наши аналитики вновь перелопатили тонну данных, чтобы выяснить, какие зарплаты сегодня предлагают в IT, насколько изменились доходы в вакансиях, как сильно отличаются зарплаты сеньоров и джунов, в каком регионе готовы платить самые большие деньги, и насколько высокая конкуренция сложилась в 2023 году.

“В детстве мы хотели попасть в открытые космос, но выросли и попали в open space” — гласит бородатая шутка. Сегодня многие хотят стать не абстрактными космонавтами, а сразу вполне конкретными программистами, и это понятно. За последние годы IT-сфера стала для соискателей словно Эльдорадо для конкистадоров — самым желанным и привлекательным вариантом для трудоустройства. В этой статье мы подробно разберемся в современных IT-зарплатах и конкуренции. Но сначала проведем краткий обзор ключевых моментов современного IT-рынка труда.

+15

Mikhail_Ark Sep 6 2023 at 11:00

Чему учат на курсах Data Science? Примеры задач для аналитика на фармрынке

Easy

3 min

11K

Machine learning*Studying in IT

From sandbox

В заметке приведены некоторые актуальные аналитические задачи индустрии. С помощью этого списка вы можете оценить насколько вам может быть интересно учиться на DA/DS, а если у вас уже есть опыт, то обогатите свои знания задачами из фармацевтической отрасли.

Sagidullin Sep 7 2023 at 02:10

Fairphone 5: на что способен новый модульный смартфон? Железо, софт и обновления

3 min

33K

Selectel corporate blogGadgetsSmartphones

О модульных телефонах, в том числе и Fairphone, мы писали в своем блоге не раз и не два. Сейчас появился новый повод вспомнить этот класс устройств — дело в том, что вышел Faiphone 5. Насколько можно судить, смартфон получил ряд апдейтов и улучшений, не потеряв при этом ничего из того, за что его ценили — модульности и надежности. Подробности — под катом.

Читать дальше →

+40

DenisN03 Sep 5 2023 at 13:33

Автоматическая разметка данных

Medium

4 min

Python*Data Mining*Image processing*Machine learning*Artificial Intelligence

Tutorial

В задачах машинного обучения значительную часть времени занимает процесс подготовки данных. К этапу подготовки относятся: сбор, фильтрация, разметка и предобработка данных.В данной статье я буду рассматривать процесс автоматической разметки данных для задач компьютерного зрения.

09.03.2023 года была представлена модель Grounding DINO. Данная модель позволяет детектировать объекты на изображениях по текстовому описанию. Согласно аннотации к статье Grounding DINO, модель достигает значения 52,5 AP на бенчмарке "Zero-Shot Object Detection on MS-COCO". Далее мы рассмотрим как использовать эту модель для автоматической разметки данных.

kucev Sep 5 2023 at 18:39

8 инструментов для аннотирования изображений в 2023 году

7 min

6.2K

Big Data*Data Mining*Artificial IntelligenceMachine learning*Image processing*

Translation

Аннотирование изображений — основа для обучения моделей машинного обучения. В статье мы расскажем о лучших инструментах аннотирования, которые сделают этот процесс эффективным.

Что такое аннотирование изображений?

После завершения ручного аннотирования модель машинного обучения учится на размеченных изображениях. Все ошибки разметки также моделью выучиваются и дублируются, потому что аннотирование изображений задаёт критерии, которым стремится соответствовать модель.

Разметка или категоризация изображения описательными данными, помогающими в идентификации и классификации объектов, людей или сцен на картинке, называется аннотированием изображений.

Аннотирование изображений критически важно в таких сферах, как компьютерное зрение, роботостроение и беспилотное вождение, потому что оно позволяет роботам воспринимать и интерпретировать визуальные данные.

Примерами аннотирования изображений являются отрисовка ограничивающих прямоугольников вокруг объектов на фотографии, разметка объектов текстом или разделение изображения на части на основании его визуальных признаков.

Читать дальше →

madrugado Sep 6 2023 at 13:00

Пять книг про NLP, с которых можно начать

Easy

3 min

19K

Open Data Science corporate blogMWS AI corporate blogМТС corporate blogProfessional literature*Natural Language Processing*

Review

Всем привет! Меня зовут Валентин Малых, я — руководитель направления NLP-исследований в MTS AI, вот уже 6 лет я читаю курс по NLP. Он проходит на платформе ODS, а также в нескольких университетах. Каждый раз при запуске курса студенты спрашивают меня про книги, которые можно почитать на тему обработки естественного языка. Поскольку я все время отвечаю одно и то же, появилась идея сделать пост про мой список книг, заодно описав их.

+13

JulliaShulga Aug 26 2023 at 09:30

Создайте свой клон с помощью Fine-tuned LLM

Medium

10 min

20K

Programming*Machine learning*Artificial Intelligence

From sandbox

Translation

Обретите цифрового двойника

Цель этой статьи - показать, как эффективно и с минимальными затратами настроить LLM на пользовательском датасет. Мы рассмотрим использование модели Falcon-7B с адаптерами LoRa, с использованием библиотеки Lit-GPT.

+14

Wladradchenko Aug 21 2023 at 05:46

Бесконечное радио создаваемое нейронными сетями. Open-source проект

Easy

2 min

13K

Open source*JavaScript*Go*Machine learning*Artificial Intelligence

Case

Привет всем увлеченным нейронными сетями или тем, кто хочет вникнуть в технологии. Сегодня я хотел бы познакомить вас со своим захватывающим проектом с открытым исходным кодом «Бесконечное нейронное радио». Бесконечное, потому что lofi музыка и подкасты могут генерироваться нейронными сетями бесконечно. В этой статье я бы хотел углубиться в то, как все работает изнутри.

Вдохновением для этого проекта послужило для меня разочарование в моем любимом музыкальном приложении. Поскольку со временем приложение стало не удобным для меня, я почувствовал потребность создать что‑то свое с лофи‑музыкой — жанра, который помогает сосредоточиться во время программирования или просто служит расслабляющим фоном в вечернее время. Приложение содержит цитаты, сгенерированные нейронными сетями, в сопровождении GIF‑анимации в пиксельном стиле, которая тоже частино сгенерировано нейронными сетями. Если подкасты вам не по душе, вы можете их отключить и выбрать только нейронную музыку или даже настроиться на радиостанцию, которая уже делается людьми.

Узнать как работает

+12

TilekSamiev Aug 24 2023 at 08:01

Perfusion. Это как Midjourney, только лучше

Easy

7 min

21K

Timeweb Cloud corporate blogWorking with 3D-graphics*Image processing*Machine learning*Artificial Intelligence

Review

Когда дело доходит до автоматического создания изображений на основе собственных идей, на помощь приходят две самых популярных среди пользователей нейросети — DALL-E 2 и Midjourney. Обе являются инструментами, способными создавать реалистичные изображения с хорошим качеством. Эти ИИ обычно понимают, чего вы хотите, и пытаются генерировать новые изображения, в том числе что-то похожее на конкретный пример, но часто можно увидеть, что результат совершенно не соответствует запросам. Что ж, это изменится с новой моделью от NVIDIA — Perfusion, нейросетью, которая позволяет создавать изображения из описаний на естественном языке.

В отличие от своих тяжеловесных конкурентов, Perfusion выделяется компактным размером моделей всего в 100 КБ и 4-минутным временем обучения. Perfusion предлагает пользователям возможность комбинировать различные настраиваемые элементы с набором изображений, которые функционируют как «концепции». Модель способна изучить «концепцию» объекта (например, вещи, животного или человека), а затем генерировать эти концепции в новых сценариях.

Читать дальше →

+16

kucev Aug 24 2023 at 17:17

Неструктурированные данные: примеры, инструменты, методики и рекомендации

17 min

16K

Big Data*Data Engineering*Data Mining*Machine learning*Data storage*

Translation

В современном построенном на данных мире организации накапливают огромные объёмы информации, позволяющие принимать важные решения и выводы. Целых 80% от этой цифровой сокровищницы представляют собой неструктурированные данные, в которых отсутствует формат и упорядоченность.

Чтобы продемонстрировать объём неструктурированных данных, мы сошлёмся на десятую ежегодную инфографику Data Never Sleeps, показывающую, какое количество данных ежеминутно генерируется в Интернете.

Сколько данных генерировалось ежеминутно в 2013 и 2022 годах. Источник: DOMO

Только представьте: в 2022 году пользователи каждую минуту отправляли 231,4 миллиона электронных писем, загружали на YouTube пятьсот часов видео и делились 66 тысячами фотографий в Instagram. Разумеется, доступ к такому огромному пулу неструктурированных данных может дать компаниям большие возможности глубже понимать своих клиентов, рынки и операции, в конечном итоге приводя к росту и успеху.

В этой статье мы окунёмся в мир неструктурированных данных, подчеркнём их важность и представим практичные советы по извлечению ценной информации из этого часто недооцениваемого ресурса. Мы рассмотрим разные типы данных, варианты хранения и управления ими, а также различные методики и инструменты для анализа неструктурированных данных. Подробно разобравшись в этих аспектах, вы сможете овладеть истинным потенциалом неструктурированных данных и преобразовать их в стратегический ресурс.

Читать дальше →

alstar82 Jul 14 2023 at 14:11

Синтез обучения с подкреплением и классического планирования: как выиграть соревнование CVPR Habitat Challenge 2023

Hard

16 min

2.8K

AIRI corporate blogRoboticsMachine learning*Image processing*Algorithms*

Case

Всем привет! Меня зовут Алексей Староверов, работаю научным сотрудником в AIRI и в составе нашей команды (вместе с Кириллом Муравьевым, Татьяной Земсковой, Дмитрием Юдиным и Александром Пановым) мы выиграли соревнование Habitat Challenge, которое проводилось в рамках крупнейшей конференции по компьютерному зрению CVPR 2023. Мы смогли эффективнее других команд научить робота навигироваться до целевых объектов в новых помещениях с использованием только RGB-D камеры, датчика GPS и компаса. Сейчас это является очень важной задачей при создании роботов-помощников, выполняющих задачи по инструкциям на естественном языке. В этой заметке я расскажу, как это у нас получилось.

Wladradchenko Aug 11 2023 at 05:57

Основные ресурсы нейронных сетей для начинающих и энтузиастов

Easy

4 min

13K

Machine learning*Artificial IntelligenceReading roomStudying in IT

Review

Собрал все в одном месте! Выбор образовательных материалов в области нейронных сетей, а также различные проекты с открытым исходным кодом с нейронными сетями, которые могут быть полезны для разработки сервисов

Ознакомиться

+21

befozg Jun 20 2023 at 08:12

Матирование изображений, или как получить фотореалистичный передний план

7 min

4.1K

SberDevices corporate blogImage processing*Mathematics*Machine learning*Artificial Intelligence

В последнее время в области компьютерного зрения произошло много революционных событий, но есть ряд классических задач, решение которых остается актуальным. Одна из них — матирование, которое применяется для редактирования изображений и видео через извлечение нужных объектов с субпиксельной точностью. Решения этой задачи вы можете видеть в программах для кинопроизводства и фоторедакторах. В этой статье мы хотим познакомить вас с нашим новым подходом к матированию изображений. Изначально мы в SberDevices стремились решить задачу для портретов, но обобщающая способность модели позволяет использовать её и для изображений, выполненных в полный рост, для картинок с животными и так далее.

lenant Mar 16 2023 at 14:51

Neural Network Optimization: океан в капле

Easy

14 min

21K

Doubletapp corporate blogServer optimization*Image processing*Machine learning*Artificial Intelligence

Review

Machine learning season

Всех приветствую, меня зовут Антон Рябых, работаю в Doubletapp. Вместе с коллегой Данилом Гальпериным мы написали статью про важный этап в процессе обучения нейронных сетей и получения необходимых нам результатов — оптимизацию модели. Зачем нужно оптимизировать модель, если и так все работает? Но как только вы начнете разворачивать модель на устройстве, которое будет ее обрабатывать, перед вами встанет множество проблем.

Более крупные модели занимают больше места для хранения, что затрудняет их распространение. Более крупные модели требуют больше времени для работы и могут потребовать более дорогого оборудования. Это особенно важно, если вы создаете модель для приложения, работающего в реальном времени.

Оптимизация моделей направлена на уменьшение размера моделей при минимизации потерь в точности и производительности.

Методы оптимизации

• Pruning — устранение части параметров нейронной сети.
• Quantization — уменьшение точности обрабатываемых типов данных.
• Knowledge distillation — обновление топологии исходной модели до более эффективной, с уменьшенным количеством параметров и более быстрым выполнением.
• Weight clustering — сокращение количества уникальных параметров в весах модели.
• OpenVino, TensorRT — фреймворки, с помощью которых можно оптимизировать модели.

+28